Contexte et atouts du poste
Ce poste de data librarian est ouvert au sein de l'équipe-projet ALMAnaCH du Centre Inria de Paris. ALMAnaCH est une équipe de recherche d'une cinquantaine de membres, dont 7 membres permanents, spécialisée dans le traitement automatique des langues (TAL) et les humanités numériques (traitement des sources historiques et littéraires par l'informatique). Elle fait partie des 230 équipes-projets d'Inria, l'institut national de recherche en informatique et en automatique, établissement public de recherche regroupant 9 centres de recherche, dont le Centre de Paris auquel appartient ALMAnaCH.
Le poste prend place dans le contexte du projet Corpus Liberatum Linguae Graecae, dont l'un des objectifs est de numériser et mettre à disposition librement des corpus de textes en grec ancien sous la forme de fichiers XML TEI. Spécifiquement, le projet vise à combler les manques dans les corpus ouverts existants tout en fournissant une alternative sérieuse aux projets uniquement commerciaux et fermés.
Ce projet implique, au-delà d'Inria, une vingtaine de partenaires français issus d'une dizaine d'institutions, rassemblés par la volonté d'améliorer la situation de la science ouverte en études classiques et en particulier pour le grec ancien. Parmi ces partenaires, on trouvera des institutions partenaires pour la numérisation (Persée, INST), des partenaires hellénistes (afin d'aider à guider les priorités du projet) et des partenaires du côté apprentissage machine et linguistique computationnelle. Des partenariats avec les projets étrangers sont prévus.
Le projet implique le porteur, Thibault Clérice (chercheur permanent, spécialiste d'humanités computationnelles), ainsi que Benoît Sagot (directeur de recherche, spécialiste de traitement automatique des langues) dans ALMAnaCH. Deux postes sont ouverts sur la première année : un poste de data librarian et un poste orienté machine learning (image vers XML). Thibault Clérice accompagnera au quotidien les deux personnes recrutées, tant du point de vue scientifique qu'établissement des partenariats.
La phase exploratoire du projet est financée pour un an.
Mission confiée
Missions :
Les missions principales comprennent l'organisation des partenariats, notamment les réunions du comité d'usagers et les relations avec les institutions de numérisation, ainsi que la mise en œuvre des priorités du comité. Il s'agit aussi d'évaluer l'état des corpus disponibles, de repérer les manques et de produire des fichiers XML TEI simples pour les systèmes de citation. Les missions secondaires, dans la limite du temps disponible, incluent l'annotation linguistique de textes en grec ancien, la préparation à la pérennisation du projet, et l'évaluation qualitative des données produites par la chaîne de traitement. Enfin, la personne participe à la vie de l'équipe et aux projets, avec des déplacements possibles pour des conférences internationales.
Pour une meilleure connaissance du sujet de recherche proposé :
Collaboration
La personne recrutée sera en contact avec les membres du projet COLaF autour des questions de schémas XML.
Principales activités
Compétences
Compétences techniques et niveau requis :
Un diplôme de master ou une thèse en lettres classiques centrée sur cette période sont un atout.
Langues :
Compétences relationnelles :
Compétences additionnelles appréciées :
Avantages
Pour Les • Paris, Île-de-France, France