Recherche d'emploi > Palaiseau (91) > Post post doctorant

Post-Doctorant F/H Chercheur postdoctoral en IA responsable pour le journalisme

INRIA
Palaiseau, FR
Nous sommes désolés. L'offre d'emploi que vous recherchez n'est plus disponible.

Contexte et atouts du poste

Chaque année, la Direction des Relations Internationales d'Inria propose quelques postes postdoctoraux afin de soutenir les collaborations internationales.

Le contrat postdoctoral aura une durée de 12 à 24 mois. La date de début par défaut est le 1er novembre 2024 et au plus tard le 1er janvier 2025.

Le postdoctorant sera recruté par l'un des Centres Inria de France mais il est recommandé que le temps soit partagé entre la France et le pays partenaire (attention que le postdoctorant doit commencer son contrat en France et que les visites doivent respecter Inria règles des missions).

Équipe :

Un chercheur postdoctoral potentiel intégrerait l'équipe Inria CEDAR tout en visitant l'équipe Human-Centered Data Analytics du CWI à Amsterdam.

Ce projet est une collaboration avec les PI suivants :

Oana Balalau est chercheuse Inria au sein de l'équipe CEDAR, au centre Inria de l'Institut Polytechnique de Paris. Ses intérêts de recherche portent sur le traitement du langage naturel, en particulier sur la fouille d'argumentation, l'extraction d'informations et le data2text.

Elle collabore avec des journalistes de plusieurs agences de presse : Radio France, Le Monde et AEF Info.

Davide Ceolin est chercheur au CWI au sein du groupe Human-Centered Data Analytics. Ses recherches portent sur la prévision transparente de multiples aspects de la qualité de l’information.

Il est membre du laboratoire IA, médias et démocratie, un laboratoire multidisciplinaire qui étudie en profondeur les effets et les implications de l'IA pour les médias et la démocratie.

Le laboratoire rassemble des chercheurs en informatique, droit et communication, ainsi que plusieurs partenaires de la société civile et industriels.

Les candidats intéressés peuvent contacter Oana Balalau s'ils ont des questions ().

Mission confiée

  • Les candidats aux postes postdoctoraux sont recrutés après la fin de leur doctorat ou après un premier post-doctorat : pour les candidats ayant obtenu leur doctorat dans l'hémisphère Nord, la date de la soutenance de la thèse sera après le 1er septembre 2022 ;
  • dans l’hémisphère Sud après le 1er avril 2022. Afin de favoriser la mobilité, le poste postdoctoral doit se dérouler dans un environnement scientifique véritablement différent de celui du doctorat (et, le cas échéant, du poste occupé depuis le doctorat) ;

une attention particulière aux candidats français ou internationaux ayant obtenu leur doctorat à l'étranger.

Contexte : Des systèmes de recommandation aux grands modèles de langage, les outils d'IA ont montré différentes formes de limitations et de biais BHA, MMS, NFG .

Les biais dans les outils d'IA peuvent provenir de plusieurs facteurs, notamment les biais dans les données d'entraînement des outils d'IA, les biais de l'algorithme et les personnes responsables de la conception des outils d'IA, et les biais dans l'évaluation et l'interprétation des résultats des outils d'IA NFG .

Les limitations sont dues à des difficultés techniques dans la réalisation de tâches spécifiques SB22 . Les médias utilisent différentes aides algorithmiques dans leur travail : extractions d'entités et de relations, extraction d'événements, analyse des sentiments, résumé automatique, production semi-automatique des nouvelles à l'aide de modèles de génération de texte, et la recherche guidée par l'IA, entre autres TJM+ 22, UBM23 .

Compte tenu de l’importance du secteur des médias pour nos démocraties, des problemes dans les outils qu’ils utilisent pourraient avoir de graves conséquences.

Principales activités

Sujet de recherche :

Quelles sont les sources potentielles de biais dans les applications de traitement du langage naturel (TAL) destinées au journalisme et comment pouvons-nous les mettre en évidence et atténuer leurs effets ?

Pour répondre à cette question, nous étudierons deux cas d’utilisation.

Biais et limites dans les tâches de classification. Nous avons développé une plateforme de vérification des faits grâce à laquelle les journalistes peuvent suivre les déclarations des hommes politiques sur les réseaux sociaux BEG .

Les déclarations les plus susceptibles d'être vérifiables sont mises en évidence, et pour cela, nous avons utilisé un algorithme d'apprentissage automatique.

Les affirmations vérifiables (en anglais checkworthy) sont définies comme des phrases factuelles dont le grand public voudra savoir si elles sont vraies HAL .

Notons que cette définition s'appuie sur ce qu'un annotateur considère comme étant d'intérêt général. De plus, l'ensemble de données d'entraînement contient des déclarations politiques.

Par conséquent, les annotateurs pourraient avoir introduit par inadvertance un biais politique dans leurs annotations, par exemple en qualifiant plus souvent des phrases dignes d’être vérifiées s'elles sont exprimées par une personne d’une affiliation politique différente de la leur.

Un deuxième modèle utilisé dans notre pipeline est la détection de la propagande, où la propagande est définie comme un ensemble de techniques de communication conçues pour influencer un lecteur et non pour l'informer.

Les arguments fallacieux, qui sont des arguments incorrects que les vérificateurs de faits devraient démystifier, sont particulièrement intéressants.

Alors que les définitions de la propagande sont plus précises en fonction du type exact de technique (par exemple, langage chargé, ad hominem), les ensembles de données annotés ont souvent un faible accord entre annotateurs DSB .

En outre, les ensembles de données ne contiennent également que des déclarations politiques encore une fois, un annotateur pourrait être plus enclin à qualifier de propagande le discours d’une personne ayant une opinion politique différente.

Nous aimerions déterminer si ces ensembles de données et ces modèles sont biaisés et, si tel est le cas, étudier comment il pourrait être possible de mettre en évidence ce biais.

Une idée intéressante consiste à intégrer le désaccord dans une tâche de classification en fournissant une explication textuelle de la raison pour laquelle un certain paragraphe pourrait avoir deux ou plusieurs étiquettes différentes (également connue en ML sous le nom de classification multi-étiquettes) selon deux ou plusieurs opinions humaines différentes.

Comme mentionné, le désaccord pourrait venir de la définition de la tâche mais aussi des convictions des annotateurs. Cela implique de repenser le processus d'annotation, la formation et l'évaluation d'un modèle TAL, ainsi que la manière dont un modèle est utilisé pour une application réelle.

Nous notons que le problème de la variabilité et des biais dans l'annotation humaine retient de plus en plus l'attention dans la communauté TAL P22, UFH .

Biais et limites dans les tâches génératives. De nos jours, les modèles linguistiques génératifs sont utilisés pour diverses tâches, notamment pour des essais ou des textes argumentatifs.

Nous en avons discuté avec des journalistes, qui ont confirmé qu'ils utilisaient de tels outils pour accélérer leur travail.

Nous souhaitons nous concentrer sur des textes argumentatifs, notamment sur des sujets controversés dans notre société. Pour étudier le biais potentiel des modèles argumentatifs lorsqu’on leur demande de fournir des informations sur de tels sujets, nous aimerions comparer les textes argumentatifs générés automatiquement avec des textes argumentatifs issus du crowdsourcing, tels que les textes hébergés sur les plateformes de débat.

Ce projet peut être étendu à l'analyse de la manière dont les sujets controversés sont débattus dans la sphère publique, par exemple en se concentrant sur les débats des campagnes électorales en cours.

Le premier défi technique de cette tâche consiste à identifier des arguments similaires - lorsqu'un argument est composé d'une affirmation et des preuves à l'appui de cette affirmation.

La même affirmation peut être étayée par différentes preuves, et il est également important de mettre en évidence ces différences, car une préférence pour un certain type de preuves pourrait montrer des tendances plus importantes.

Par exemple, l’affirmation L’avortement devrait être légal . peut être soutenu par Une femme devrait toujours avoir le choix sur son corps .

ou la phrase Dieu nous a donné le libre arbitre et nous devons respecter le libre arbitre des autres . Un deuxième défi technique consiste à mesurer le degré de persuasion d'un texte argumentatif, par exemple en mesurant le degré d'exhaustivité des preuves présentées HG16 .

Les références :

BEG Balalau, O., Ebel, S., Galizzi, T., Manolescu, I., Massonnat, Q., Deiana, A., Gautreau, E., Krempf, A., Pontillon, T.

Roux, G. and Yakin, J., 2022, October. Fact-checking Multidimensional Statistic Claims in French. In TTO 2022-Truth and Trust Online.

BHA Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al.

On the opportunities and risks of foundation models. arXiv preprint arXiv : 2108.07258, 2021.

DSB Da San Martino, G., Seunghak, Y., Barrón-Cedeno, A., Petrov, R. and Nakov, P., 2019. Fine-grained analysis of propaganda in news article.

In Proceedings of the 2019 conference on empirical methods in natural language processing and the 9th international joint conference on natural language processing (EMNLP-IJCNLP) (pp.

5636-5646). Association for Computational Linguistics.

HAL Hassan, N., Arslan, F., Li, C. and Tremayne, M., 2017, August. Toward automated fact-checking : Detecting check-worthy factual claims by claimbuster.

In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining (pp. 1803-1812).

HG16 Habernal, I. and Gurevych, I., 2016, November. What makes a convincing argument? empirical analysis and detecting attributes of convincingness in web argumentation.

In Proceedings of the 2016 conference on empirical methods in natural language processing (pp. 1214-1223).

MMS Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. A survey on bias and fairness in machine learning.

ACM computing surveys (CSUR),54 : 1 35, 2021.

NFG Eirini Ntoutsi, Pavlos Fafalios, Ujwal Gadiraju, Vasileios Iosifidis, Wolfgang Nejdl, Maria Esther Vidal, Salvatore Ruggieri, Franco Turini, Symeon Papadopoulos, Emmanouil Krasanakis, et al.

Bias in data-driven artificial intelligence systems an introductory survey. Wiley Interdisciplinary Reviews : Data Mining and Knowledge Discovery, 10 : e1356,2020.

P22 Plank, B., 2022, December. The Problem of Human Label Variation : On Ground Truth in Data, Modeling and Evaluation. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing (pp. 10671-10682).

SB22 Chirag Shah and Emily M Bender. Situating search. In Proceedings of the 2022 Conference on Human Information Interaction and Retrieval, pages 221 232, 2022.

TJM Christoph Trattner, Dietmar Jannach, Enrico Motta, Irene Costera Meijer, Nicholas Diakopoulos, Mehdi Elahi, Andreas L Opdahl, Bjørnar Tessem, Nj al Borch, Morten Fjeld, et al.

Responsible media technology and ai : challenges and research directions. AI and Ethics, 2 : 585 594, 2022.

UBM23 Prajna Upadhyay, Oana Balalau, and Ioana Manolescu. Open information extraction with entity focused constraints. In Findings of the Association for Computational Linguistics : EACL 2023, pages 1255 1266, 2023.

UFH Uma, A.N., Fornaciari, T., Hovy, D., Paun, S., Plank, B. and Poesio, M., 2021. Learning from disagreement : A survey.

Journal of Artificial Intelligence Research, 72, pp.1385-1470.

Compétences

Compétences techniques et niveau requis : solides connaissances en TAL et bonnes compétences en programmation

Langues : Anglais

Avantages

  • Restauration subventionnée
  • Congés : 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle

Rémunération

Selon expérience

Il y a plus de 30 jours
Emplois reliés
Offre sponsorisée
Boucle Nord De Seine Careers
Asnières-Sur-Seine, Île-de-France

Dans le cadre de la compétence portée par l’EPT, la direction de l’habitat et du logement participe à l’élaboration et à la mise en place des politiques locales de l’habitat sur le territoire d’Argenteuil. En collaboration avec la directrice, vous participez à l’élaboration des politiques publiques ...

Offre sponsorisée
CEA
Bruyères-Le-Châtel, Île-de-France

Les modèles validés à la fois sur les simulations basse échelle et sur les expériences de physique élémentaire, quand elles sont disponibles, sont finalement adaptés pour répondre aux contraintes opérationnelles des codes qui doivent les intégrer. VOS MISSIONS :En tant qu'Ingénieur-chercheur - Appre...

CNRS
Orsay, Île-de-France

Dans le cadre de ce poste, il s'agira de développer une nouvelle implémentation de cette technique appelée ModLoc pour Modulated Localization, et de mettre en place un nouvel instrument permettant de gagner en stabilité, résolution, vitesse d'acquisition, volume d'observation et analyse en temps rée...

CEA
Palaiseau, Île-de-France

Le poste inclut des recherches théoriques aussi bien que le développement de prototypes et de l’analyse expérimentale. Conformément aux engagements pris par le CEA en faveur de l'intégration des personnes en situation de handicap, cet emploi est ouvert à toutes et à tous. Rejoignez le CEA pour donne...

CNRS
Paris, Île-de-France

Le post-doctorant (H/F), qui sera recruté dans le cadre de l'ERC StG MULTI-viewCELL, travaillera sur le développement de méthodes d'apprentissage automatique pour les données unicellulaires. La familiarité avec les données unicellulaires et l'expérience avec les méthodes et les logiciels existants p...

Télécom Paris
, Ile-de-France, FR

Le département Communications et Electronique de Télécom Paris propose un postdoc au sein de l'équipe C2S pour un candidat ayant une formation en traitement du signal et/ou électronique. Le postdoc/ingénieur de recherche contribuera au dimensionnement de la DPD à la fois pour le chemin direct et le ...

CEA
Saclay, Île-de-France

Le laboratoire Vision pour la Modélisation et la Localisation (LVML) recherche un(e) ingénieur(e)-chercheur(se) en Intelligence Artificielle pour la localisation 3D d’objets et la reconstruction 3D de scènes. Conformément aux engagements pris par le CEA en faveur de l’intégration de personnes en sit...

SwiftTalent
Paris, Île-de-France

Avec plus de 25 ans d'existence, cette société est reconnue pour son expertise internationale, ses relations durables avec ses clients et son engagement envers la qualité. Si vous êtes passionné(e) par les données et l'intelligence artificielle et que vous souhaitez évoluer dans un environnement sti...

Taga Médical & Scientifique
Paris, Île-de-France

E - H/F - PARIS 1 POSTE A POURVOIR POUR LE MOIS D'AVRIL. LES JEUNES DIPLOME(E)S SONT LES BIENVENU(E)S. RECHERCHE POUR LE COMPTE DE SON CLIENT UN MASSEUR KINESITHERAPEUTE D. E - H/F SITUE SUR PARIS ACCESSIBLE EN TRANSPORTS EN COMMUNS). ...

CNRS
Paris, Île-de-France

Contribuer aux travaux de recherches du projet PRESPOL sur le volet « évaluation qualitative de l’obligation d’emploi des personnes handicapées » (WP3) en prenant en charge une enquête sur les politiques publiques, les pratiques d’entreprises et les intermédiaires du marché du travail. Doctorat sout...