Contexte et atouts du poste
Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. La thèse sera réalisée au sein de l’équipe de recherche en traitement de l’audio de Inria D&S, sous la direction de Jean-François Bonastre et co-encadrée par Raphaël Duroselle.
La thèse s’inscrit dans un projet visant au profilage vocal explicable et frugal. Le profilage vocal consiste à extraire des informations d’un enregistrement audio comme l’identité, la langue parlée, l’âge, l’origine géographique et ethnique, ou encore des marques socio / patho / physiologiques dans la voix. L’objectif de ce projet est d’apporter une explicabilité aux systèmes de profilage vocal sans perte de performance. L’explicabilité permet de conserver les opérateurs au centre du processus, en leur donnant les moyens d’une décision instruite.
Mission confiée
Approche
L’approche envisagée pour la thèse repose sur la définition d’un jeu d’attributs vocaux génériques partagés par des groupes individus. Seule la présence ou l’absence d’un attribut dans un extrait vocal donné est utilisée pour prendre la décision, menant à une représentation binaire. Cette approche a été introduite pour la tâche de vérification du locuteur [1,2].
La thèse proposée vise à développer cette méthodologie en l’abordant selon l’objectif d’analyse de la langue parlée [3]. Le système vise à regrouper ensemble les segments relevant de la même langue et de détecter si celle-ci fait partie d’un panel de langues connues ou s’il s’agit d’une langue inconnue. Dans ce dernier cas, la proximité avec les langues connues devra être explicitement proposée, sur la base des attributs connus par le système.
Depuis l’apparition des modèles iVector [4] (initialement pour la reconnaissance du locuteur) dans la détection de la langue, le schéma général a peu évolué dans ce domaine. Il s’agit toujours de proposer un extracteur appris sur une grande masse de données et capable de représenter une séquence acoustique de durée quelconque par un vecteur de taille fixe, concentrant la variabilité utile à la tâche visée. Ensuite des classifieurs 1 : 1, comparant deux langues, ou 1 : N, comparant N langues sont construits et un système de prise de décision, dit « back-end », se base sur ces classifieurs pour répondre aux diverses tâches visées. Les réseaux de neurones, comme les « bottleneck features » ont permis d’intégrer très bas (proche du niveau acoustique) des éléments de plus haut niveau, allant jusqu’aux modèles de langage, apportant un gain très significatif [5]. Puis les embeddings issus de modèles neuronaux, dit « xVector », ont remplacé les iVector et permis à la fois d’augmenter la taille des modèles (et la performance) et de simplifier l’apprentissage, avec un procédé unique réalisant la transformation d’une séquence acoustique de taille variable en un vecteur signifiant de taille contenue [6].
Plus récemment, l’usage des modèles pré-appris comme WavLM [7] ou MMS [8] a été étudié [9]. Par leur généricité, ces modèles permettent des gains intéressants, surtout quand peu de données sont disponibles dans la base d’entraînement pour certaines langues, au prix d’un accroissement important de la complexité en termes de nombres de paramètres.
Ces approches partagent des limitations communes : elles sont peu capables d’expliquer leur décision, les performances se dégradent très significativement quand le contexte d’utilisation s’éloigne du contexte d’apprentissage, les performances sont très variables suivant les couples de langues ou dialectes considérés, elles gèrent mal le déséquilibre entre les quantités de données d’apprentissage disponibles par langue et elles sont lourdes à adapter / réapprendre. Enfin, elles ne proposent rien ou peu dans le cas de langues inconnues.
Dans ce projet, nous proposons de partir de l’état de l’art puis d’adapter l’approche par attribut de voix au contexte de la détection de la langue parlée. Dans cette adaptation, une langue peut être représentée par un vecteur binaire correspondant à la présence / absence d’attributs dans cette langue ou par un vecteur scalaire, indiquant la fréquence des attributs dans la langue. Les attributs eux-mêmes peuvent intégrer des informations de plus haut niveau, comme les niveaux phonotactiques et linguistiques). Cette architecture offre la possibilité de reconnaître une langue inconnue (au sens qu’aucune donnée correspondant à cette langue n’est présente dans la base d’apprentissage) et de situer sa proximité avec les langues connues en termes d’attributs explicites, permettant d’exploiter des connaissances en géolinguistique, par exemple. Un modèle de langue peut ainsi être construit dès le premier exemple de cette langue disponible, puis être adapté sans coût de calcul à chaque arrivée d’un exemple complémentaire. Si nécessaire, l’extracteur d’attributs peut être adapté en ajoutant un ou plusieurs attributs à partir des nouvelles données, sans nécessité de manière obligatoire de réapprendre la totalité du modèle. Les gains espérés sont donc importants, au niveau de l’explicabilité, du traitement des langues inconnues et de l’adaptation au contexte.
Objectifs
Exploiter l’approche pour le regroupement en langues de documents audio, même quand tout ou partie des langues sont inconnues du système, incluant donc la découverte et la caractérisation de langues inconnues.
Principales activités
Travail sur l’explicabilité post-hoc de modèles de reconnaissance de la langue.
Compétences
Compétences et connaissances souhaitées :
Références
1] Ben-Amor, I., & Bonastre, J. F. (2022, April). BA-LR : Binary-Attribute-based Likelihood Ratio estimation for forensic voice comparison. In 2022 International workshop on biometrics and forensics (IWBF) (pp. 1-6). IEEE.
2] Ben-Amor, I., Bonastre, J. F., O'Brien, B., & Bousquet, P. M. (2023, August). Describing the phonetics in the underlying speech attributes for deep and interpretable speaker recognition. In Interspeech 2023.
3] Li, Haizhou, Bin Ma, et Kong Aik Lee. « Spoken Language Recognition : From Fundamentals to Practice ». Proceedings of the IEEE 101, no 5 (mai 2013) : 1136‑59. [4] Dehak, Najim, Patrick J Kenny, Réda Dehak, Pierre Dumouchel, et Pierre Ouellet. « Front-End Factor Analysis for Speaker Verification ». IEEE Transactions on Audio, Speech, and Language Processing 19, no 4 (mai 2011) : 788‑98. [5] Fér, Radek, Pavel Matějka, František Grézl, Oldřich Plchot, Karel Veselý, et Jan Honza Černocký. « Multilingually trained bottleneck features in spoken language recognition ». Computer Speech & Language 46 (1 novembre 2017) : 252‑67. [6] Snyder, David, Daniel Garcia-Romero, Alan McCree, Gregory Sell, Daniel Povey, et Sanjeev Khudanpur. « Spoken Language Recognition Using X-Vectors ». In The Speaker and Language Recognition Workshop (Odyssey 2018), 105‑11. ISCA, 2018. [7] Chen, Sanyuan, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, et al. « WavLM : Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing ». IEEE Journal of Selected Topics in Signal Processing 16, no 6 (octobre 2022) : 1505‑18. [8] Pratap, Vineel, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, et al. 2023. « Scaling Speech Technology to 1,000+ Languages ». arXiv. [9] Alumäe, Tanel, et Kunnar Kukk. 2022. « Pretraining Approaches for Spoken Language Recognition : TalTech Submission to the OLR 2021 Challenge ». arXiv.
Avantages
Rémunération
Année 1 & 2 = 2082 € bruts mensuels
Année 3 = 2190 € bruts mensuels