Le / la Data Scientist interviendra sur des projets autour de l’analyse automatique de contenus audio (en axe majeur) et textuels (en axe secondaire), en lien étroit avec les équipes produit, éditoriales et techniques.
Missions principales
- Concevoir et développer des modèles de Machine Learning / Deep Learning pour l’analyse de contenus audio et textuels.
- Travailler sur des projets tels que :
- Extraction automatique de métadonnées musicales
- Détection de fakes audio et contenus synthétiques pour aider les journalistes, et au delà contribuer à la fiabilité de l'information d'un média public
- Extraction de métadonnées à partir des podcasts ou contenus vidéo, comme les émotions, les jingles, le repérage des parties musicales, etc.
- Réaliser l’exploration, l’annotation et la structuration de jeux de données audio et texte.
- Prototyper, entraîner et évaluer des modèles (POC, benchmarks, analyses comparatives).
- Assurer une veille scientifique et technologique (audio ML, speech, NLP).
- Documenter et présenter nos travaux en interne et à l’extérieur.
Compétences techniques clés
Traitement du signal audio : features acoustiques, spectrogrammes, embeddings audioMachine Learning / Deep Learning : CNN, RNN, Transformers, auto-encodeursSpeech & Audio ML : classification audio, speech emotion recognition, audio taggingMLOps : automatisation d’un pipeline de production de donnéesPython et écosystème data (NumPy, PyTorch / TensorFlow, scikit-learn)Expérience avec des datasets audio de grande taille et des problématiques bruit / qualitéAtouts appréciés
NLP : modèles de langage, classification de texte, embeddings, Transformers (BERT, Whisper, etc.)MLOps : GitLab CI, Kubernetes, versioning des modèlesExpérience en recherche appliquée ou projets R&DConnaissance des problématiques médias, musique ou radioSensibilité aux enjeux éthiques (IA générative, deepfakes, biais)Capacité à vulgariser et présenter des résultats à des publics non techniquesIntérêt pour la qualité du code (code review, bonnes pratiques de développement)Qualités attendues
Curiosité scientifique et esprit d’innovationAutonomie et rigueur méthodologiqueGoût pour le travail collaboratif et pluridisciplinaireIntérêt marqué pour les contenus audio et culturelsL’équipe de R&D à la direction du numérique ne prend pas en charge l’industrialisation des algorithmes qu’elle conçoit.
Aspects primordiaux :
Nous cherchons une personne motivée, curieuse, autonome et bonne communicante pour être à l'aise sur des travaux exploratoires dans une équipe de R&DLa personne doit avoir au moins 4 ans d'expérience en data science, avec une partie importante en audio . Nous préférerons cependant la motivation à la sénioritéNous privilégions la qualité de l’équipe et du collectif. Le savoir être et l’adaptabilité constitueront un critère essentiel