Objet de cette consultation : L?objectif de cette consultation est pour le client de faire appel à des data scientists externes afin de soutenir l?analyse des besoins métiers et le développement d?applications en IA (Intelligence Artificielle), ML (Machine Learning), DL (Deep Learning) et GenAI (Intelligence Artificielle Générative). Périmètre de la consultation : Prestations attendues Activités principales du data scientist : Comprendre les cas d?usage Participer aux réunions de cadrage des besoins avec le chef de projet DPIT Apporter une expertise et évaluer la pertinence de l?IA pour le besoin Réaliser une première estimation de l?effort nécessaire au développement d?une solution Développer des POC (Proof of Concept) pour démontrer la faisabilité et la performance Profil candidat : Collecte de données : Identifier les sources de données (internes et externes) Extraire les données depuis des bases de données, des API, des fichiers texte, des documents Word / PDF, via du web scraping, des données semi-structurées, etc. Préparation et nettoyage des données : Nettoyer les données : corriger ou supprimer les données corrompues / incorrectes, gérer les valeurs manquantes, supprimer les doublons Transformer les données : normaliser les formats, mettre à l?échelle, encoder les variables catégorielles Ingénierie des caractéristiques (Feature Engineering) : Extraire, créer et sélectionner les caractéristiques pertinentes à partir des données brutes Traitement du langage naturel (NLP) : Extraire, nettoyer et transformer le texte issu de documents non structurés Exploration et visualisation des données : Réaliser une analyse exploratoire des données (EDA) Détecter des motifs et tendances pour formuler des hypothèses et identifier des relations causales potentielles Modélisation et développement : Utiliser Python pour développer des applications et des interfaces utilisateur de base Sélectionner les algorithmes de ML / DL appropriés Entraîner les modèles et ajuster les paramètres Valider les modèles via la validation croisée pour éviter le surapprentissage (overfitting) Instancier des modèles de langage pré-entraînés (LLMs, embeddings, rerankers, etc.) et les intégrer dans des solutions complexes comme le RAG (Retrieval-Augmented Generation) Maîtrise des bibliothèques Python clés : Manipulation de données : Pandas, Polars, Dask, PySpark NLP : NLTK, SpaCy Machine Learning : Scikit-Learn, XGBoost, LightGBM Deep Learning : PyTorch IA Générative : Ollama, Transformers, SentenceTransformers, Langchain, LlamaIndex Évaluation des modèles : Utiliser des métriques de performance : précision, rappel, F1 score, AUC-ROC, Matthews, RMSE, MAE, R², MAPE, Silhouette, etc. Analyser les erreurs de prédiction pour identifier les faiblesses et les axes d?amélioration Déploiement des modèles : Collaborer avec les équipes d?ingénierie pour intégrer les modèles en production Automatiser les pipelines de données du stockage à l?inférence Développer des API pour permettre l?accès aux modèles par d?autres systèmes ou utilisateurs Surveillance et maintenance : Surveiller les performances des modèles en production et détecter toute dégradation Mettre à jour et réentraîner régulièrement les modèles pour maintenir leur performance face aux nouvelles données et aux évolutions Documentation et communication : Documenter les processus, méthodologies, choix de conception et résultats des modèles Présenter les analyses et résultats aux parties prenantes avec des visualisations claires et un langage accessible Rédiger des rapports et préparer des présentations pour partager les conclusions et recommandations Recherche et développement : Se tenir informé des dernières avancées en algorithmes, techniques de ML et outils Prototyper et expérimenter de nouveaux modèles et approches pour résoudre des problèmes complexes ou améliorer les performances Collaboration : Travailler avec des experts métier, des analystes business et d?autres parties prenantes pour comprendre les besoins et contraintes spécifiques
Data Scientist It Freelance • Lyon, Auvergne-Rhône-Alpes, France