STAGE M2 - Apprentissage Continu pour l'Adaptation de Modèles Multi-Modaux aux tâches Vision & Langage
STAGE M2 - Apprentissage Continu pour l'Adaptation de Modèles Multi-Modaux aux tâches Vision & Langage
- context
- ONERA/DTIS
- Contexte de l'offre
- Compétences et profil recherchés
Apply for this position
Postuler à l'offre
Informations générales
L'ONERA (Office National d'Etudes et de Recherches Aérospatiales) a pour mission de développer et d'orienter les recherches dans le domaine aérospatial, de concevoir, de réaliser, de mettre en œuvre les moyens nécessaires à l'exécution de ces recherches et d'assurer, en liaison avec les services ou organismes chargés de la recherche scientifique et technique, la diffusion sur le plan national et international des résultats de ces recherches, d'en favoriser la valorisation par l'industrie aérospatiale et de faciliter éventuellement leur application en dehors du domaine aérospatial.
Les modèles de réseaux de neurones multi-modaux ont récemment montré des performances impressionnantes dans une variété de tâches associant vision par ordinateur et traitement du langage naturel. Leur capacité d’adaptation à de nouvelles tâches ou à des domaines d’application spécifiques reste cependant un défi. Ce stage vise à explorer des méthodes d’apprentissage continu, c’est-à-dire par mise à jour incrémentale du modèle, pour réaliser cette adaptation.
Les réseaux de neurones pré-entrainés de représentation d’images ou de texte tels qu’utilisés actuellement en IA (comme CLIP « Contrastive Language-Image Pre-training », souvent dénommés modèles de fondation (« foundational models »), semblent posséder des propriétés inégalées de généralisation et de transfert vers d’autres tâches. Ces modèles ne sont cependant pas toujours efficaces pour représenter un domaine applicatif plus spécifique – par exemple les images satellitaires ou médicales sont en général très différentes des images web utilisées pour l’apprentissage des modèles de fondation – et demandent à être adaptées pour rendre compte de manière plus complète et précise de l’information utiles contenue dans les données. L’objectif du stage est de développer une approche permettant de réaliser cette adaptation pour des tâches associant vision et langage comme la capacité de répondre à des questions ouvertes sur le contenu d’une image (« visual question answering ») ou la classification « zero-shot », c’est-à-dire sans données annotées d’apprentissage.
On se propose de suivre une stratégie d’apprentissage continu qui exploite les données du domaine visé dès qu’elles sont disponibles pour mettre à jour le modèle de manière incrémentale. L’intérêt d’une approche continue est de ne pas avoir à stocker en mémoire la totalité des données lors de chaque phase d’adaptation; la difficulté est de de gérer un flux de données, et des annotations ou des récompenses asynchrones en limitant ce que l’on appelle l’oubli catastrophique, c’est-à-dire la perte des compétences acquises dans les phases d’apprentissage antérieures.
Deux stratégies d’apprentissage sont envisageables : partir d’une représentation pré-entrainée donnée que l’on vient spécialiser par réglage fin par exemple en apprenant un « prompt » conditionnel, ou construire une nouvelle représentation spécifique au domaine mais aidée par un modèle pré-entrainé qui lui fournit des capacités de généralisation. Les données non annotées pourront également être exploitées par une stratégie non supervisée complémentaire.
Travaux envisagés
Après une phase de bibliographie le travail du stage consistera principalement à adapter un article sélectionné dans l’état de l’art, à coder la méthode et à l’évaluer sur les bases de données usuelles du domaine.
Le stage a vocation à se poursuivre en thèse.
- Connaissance en apprentissage automatique, vision par ordinateur et traitement du langage naturel ;
- Expérience en programmation Python et en utilisation de bibliothèques telles que PyTorch ou TensorFlow.
Si vous êtes intéressé par ce stage envoyer votre CV à