Thèse un Modèle de Machine Learning Universel pour la Régulation Génomique H/F

Doctorat.Gouv.Fr

📍 Montpellier - 34CDD (temporaire)IT / Programmationhellowork

Description

Détail du poste Établissement : Université de Montpellier École doctorale : I2S - Information, Structures, Systèmes Laboratoire de recherche : Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier Direction de la thèse : Laurent BREHELIN ORCID 0000000225822831 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-04T23:59:59 Contrairement au code amino-acide des protéines, connu depuis plusieurs décennies, le code cis-régulateur du génome, c'est-à-dire le code génomique qui régule l'expression génique parmi la grande diversité des types de cellules et des conditions, reste largement inconnu. Ces dernières années, plusieurs approches d'apprentissage automatique ont été proposées à cette fin. Ces modèles prennent en entrée une séquence d'ADN et sont entraînés à prédire un signal lié à l'expression. Outre leur pouvoir prédictif, ces modèles peuvent aider à déchiffrer le code génomique. Le raisonnement est qu'un modèle précis a probablement capturé les règles de régulation, c'est-à-dire les motifs et les combinaisons de motifs dont la présence sur la séquence régulent le signal étudié. Lorsque c'est le cas, une procédure de rétro-ingénierie est alors appliquée pour extraire ces règles du modèle. Les réseaux neuronaux convolutifs (CNN) ont été largement utilisés pour ce problème. Cependant, les modèles CNN actuels sont confrontés à deux problèmes majeurs : 1/ Un modèle entraîné pour prédire un signal dans une condition spécifique ne peut pas être utilisé dans une condition différente, c'est-à-dire que le modèle ne peut pas être utilisé pour prédire le signal dans des conditions inconnues. 2/ Aucune mesure d'importance n'est associée aux motifs identifiés lors de la procédure de rétro-ingénierie. Dans ce thèse, nous proposons de développer une nouvelle architecture CNN et un nouveau schéma d'apprentissage qui répondent à ces deux limitations. Contrary to the amino acid code of proteins that has been known for several decades, the c

Description