RESPONSABILITÉS : Sujet : Apprentissage par renforcement profond pour résoudre des problèmes d'optimisation boîte noire Les algorithmes à estimation de distribution (EDA) sont une alternative aux méthodes évolutionnaires classiques en optimisation stochastique. Plutôt que de manipuler directement des populations de solutions à l'aide d'opérateurs, ils apprennent une distribution de probabilité visant à modéliser les régions prometteuses de l'espace de recherche, en capturant explicitement les dépendances entre variables. Dans le cadre du projet ANR COMBO, une nouvelle méthode appelée RL‑EDA a été proposée pour résoudre des problèmes d'optimisation combinatoire discrète de type boîte noire. Elle repose sur un modèle génératif autorégressif multivarié entraîné par apprentissage par renforcement, avec une propriété clé : l'invariance à l'ordre de génération des variables. Cette invariance est obtenue en échantillonnant des ordres de génération aléatoires durant l'entraînement, ce qui améliore la diversité des solutions générées et permet au modèle de se concentrer sur les dépendances réellement pertinentes. L'apprentissage utilise une adaptation de l'algorithme GRPO, garantissant des mises à jour stables grâce à des avantages relatifs invariants à l'échelle de la fonction objectif. Les résultats expérimentaux montrent que RL‑EDA surpasse fréquemment l'état de l'art sur de nombreuses instances de tailles et de natures diverses. L'objectif du projet est d'étendre cette approche aux problèmes boîte noire combinant variables discrètes et continues, afin de disposer d'une méthode performante et générique, notamment pour la calibration d'hyperparamètres de réseaux de neurones. L'outil final sera diffusé en open source. Le projet de postdoctorat est structuré en trois work packages. • WP1 vise la création de benchmarks originaux pour l'optimisation boîte noire mixte, puis une comparaison des meilleures méthodes existantes. • WP2 consiste à étendre RL‑EDA aux variables c