CDD de projet 12 mois Démarrage à compter du 18/05/2026 Catégorie : A Corps : Ingénieur de recherche Quotité : 20% temps incomplet Emploi ouvert aux agents contractuels uniquement Rémunération selon grille de la Fonction Publique Activités Collecte & normalisation des textes (UE) : * Moissonnage ciblé (EUR-Lex/CELEX/ELI) des actes identifiés ; archivage des versions (proposition/adoption/JO/consolidés), ainsi que des métadonnées (dates, base juridique, procédure, institutions). * Capture des liens intertextes (articles/considérants/amendements), des phases de mise en application et des documents interprétatifs (lignes directrices, communications). * Harmonisation des références (formatage uniforme des citations, identifiants uniques, nomenclature des actes). Livrables : Corpus UE (répertoires textuels/JSON), table instruments.csv (métadonnées normalisées), table links.csv (renvois explicites). Nettoyage & préparation des données. Extraction d’entités : * Constitution d’un jeu d’annotation “or” (guidelines + 100-150 extraits annotés) - Livrable : guide d’annotation + dataset “gold”. * Nettoyage structurel (suppression artefacts PDF/HTML, titres/annexes repérés, segmentation articles/considérants). * Détection des doublons/versions ; harmonisation de l’encoding ; alignement inter-versions (diffs) pour suivre les évolutions. * Contrôles qualité : complétude champs, cohérence des dates, validité des URLs sources ; journalisation des corrections (audit trail). Livrables : Textes nettoyés (par langue/version) + diffs inter-versions ; rapport de contrôle qualité QA. Embeddings & indexation sémantique & indicateurs d’évolution : * Granularité d’indexation : passage du texte en chunks juridiques (article, alinéa, considérant), avec contexte (titre, chapitre, instrument). * Embeddings : entraînement/choix de modèles adaptés au fr/en/de (ou multilingues) ; normalisation vectorielle ; stockage en vecteur-store (FAISS/pgvector). * Évaluation : jeux de requêtes juridiques de test