Détail du poste Établissement : Université de Tours École doctorale : Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS Laboratoire de recherche : Laboratoire d'Informatique Fondamentale et Appliquée de Tours Direction de la thèse : Cyril DE RUNZ ORCID 0000000259516859 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-15T23:59:59 Les imprimés et manuscrits de l'époque moderne présentent une orthographe instable, des mises en page complexes (telles que les paratextes et les marginalia), ainsi que du bruit issu des processus de reconnaissance, autant de facteurs qui affectent les performances des tâches de traitement automatique des langues (TAL) en aval, comme la reconnaissance d'entités nommées (NER) et la liaison d'entités (EL). Surmonter ces difficultés nécessite des techniques de modélisation et de prétraitement spécialisées (telles que la gestion des variations orthographiques historiques et l'entraînement sur des corpus historiques) afin d'adapter les outils de TAL aux textes de la première modernité. Cette thèse de doctorat se concentre sur la définition d'approches pour la reconnaissance d'entités nommées (NER) et la liaison d'entités (EL) robustes pour des sources de l'époque moderne traitées par OCR/HTR, en ciblant plus particulièrement des corpus français issus des Bibliothèques Virtuelles Humanistes (BVH, CESR-Tours), avec des études pilotes pour le latin, le grec et l'italien. Deux approches complémentaires seront explorées : - une chaîne de traitement robuste partant de sorties manuelles, OCR ou HTR, qui applique une normalisation non destructive et en couches, fondée sur des règles, des gazetteers et des modèles neuronaux de NER/EL ; - un modèle conjoint de bout en bout qui infère simultanément la transcription et les entités directement à partir des images de pages. Les résultats permettront de soutenir des réseaux prosopographiques, avec des entités liées à des bases de connaissances telles que Wiki
Recruteur ou personne concernée par cette annonce ? Demander la suppression