Les missions du poste

Établissement : INSA Centre Val de Loire École doctorale : Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS Laboratoire de recherche : LIFO - Laboratoire d'Informatique Fondamentale d'Orléans Direction de la thèse : Clara BERTOLISSI ORCID 9283000192831386 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-07-18T23:59:59 Cette thèse étudie les problèmes de confidentialité lors de l'utilisation des modèles de langage de grande taille (LLM). Le travail de recherche se concentrera sur la phase d'inférence interactive. On supposera que le LLM est une boîte grise. Les attaques considérées visent principalement la confidentialité des données, notamment par l'inférence de l'existence ou
du contenu de documents internes, la reconstruction d'informations sensibles à partir de réponses agrégées, ou la divulgation indirecte via reformulation ou abstraction. La première étape consistera à la définition d'un modèle de menace pour les LLM en
environnement potentiellement adversarial avec l'identification des surfaces de fuite (entrée, génération, sortie, explication) et formalisera les exigences de sécurité telles que la non-divulgation (directe ou indirecte), la robustesse face
aux requêtes adversariales, la notion de niveaux d'abstraction pour une explicabilité contrôlée.
La deuxième phase, qui est le coeur de la thèse, portera sur la conception d'un modèle de médiation de sécurité pour les LLM, intégrant (i) Un filtrage de sécurité des requêtes en entrée. Le cadre sera étendu à un environnement intégrant un module de Retrieval-Augmented
Generation, introduisant la problématique supplémentaire du contrôle d'accès aux sources documentaires. (ii) La conception d'un filtrage de sécurité des réponses générées. Le filtrage des réponses reposera sur une approche hybride combinant la reconnaissance d'entités sensibles spécifiques au domaine et un classifieur global de sensibilité
sémantique. (iii) Un mécanisme d'explication contrôlée permettant de fournir des justifications vérifiables à un niveau d'abstraction maîtrisé, distinctes des traces complètes réservées à l'audit interne.
Une dernière phase concernera la réalisation d'un outil expérimental développé afin d'implémenter l'architecture proposée autour d'un LLM. Un cas d'étude particulier pourra porter sur un déploiement en environnement d'entreprise avec un système RAG local alimenté par des données sensibles. Les expérimentations viseront à évaluer, selon des métriques de sécurité, d'utilité et d'explicabilité, l'efficacité des filtres ; la pertinence et le niveau d'abstraction des explications générées ; la robustesse du système face à des scénarios d'attaque simulés. Cette thèse étudie la protection de la confidentialité lors de l'utilisation des modèles de langage de grande taille (LLM) en
phase d'inférence. Elle s'intéresse aux risques de divulgation d'informations sensibles provoqués par des requêtes
malveillantes, des comportements inattendus du modèle, ou des mécanismes d'explicabilité insuffisamment contrôlés.
Les travaux visent à concevoir une architecture de médiation de sécurité entourant les LLM, permettant de contrôler les
flux d'information avant et après la génération. L'objectif est de garantir qu'un modèle puisse être utilisé dans des
environnements sensibles, notamment en entreprise, tout en limitant les risques de fuite directe et indirecte de données.
Cette thèse ambitionne ainsi de poser les bases méthodologiques et techniques d'une gouvernance de la confidentialité
pour les LLM, permettant leur déploiement dans des contextes à fortes exigences de sécurité tout en maintenant un niveau
contrôlé de transparence et de vérifiabilité. Concevoir et développer des mécanismes de protection de la confidentialité qui ne fonctionnent pas indépendamment, mais comme un cadre cohérent de médiation de sécurité autour d'un
LLM. Cette approche permettra de filtrer l'accès aux connaissances et
et de fournir des explications controlées, transformant ainsi le modèle LLM en composant gouverné plutôt qu'en boîte noire incontrôlée.

Le profil recherché

Le ou la candidat(e) devra être titulaire d'un diplôme de niveau Master (ou équivalent) en informatique, avec de compétences en cybersécurité et intelligence artificielle.
Une bonne maîtrise des concepts fondamentaux liés à la sécurité des systèmes d'information (contrôle d'accès, confidentialité, gestion des risques, protection des données) est attendue.
Le sujet se situant à l'interface entre sécurité, IA et modélisation, le ou la candidat(e) devra faire preuve d'une forte capacité d'analyse et d'abstraction. Des competences en approches formelles, formalisation logique, représentation des connaissances, analyse sémantique, mécanismes de contrôle d'accès, l'explicabilité des systèmes d'IA seront un atout.
Des connaissances en intelligence artificielle, et plus particulièrement en modèles de langage (LLM), en traitement automatique du langage naturel ou en systèmes d'IA générative, seront appréciés.

Sur le plan technique, une bonne maîtrise de la programmation (Python notamment) est attendue. Une expérience en développement logiciel, en expérimentation ou en évaluation de systèmes d'IA constituera un avantage.

Enfin, le ou la candidat(e) devra faire preuve d'autonomie, de rigueur scientifique, de curiosité intellectuelle et d'une capacité à travailler dans un environnement de recherche collaboratif. De bonnes compétences rédactionnelles en français et en anglais seront également appréciées.

Postuler sur le site du recruteur