Utilisation LLMs pour la spécification des politiques de partage des données - CDD - Paris-Saclay F/H
EN SYNTHESE, QU’EST-CE QUE NOUS VOUS PROPOSONS ?
Le CEA recherche un(e) Ingénieur(e) en usage des LLMs pour la spécification des politiques de partage des données pour la CEA/DRT (Direction de la Recherche Technologique). Ce poste de cadre en CDD de 36 mois est basé sur le site Nano-Innov de Paris-Saclay, Essonne (91).
Il s'agit d'un poste à pourvoir à partir dès que possible.
POURQUOI NOUS REJOINDRE ?
Le développement de systèmes physiques ou numériques est complexe et implique des défis techniques et humains. La première étape consiste à formaliser les idées en rédigeant des spécifications ou un cahier des charges, généralement rédigés en langage naturel par des analystes fonctionnels. Ces documents sont cruciaux pour le projet et facilitent la communication entre les parties prenantes. L'ingénierie des exigences propose des techniques (revues, modélisation, formalisation) pour améliorer la qualité des documents (cohérence, complétude) et corriger les défauts avant l’implémentation du système.
Les réseaux de neurones à grands modèles (LLM) apportent de nouvelles possibilités dans ce domaine [2]. Nous proposons d’utiliser un agent conversationnel (ChatGPT, Lama) pour modéliser les politiques de partage de données (ODRL[1]) à partir de texte naturel. L’outil recommandera des options de réécriture inspirées des normes INCOSE et EARS, analysera les résultats et fournira un audit sur la qualité du modèle obtenu.
Les LLM sont particulièrement prometteurs pour :
- transformer les exigences non structurées en modèles structurés comme EARS ou des user stories [2]
- classifier les exigences [3] : comportementale, non fonctionnelles, etc. comme défini par exemple dans [4]
- signaler les ambiguïtés, incohérences ou violations potentielles sur la base d'heuristiques de validation prédéfinies [5] [2]
Cependant, les LLM présentent des limites : hallucinations, biais algorithmiques et généralisation limitée [2]. Pour pallier cela, nous suggérons d’hybrider, comme dans [1], les LLM avec d’autres techniques (NLP, algèbres de processus) afin de réduire ces impacts.
QU’ATTENDONS-NOUS DE VOUS ?
Au sein de l’équipe « Exigences intelligentes » du laboratoire, votre challenge consistera à :
- Déterminer des schémas ou un langage contrôlé pour représenter le modèle ODRL.
- Déterminer l’efficacité de différentes techniques et formalismes, tel que le NLP [6] ou inspiration de la métrique Bleu [7], pour éviter les hallucinations lors de la réécriture.
- Analyser, gérer ou générer des données d’entrainement pour des LLM
- Configurer et piloter un ou plusieurs LLM avec les techniques les plus efficaces pour améliorer la cohérence et la complétude de politiques de partage de données.
- Développer l’outillage logiciel nécessaire aux travaux ci-dessus.
#CEA-List
COMPÉTENCES REQUISES :
- Titulaires d'un doctorat ou d'un Master en informatique, en mathématiques ou en ingénierie des systèmes
VOUS AVEZ ENCORE UN DOUTE ?
Les à-côtés de votre mission principale peuvent nous intéresser :
- Un écosystème de recherche à la pointe, unique en son genre et dédié à des thématiques à fort enjeu sociétal, qui donne du sens à votre mission
- Des formations pour renforcer vos compétences, en acquérir de nouvelles et booster votre mission
- Un équilibre vie privée / vie professionnelle reconnu par nos collaborateurs
- La possibilité de télétravailler pour équilibrer les temps de transport et contribuer à votre qualité de vie
- Un CE riche en avantages et en activités sociales, culturelles et sportives
- Un lieu de travail au cœur d’un plateau dynamique, entouré d’écoles et d’entreprises de la tech
Cela vous tente ? Postulez, ce poste est fait pour vous !
Conformément aux engagements pris par le CEA en faveur de l'intégration des personnes en situation de handicap, cet emploi est ouvert à toutes et à tous
#CEA-List #NumericalSimulation #AI
[1] « ODRL Information Model 2.2 » : https://www.w3.org/TR/odrl-model/
[2] C. Arora, J. Grundy, et M. Abdelrazek, « Advancing Requirements Engineering through Generative AI: Assessing the Role of LLMs », 1 novembre 2023, arXiv: arXiv:2310.13976 : http://arxiv.org/abs/2310.13976
[3] X. Luo, Y. Xue, Z. Xing, et J. Sun, « PRCBERT: Prompt Learning for Requirement Classification using BERT-based Pretrained Language Models », in Proceedings of the 37th IEEE/ACM International Conference on Automated Software Engineering, Rochester MI USA: ACM, oct. 2022, p. 1‑13. doi: 10.1145/3551349.3560417.
[4] A. Fan et al., « Large Language Models for Software Engineering: Survey and Open Problems », 11 novembre 2023, arXiv: arXiv:2310.03533. doi: 10.48550/arXiv.2310.03533.
[5] D. V. Dzung et A. Ohnishi, « Improvement of Quality of Software Requirements with Requirements Ontology », in 2009 Ninth International Conference on Quality Software, août 2009, p. 284‑289. doi: 10.1109/QSIC.2009.44.
[6] I. K. Raharjana, D. Siahaan, et C. Fatichah, « User Stories and Natural Language Processing: A Systematic Literature Review », IEEE Access, vol. 9, p. 53811‑53826, 2021, doi: 10.1109/ACCESS.2021.3070606.
[7] K. Papineni, S. Roukos, T. Ward, et W.-J. Zhu, « Bleu: a Method for Automatic Evaluation of Machine Translation », in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, P. Isabelle, E. Charniak, et D. Lin, Éd., Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, juill. 2002, p. 311‑318. doi: 10.3115/1073083.1073135.