JIRC 2023 : Journées informatique en Région Centre-Val de Loire

19-20 oct. 2023 Tours (France)

sciencesconf.org:jirc-2023:502594

L'hypothèse distributionnelle dans les langages de programmation

Thibaut Martinet 1, @ , Guillaume Cleuziou 1, @ , Matthieu Exbrayat 1, @ , Frédéric Flouvat 2, @

1 : Laboratoire d'Informatique Fondamentale d'Orléans

Université d'Orléans, Institut National des Sciences Appliquées - Centre Val de Loire

2 : Laboratoire d'Informatique & Systèmes

Aix-Marseille Université - AMU

Il existe différents modèles d'apprentissage de représentations de textes en langue naturelle, la plupart reposant sur l'hypothèse distributionnelle des mots, qui est issue de la linguistique et qui stipule que des mots apparaissant dans des contextes similaires sont proches sémantiquement. Nos travaux consistent à mettre en place un modèle d'apprentissage de représentations de programmes informatiques, et il n'est pas évident d'affirmer qu'une telle hypothèse distributionnelle peut être faite pour les langages de programmation.
C'est pourquoi nous nous intéressons à l'analyse de ces langages, afin de montrer si effectivement on peut y détecter une forme d'hypothèse distributionnelle qui ressemble dans ses liens sémantiques et statistiques à celle de la langue naturelle.
Pour cela, nous envisageons différents niveaux de granularité dans l'analyse du code, correspondant chacun à une hypothèse distributionnelle. Nous proposons une analyse multi-critères des espaces de représentations associés afin d'évaluer la capacité de chaque hypothèse à capturer la sémantique des programmes.

Type :	:	présentation orale
Thématiques	:	Session 2
Mots-Clés	:	apprentissage de représentation ; embedding ; code ; hypothèse distributionnelle
PDF version	:	PDF version

Vie privée | Accessibilité