Projet GOLEM : Approche par Optimisation pour l'Extraction de Mots-clés |
Les mots-clés sont utilisés pour indexer et catégoriser les documents. Ils permettent, entre autres, de naviguer efficacement dans de grandes collections de documents. Malheureusement, très peu de documents en sont pourvus. Face à un volume des données numériques disponibles en perpétuelle augmentation, le besoin de méthodes performantes pour l'extraction automatique de mots-clés se fait de plus en plus ressentir. Une des faiblesses des méthodes existantes est l'absence de cohérence de l'ensemble de mots-clés extraits. L'ambition du projet GOLEM est de résoudre ce problème en proposant une approche originale empruntant des techniques issues du domaine de l'optimisation. Plus précisément, GOLEM vise le développement de méthodes capables de maximiser à la fois la pertinence des mot-clés extraits et les relations sémantiques qui les relie.
Nous nous sommes tout d’abord penché sur la modélisation de la problématique d’extraction de mots-clés en un problème de Programmation Linéaire en Nombres Entiers (PLNE). Pour cela, nous avons suivi les travaux de (Gillick et Favre, 2009) sur le résumé automatique et avons proposé un modèle similaire fondé sur un problème de PLNE de type couverture maximale. L’originalité de notre modèle est d’utiliser une pondération à l’échelle des mots du document pour ensuite rechercher le sous-ensemble optimal de mots-clés (termes) couvrant le plus grand nombre de mots importants. De cette façon, la redondance dans l’ensemble de mots-clés extraits est gérée de manière implicite par le modèle qui ne bénéficie de l’inclusion de chaque mot qu’une seule fois. L’évaluation de notre modèle a été réalisée sur l’ensemble de données SemEval 2010, composés d’articles scientifiques issus de la bibliothèque numérique de l’ACM.
En parallèle de l’adaptation du modèle de PLNE à l’extraction de mots-clés, l’étude approfondie des travaux de (Gillick et Favre, 2009) a fait émerger une problématique jusqu’à présent non traitée, celle des multiples solutions optimales. Le problème de couverture maximale est NP-complet, et il est ainsi obligatoire de simplifier la formulation du problème pour que les solvers existants puissent le résoudre en un temps raisonnable. Dans la littérature, cette simplification passe par la réduction du nombre d’éléments utilisés pour pondérer les ensembles. Malheureusement, cette réduction, couplée à des méthodes de pondération grossières, a pour effet de provoquer l’apparition de solutions optimales équivalentes.
Nous avons ensuite porté notre attention sur l’étape de sélection des mots-clés candidats. La sélection des candidats (c.-à-d. les unités textuelles susceptibles d’être des mots-clés) est une étape très importante puisqu’elle définit à la fois la performance maximale (rappel) et la complexité (nombre de candidats à traiter) des modèles d’extraction de mots-clés subséquents. Contrairement aux méthodes classiquement utilisées pour sélectionner les candidats fondées sur des critères surfaciques (p. ex. séquences d’étiquettes grammaticales), nous avons fait le choix de recourir à des critères motivés linguistiquement (détection et filtrage des adjectifs dénominaux dans les groupes nominaux).
Une des problématiques à laquelle nous nous sommes confrontés au cours du projet GOLEM est l’absence de collections de test en français pour évaluer les méthodes d’extraction de mots-clés proposées. Nous avons répondu à ce problème en participant à l’initiative lancée par le projet ANR TERMITH pour la constitution d’un ensemble de données d’évaluation standardisé en français. Contrairement aux ensembles disponibles en anglais où les mots-clés de référence sont produits soit par les auteurs, soit par des lecteurs, nous avons fait appel à des indexeurs professionnels afin de garantir un niveau de qualité très élevé.