Title
Apprentissage actif pour l'annotation de documents
Abstract
RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherch e de Xerox, nous avons développé des composants pour l'annotation sémantiq ue de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régul ière et peuvent être facilement ex- traites, d'autres collections plus complexes et hétérogén es nous ont amenés à déployer des méthodes d'apprentissage automatique. Dans les cas réels n ous sommes souvent confronté au problème technique de la non disponibilité de corpus annoté s, pour des tâches d'annotations spécifiques. Comme l'annotation manuelle est coûteuse et pr opice à l'erreur, notre approche consiste à appliquer des méthodes d'apprentissage actif afin de considérablement réduire le corpus nécessaire à l'élaboration d'un modèle pertinent. Dans cet article , nous expliquons comment le principe de l'apprentissage actif est adapté à l'annotation interactive de documents orientés mise en page. Pour une utilisation efficace de l'apprentissage actif sur les grandes col- lections, nous deployons un classifieur probabiliste basé s ur le principe de l'entropie maximum ainsi que trois métriques d'incertitude Nous présentons leprototype ALDAI (Active Learning Document Annotation) et décrivons ses fonctionnalités ain si que les choix d'implémentation. Le prototype offre une interface WYSIWYG, un haut langage po ur la définition des attributs et intègre le composant d'apprentissage actif qui vise à ass ister l'utilisateur dans le processus d'annotation. Nous rapportons aussi des résultats de testsd'évaluation des techniques d'ap- prentissage actif sur une collection de données publiques( UCI) et une collection de documents interne. ABSTRACT. In the framework of the LegDoc project at Xerox Research Cent re Europe, we are de- veloping components for the semantic annotation of semi-st ructured documents. While certain semantic entities have regular forms and might be easily ext racted, more complex and hetero- geneous collections favor the deployment of machine learni ng methods. Moreover, real world cases pose the technical challenge of the unavailable train ing sets for specific annotation tasks. As the manual annotation is costly and error-prone, our appr oach consists in applying active Quatrième conférence francophone en Recherche d'Informat ion et Applications - mars/2007, pages 1 à 16
Year
Venue
Keywords
2007
CORIA
col,active learning,natural language processing
Field
DocType
Citations 
World Wide Web,Software deployment,Annotation,Semantic annotation,Computer science,Manual annotation
Conference
0
PageRank 
References 
Authors
0.34
13
2
Name
Order
Citations
PageRank
Loïc Lecerf1102.35
Boris Chidlovskii241152.58