Automatic processing of multilingual medical terminology: applications to thesaurus enrichment and cross-language information retrieval. - Citegraph

Paper Info

Title
Automatic processing of multilingual medical terminology: applications to thesaurus enrichment and cross-language information retrieval.

Abstract
We present in this article experiments on multi-language information extraction and access in the medical domain. For such applications, multilingual terminology plays a crucial role when working on specialized languages and specific domains.We propose firstly a method for enriching multilingual thesauri which extracts new terms from parallel corpora, and secondly, a new approach for bilingual lexicon extraction from comparable corpora, which uses a bilingual thesaurus as a pivot. We illustrate their use in multi-language information retrieval (English/German) in the medical domains.Our experiments show that these automatically extracted bilingual lexicons are accurate enough (85% precision for term extraction) for semi-automatically enriching mono- or bi-lingual thesauri such as the universal medical language system, and that their use in cross-language information retrieval significantly improves the retrieval performance (from 22 to 40% average precision) and clearly outperforms existing bilingual lexicon resources (both general lexicons and specialized ones).We show in this paper first that bilingual lexicon extraction from parallel corpora in the medical domain could lead to accurate, specialized lexicons, which can be used to help enrich existing thesauri and second that bilingual lexicons extracted from comparable corpora outperform general bilingual resources for cross-language information retrieval.

Year	DOI	Venue
2005	10.1016/j.artmed.2004.07.015	Artificial Intelligence In Medicine
Keywords	Field	DocType
cross-language information retrieval,cross-language medical information retrieval,bilingual lexicon resource,comparable corpus,thesaurus enrichment,parallel corpora,bilingual lexicon,bilingual thesaurus,bilingual lexicon extraction,medical domain,bilingual lexicon extraction from parallel and comparable corpora,general bilingual resource,multilingual medical terminology,multi-language information extraction,corpus linguistics,parallel corpus,comparable corpora,automatic processing,generative lexicon,information extraction,information retrieval	Information retrieval,Terminology,Medical terminology,Computer science,Parallel corpora,Information extraction,Corpus linguistics,Artificial intelligence,Natural language processing,Unified Medical Language System,Cross-language information retrieval,German	Journal
Volume	Issue	ISSN
33	2	0933-3657
Citations	PageRank	References
17	0.96	15
Authors
4

Authors (4 rows)

Cited by (17 rows)

References (15 rows)

Name	Order	Citations	PageRank
Hervé Déjean	1	377	48.52
Eric Gaussier	2	1019	65.85
Jean-Michel Renders	3	152	18.12
Fatiha Sadat	4	319	34.39

1