Title
Robustes Chunkparsing mit variabler Analysetiefe
Abstract
Das Chunkparsing [1], [2] bietet einen besonders vielversprechenden Ansatz zum robusten, partiellen Parsing mit dem Ziel einer breiten Datenabdeckung. Ziel beim Chunkparsing ist eine partielle, nicht-rekursive syntaktische Struktur. Dieser extrem effiziente Parsing-Ansatz last sich als Kaskade endlicher Transducer realisieren. In diesem Beitrag wird TuSBL vorgestellt, ein System, bei dem die Eingabe aus spontaner, gesprochener Spache besteht, die dem Parser in Form eines Worthypothesengraphen aus einem Spracherkenner zur Verfugung gestellt wird. Chunkparsing ist fur eine solche Anwendung besonders geeignet, da es fragmentarische oder nicht wohlgeformte Auserungen robust behandeln kann. Des weiteren wird eine Baumkonstruktionskomponente vorgestellt, die die partiellen Chunkstrukturen zu vollstandigen Baumen mit grammatischen Funktionen erweitert. Das System wird anhand manuell uberprufter Systemeingaben evaluiert, da sich die ublichen Evaluationsparameter hierfur nicht eignen. * Die vorliegende Arbeit wurde im Rahmen des Verbundvorhabens Verbmobil vom Bundesministerium fur Bildung, Wissenschaft, Forschung und Technologie (BMBF) unter dem Forderkennzeichen 01 IV 701 M0 und von der Deutschen Forschungsgemeinschaft im Rahmen des Sonderforschungsbereich 441 gefordert. Die Verantwortung fur den Inhalt der Arbeit liegt bei den Autoren. 1 Einleitung Die gegenwartige Forschung zum Parsen naturlicher Sprache ist vom Spannungsfeld zwischen flacher bzw. partieller Strukturanalyse (mit dem Ziel einer breiten Datenabdeckung) einerseits und tiefer und moglichst vollstandiger Strukturanalyse (unter Inkaufnahme einer engen Datenabdeckung) andererseits gekennzeichnet. Das Chunkparsing [1], [2] stellt einen viel diskutierten und besonders erfolgversprechenden Ansatz fur das effiziente Parsen groser Textmengen mit breiter Datenabdeckung dar. Die Strategie des Chunkparsing besteht darin, die Analyse nicht-rekursiver Teilkonstituenten vom Parsen groserer, rekursiver syntaktischer Einheiten zu separieren. Dies ermoglicht eine effiziente Chunkparsingarchitektur als Kaskade endlicher Transducer mit rightmost, longest-match Strategie [2]. Die bisherige Literatur zum Chunkparsing weist jedoch drei Lucken auf: • Bisherige Studien zum Chunkparsing gehen von schriftsprachlichen Textkorpora als Eingabeketten aus. Zusatzliche Schwierigkeiten ergeben sich, wenn es sich bei der Eingabe um die von einem akustischen Spracherkenner verarbeiteten Worthypothesen spontansprachlicher Auserungen handelt. • Es gibt bisher keine Untersuchungen daruber, wie partielle Chunkanalysen zu Strukturanalysen chunkubergreifender, rekursiver syntaktischer Einheiten miteinander verbunden werden konnen. • Es liegen bislang keine quantitativen Studien daruber vor, welche Datenabdeckung mit dem Chunkparsing erzielt werden kann. Ziel dieses Beitrags ist es, diese Forschungslucken zu schliesen und das System TuSBL (Tubingen Similarity Based Learning) vorzustellen. Den Forschungskontext der hier beschriebenen Studie bildet das BMBF Verbundprojekt Verbmobil, das die maschinelle Ubersetzung spontansprachlicher Auserungen zwischen den Sprachen Deutsch, Englisch und Japanisch zum Ziel hat. Die Anwendungsdomane liegt in den Bereichen Terminvereinbarungen, Reiseplanung und PC-Wartung. Die nachfolgenden Beispiele sind daher aus dieser Anwendungsdomane entnommen, die beschriebenen Techniken jedoch domanenunabhangig und generell anwendbar. 2 Parsing mit variabler Analysetiefe TuSBL wurde in einer dreistufigen Systemarchitektur angelegt, um ein effizientes und robustes Parsing zu ermoglichen. In den drei Stufen werden jeweils genau spezifizierte Teilprobleme angegangen: In der ersten Stufe wird das Part-of-Speech Tagging, d.h. die Zuweisung der Wortarten mittels des LIKELY-Taggers [5] durchgefuhrt; als Tagset dient das StuttgartTubingen-Tagset (STTS) [9]. Die so ermittelten POS Tags dienen als Eingabe fur den Chunkparser [1], [2], der an die systemspezifischen Anforderungen angepast wurde. Die dort ermittelte Chunkstruktur dient dann als Eingabe in die Baumkonstruktion, wo die Chunkstrukturen soweit moglich zu kompletten Baumen erweitert werden. Eine mangelnde Abdeckung in der Chunkoder in der Baumkonstruktionskomponente fuhrt nicht zu einem Systemabbruch, die fragliche (Teil-)Struktur wird unverandert an die nachste Stufe weitergegeben. 2.1 Chunkparsing mit Spracherkenner-Input In naturlich-sprachlichen Systemen, deren Input aus gesprochener Sprache besteht, wird dem syntaktischen Parsing die automatische Erkennung von Einzelwortern vorgeschaltet. Der Output des Spracherkenners fur die Weiterverarbeitung in einer NLP Anwendung besteht ublicherweise aus einem Worthypothesengraphen. Der syntaktische Parser hat dann die Aufgabe, aus diesem Graphen die gemas einer zugrundeliegenden Grammatik beste Hypothese fur die Gesamtstruktur der Auserung zu ermitteln. Im Falle von Verbmobil werden aus dem Worthypothesengraphen, den der Spracherkenner liefert, die nbesten Ketten von Worthypothesen fur die Gesamtauserung gebildet und dem Chunkparser als Eingabeketten zur Verfugung gestellt. Diese n-besten Ketten sind mit all jenen Fehlerquellen behaftet, die fur akustische Spracherkenner tpyisch sind: das fehlerhafte Einfugen oder "Verschlucken" von kurzen Wortern aus geschlossenen Wortklassen (z.B. Prapositionen, Artikel, Interjektionen), das "Verschlucken" von gebundenen Morphemen bzw. das fehlerhafte Abbilden von unbekannten Wortern auf bekannte Worter. Ein typisches Beispiel einer derartig fehlerbehafteten Satzhypothese aus der Verbmobildomane ist die Zeichenkette ich konnte Ihnen ja aber zum Beispiel ein Dienstag mich den zwolften anbieten, in der die Worter ein und mich vom Spracherkenner eingefugt worden sind. Trotz des fehlerhaften Inputs gelingt es dem Chunkparser, eine partielle Analyse zu liefern: Eingabe: ich konnte Ihnen ja aber zum Beispiel ein Dienstag mich den zwolften anbieten Chunkausgabe: [simpx [nx2 [pper ich]] [vxfin [vmfin konnte]] [nx2 [pper Ihnen]] [ptkant ja] [advx [adv aber]] [px [appr zum] [nx2 [nn Beispiel]]] [nx3 [art ein] [nx2 [nn Dienstag]]] [nx2 [pper mich]] [nx4 [art den] [adja zwolften]] [vvinf anbieten]] Wenn der Chunkparser eine fehlerhafte Hypothese zu verarbeiten hat, liefert er, wie im obigen Beispiel mehrere, lokal grammatische Teilstrukturen. Bei diesen Teilstrukturen handelt es sich um "islands of certaintyu0027u0027 im Sinne von Abney [2], die sich fur die Weiterverarbeitung durch weitere Systemmodule (im Fall von Verbmobil: die semantische Analyse und die maschinelle Ubersetzung) eignet. Ein Chunkparser liefert somit einen wichtigen Beitrag zu einem robusten Sprachverarbeitungssystem, das auch defizitaren Input weiterverarbeiten kann. 2.2 Ahnlichkeitsbasierte Baumkonstruktion Die Baumkonstruktion basiert auf dem Lernverfahren des memory-based reasoning [10], das mit grosem Erfolg auf diverse NLP Klassifikationsaufgaben angewandt worden ist, darunter POS Tagging, GraphemPhonem-Konvertierung, Wortbedeutungsdisambiguierung und PP Attachment [4], [12], [13]. Dieser Ansatz geht davon aus, das die Verarbeitung aktueller Information durch den Vergleich mit gespeicherter Information uber andere, bereits gesehene Strukturen erfolgt. Es handelt sich dabei um "lazy learning" in dem Sinne, das uber gespeicherte Instanzen nicht wie in regel-basierten Systemen abstrahiert wird, sondern die Instanzen wie vorgefunden mit der aktuellen Eingabe abgeglichen werden. Im vorliegenden Fall besteht die Datengrundlage der bereits gesehenen Instanzen aus einer syntaktisch annotierten Baumbank [11], mit ca. 60.000 Baumen. Das Ahnlichkeitsmas fur die Baumkonstruktion berechnet sich aus den vorkommenden 1 Die deutsche Baumbank ist in ca. 38.000 Dialogabschnitte (dialog turns) gegliedert, die jeweils aus einem oder mehreren Teilbaumen bestehen. TuSBL wurde fur die Sprachen Deutsch und Englisch trainiert, fur Englisch liegt eine Baumbank mit ca. 35.000 Baumen vor [7]. Lexemen, den zugewiesenen POS-Tags, der Segmentierung in Chunks und der den Chunks zugewiesenen Kategorien. In den Fallen, in denen der Spracherkenner dem Chunkparser gute Hypothesen fur eine syntaktisch wohlgeformte Gesamtstruktur liefert, lassen sich die gechunkten Teilstrukturen im weiteren Verarbeitungsschritt der Baumkonstruktion zu satzuberspannenden Gesamtstrukturen verbinden. Fur die folgende Eingabekette, zum Beispiel, liefert der Chunkparser zunachst folgende Teilstrukturen: Eingabe: genau ich sehe grade der wurde zuruckfliegen von Hannover nach Munchen um sechzehn Uhr funf zum Beispiel
Year
Venue
Keywords
2000
KONVENS
robustes chunkparsing
Field
DocType
ISBN
Humanities,Philosophy,Bildung
Conference
3-8007-2564-9
Citations 
PageRank 
References 
0
0.34
5
Authors
2
Name
Order
Citations
PageRank
Sandra Kübler15613.29
Erhard W. Hinrichs220445.42