KONWIHR Project: Treebank

Suche


Hochskalierbares Parsen natürlicher Sprache mit High-Performance- und Grid-Computing-Methoden

Project summary

Die Nutzung großer, per Computer abfragbarer Textsammlungen, sogenannter Korpora, ist seit vielen Jahren in der empirischen Sprachwissenschaft etabliert. Viele Korpora werden bereits seit langem mit maschinellen Verfahren auf Wortebene annotiert, so dass der Benutzer beispielsweise mit nur einer Abfrage nach allen Formen des Verbs be (am, are, is, was, were, being, been) oder nach allen Verwendungen von love als Substantiv und nicht als Verb suchen kann. Größere Einheiten als das Wort werden jedoch deutlich seltener annotiert, und eine vollständige grammatische Analyse eines Satzes mittels eines syntaktischen Parsers ist heute noch eher die Ausnahme. Dabei bietet eine solche Annotation der grammatischen Struktur den unschätzbaren Vorteil, dass unabhängig von Einzelwörtern auch grammatische Teilstrukturen gefunden werden können. Eine Abfrage nach ditransitiven Verben (=Verben mit zwei Objekten) ist zum Beispiel nicht ohne ein geparstes Korpus, eine sogenannte Treebank, zu erreichen.

Zwar sind sich die meisten Linguisten dessen bewusst, dennoch ist die Nutzung geparster Korpora bis auf wenige (kleine und teure) Ausnahmen bisher computeraffinen Sprachwissenschaftlern vorbehalten gewesen, die darüber hinaus über substanzielle Rechenkraft verfügten, denn Parsing ist vergleichsweise rechenzeit- und arbeitsspeicherintensiv (ca. 60 CPU-Tage für 100 Mio. Wortformen mit dem Stanford Parser). Das Erlanger treebank.info-Projekt hat sich daher zum Ziel gesetzt, eine kostenfreie, einfach zu bedienende Web-Anwendung zu schaffen, die es Benutzern erlaubt, Korpora als Textdateien hochzuladen, festzulegen, wie diese annotiert werden sollen, und dann über ein intuitiv zu bedienendes grafisches Benutzerinterface abzufragen. Eine solche Anwendung ist ohne eine Hochleistungsrechner-Infrastruktur im Hintergrund nicht machbar.

Da die ersten Implementierungen der entsprechenden Infrastruktur bereits bei mehr als 100 parallel arbeitenden Kernen an ihre Grenzen stießen, wurde im Sommer 2011 ein Antrag auf Förderung durch die KONWIHR-Softwareinitiative gestellt, in deren Rahmen die Infrastruktur mit dem Ziel größtmöglicher Skalierbarkeit neu implementiert werden sollte, um große Textmengen wie die englischsprachige Wikipedia auf den Erlanger High-Performance-Computing-Systemen parsen zu können.

Durch die konsequente Verwendung von verteilt laufender Software (MongoDB, HornetQ) sowie von Maschinen mit extrem viel Arbeitsspeicher, konnte dieses Ziel, auch dank der ausgezeichneten Betreuung durch die Mitarbeiter der HPC-Gruppe, im Projektzeitraum erreicht werden. Es ist gelungen, mit mehr als 1000 CPU-Kernen parallel zu parsen, ohne dass eine Beeinträchtigung der zentralen Infrastruktur zu erkennen gewesen wäre; somit können mehr als 3 Mio. „Sätze“ (ca. 50 Mio. Wortformen) in weniger als einer Stunde verarbeitet werden. Zwei Mrd. Wortformen Web-Daten und 1 Mrd. Wortformen Zeitungsdaten sind (Stand Dezember 2011) bereits geparst; das entspricht von der Menge her ca. 70% der englischsprachigen Wikipedia, die lediglich aufgrund von Problemen bei der Vorverarbeitung noch nicht in einem reinen Textformat zum Parsen vorliegt.

Die wissenschaftliche Nutzung der geparsten Daten aus Erlangen hat bereits begonnen, obwohl das Projekt noch im Beta-Stadium ist. So konnten in kurzer Zeit eine Reihe von kleinen Korpora südasiatischen Englischs verarbeitet werden, die für ein Promotionsprojekt an der Justus-Liebig-Universität Gießen benötigt werden. In der Erlanger Anglistik entstehen zwei Abschlussarbeiten und eine Doktorarbeit, die für die Datenerhebung auf die Web-Anwendung zurückgreifen. Außerdem konnte in einem Vortrag bei der Gesellschaft für angewandte Linguistik im September 2011 gezeigt werden, dass mittels geparster Daten auch die Erkennung von Wortverbindungen signifikant verbessert werden kann und somit in der Wörterbucherstellung Zeit gespart werden kann.

KONWIHR funding

  • KONWIHR funding: two months during Multicore-Software-Initiative 2012

Contact:

  • Peter Uhrig, LS Anglistik, insbesondere Linguistik, FAU