Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird, beschäftigten sich sieben universitäre Partner und drei weitere Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale Edition umfasst. Die behandelten Themenkomplexe reichen dabei über Digitale Editionswissenschaft im Allgemeinen, Annotation und Modellierung, Interfaces, Archivierung und Metadaten bis hin zu rechtlichen Aspekten.
Natural Language Processing (NLP) oder auch maschinelle
Sprachverarbeitung beschäftigt sich mit der algorithmengestützten Verarbeitung von
natürlicher Sprache. Teilaufgaben von NLP beschäftigen sich unter anderem mit
Spracherkennung, Tokenisierung von Texten,
Part-Of-Speech-Tagging/PoS
,
Named Entity Recognition/NER
und dem automatisierten Erkennen und der Extraktion der Bedeutung von
Wörtern im Satzgefüge und den Beziehungen zu anderen Wörtern sowie von Sätzen
zueinander. In sogenannten NLP-Pipelines werden mehrere dieser Teilbereiche
aufeinanderfolgend ausgeführt und ein Text (plain text)
schrittweise mit Information angereichert. Ein Beispiel dafür ist das
Onlineservice
WebLicht
. Es erlaubt der Nutzerin bzw. dem Nutzer, eine NLP-Pipeline mit
austauschbaren Teilaufgaben, die von Drittanbietern zur Verfügung gestellt werden,
zusammenzustellen und auf Texte anzuwenden.
Im Kontext von Digitalen Editionen
kann NLP bei der Aufbereitung und Normalisierung von Texten und der automatisierten Anreicherung mit
semantischen Informationen zum Einsatz kommen, zum Beispiel beim automatisierten
Erkennen von Sätzen und dem Taggen von Personen und Orten. Die Daten von Digitalen
Editionen können aber auch als Grundlage für NLP-Analysen dienen. In diesem Falle
ist es der fertig edierte, elektronische Text, der mit NLP-Methoden für die
Expertenanalyse aufbereitet wird. Ein weiterer Anwendungsfall wäre, dass die
Editionsdaten als Trainingsdaten für Machine Learning
verwendet werden (z. B. Personen- und Ortsdaten für NER).