NLP Roman Bleier Projektleitung Helmut W. Klug Datenmodellierung Selina Galka Datenmodellierung Elisabeth Steiner Bundesministerium für Wissenschaft, Forschung und Wirtschaft Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities, Karl-Franzens-Universität Graz Austria Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities, Karl-Franzens-Universität Graz Austria GAMS - Geisteswissenschaftliches Asset Management System Creative Commons BY 4.0 2021 Graz o:konde.145 KONDE Weißbuch Projektleitung Helmut W. Klug Weißbuchartikel: NLP Roman Bleier Herausgegeben von Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner 2021 Austria KONDE Weißbuch

Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird, beschäftigten sich sieben universitäre Partner und drei weitere Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale Edition umfasst. Die behandelten Themenkomplexe reichen dabei über Digitale Editionswissenschaft im Allgemeinen, Annotation und Modellierung, Interfaces, Archivierung und Metadaten bis hin zu rechtlichen Aspekten.

Deutsch
NLP
Bleier, Roman; roman.bleier@uni-graz.at

Natural Language Processing (NLP) oder auch maschinelle Sprachverarbeitung beschäftigt sich mit der algorithmengestützten Verarbeitung von natürlicher Sprache. Teilaufgaben von NLP beschäftigen sich unter anderem mit Spracherkennung, Tokenisierung von Texten, Part-Of-Speech-Tagging/PoS , Named Entity Recognition/NER und dem automatisierten Erkennen und der Extraktion der Bedeutung von Wörtern im Satzgefüge und den Beziehungen zu anderen Wörtern sowie von Sätzen zueinander. In sogenannten NLP-Pipelines werden mehrere dieser Teilbereiche aufeinanderfolgend ausgeführt und ein Text (plain text) schrittweise mit Information angereichert. Ein Beispiel dafür ist das Onlineservice WebLicht . Es erlaubt der Nutzerin bzw. dem Nutzer, eine NLP-Pipeline mit austauschbaren Teilaufgaben, die von Drittanbietern zur Verfügung gestellt werden, zusammenzustellen und auf Texte anzuwenden.

Im Kontext von Digitalen Editionen kann NLP bei der Aufbereitung und Normalisierung von Texten und der automatisierten Anreicherung mit semantischen Informationen zum Einsatz kommen, zum Beispiel beim automatisierten Erkennen von Sätzen und dem Taggen von Personen und Orten. Die Daten von Digitalen Editionen können aber auch als Grundlage für NLP-Analysen dienen. In diesem Falle ist es der fertig edierte, elektronische Text, der mit NLP-Methoden für die Expertenanalyse aufbereitet wird. Ein weiterer Anwendungsfall wäre, dass die Editionsdaten als Trainingsdaten für Machine Learning verwendet werden (z. B. Personen- und Ortsdaten für NER).

Natural Language Processing with Python Steven Bird Ewan Klein Edward Loper Bejing u.a. O'Reilly 2009 2020-01-27T21:22:05Z https://www.nltk.org/book/ Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition 978-0-13-187321-6 Daniel Jurafsky James H. Martin 2 Upper Saddle River, New Jersey, United States of America Pearson Education 2009 Natural Language Processing for Historical Texts 978-1-60845-946-9 Michael Piotrowski Graeme Hirst Morgan & Claypool Publishers 2012 http://doi.org/10.2200/S00436ED1V01Y201207HLT017 Synthesis Lectures on Human Language Technologies 17 WebLicht. Main Page Main page CLARIN-D Tübingen WebLicht 2019-12-16 https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page
Part-of-Speech-Tagging spaCy Named Entity Recognition / NER Weblicht xTokenizer Tagger
CLARIN-mediated NLP-services enrich/stanbol (ACDH-OeAW) Manuscript Desk SaltNPepper topic-modelling-tool weblicht TEITOK Apache OPENNLP CLAWS POS-Tagger for English Chaos CiceroLight DBpedia Spotlight FreeLing IMPACT Tools and Data Natural Language Toolkit (nltk) Classical Language Toolkit (cltk) corpus workbench CC Lizenzgenerator spacy flair German NER GermaNER TreeTagger RNNTagger SoMeWeTa Surrogate Generation NeuroNER Digilib LemmaGen MontyLingua Morfette CST's Lemmatiser acdh-spacytei xsl-tokenizer ANNIS
Einführung Natural Language Processing