spaCy Peter Andorfer Matthias Schlögl Projektleitung Helmut W. Klug Datenmodellierung Selina Galka Datenmodellierung Elisabeth Steiner Bundesministerium für Wissenschaft, Forschung und Wirtschaft Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities, Karl-Franzens-Universität Graz Austria Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities, Karl-Franzens-Universität Graz Austria GAMS - Geisteswissenschaftliches Asset Management System Creative Commons BY 4.0 2021 Graz o:konde.170 KONDE Weißbuch Projektleitung Helmut W. Klug Weißbuchartikel: spaCy Peter Andorfer Matthias Schlögl Herausgegeben von Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner 2021 Austria KONDE Weißbuch

Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird, beschäftigten sich sieben universitäre Partner und drei weitere Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale Edition umfasst. Die behandelten Themenkomplexe reichen dabei über Digitale Editionswissenschaft im Allgemeinen, Annotation und Modellierung, Interfaces, Archivierung und Metadaten bis hin zu rechtlichen Aspekten.

Deutsch
spaCy
Andorfer, Peter; peter.andorfer@oeaw.ac.at / Schlögl, Matthias; matthias.schloegl@oeaw.ac.at

SpaCy ist eine in Python (Cython) geschriebene Programmbibliothek für natürliche Sprachverarbeitung (NLP). Im Gegensatz zu dem ebenfalls in Python implementierten NLP-Framework NLTK, das auf Forschung und Lehre fokussiert, will spaCy Lösungen für die Industrie bereitstellen. Dafür wird eine saubere und einfach zu verwendende API bereitgestellt, die sich auf die performante Erledigung von Standard-NLP-Aufgaben konzentriert. SpaCy stellt momentan Sprachmodelle für zehn Sprachen in verschiedenen Ausbaustufen zur Verfügung und erlaubt – je nach Modell – tokenizing, sentence splitting, tagging, parsing, named entity recognition und word similarity calculations. Zudem erlaubt spaCy die relativ einfache Erweiterung der Kernfunktionen. So können etwa in der spaCy-Pipeline auch externe Komponenten aufgerufen oder in der Tokenklasse custom attributes registriert werden (eine Anwendungsmöglichkeit, die z. B. acdh-spacytei nutzt).

Ein Großteil der von spaCy zur Verfügung gestellten Modelle, Klassen und Funktionen basiert auf Deep Learning-Technologien. Neben der Python-Bibliothek stellt spaCy auch Shell-Skripte zur Verfügung, mit deren Hilfe neue Modelle auf Basis eigener Trainingsdaten erstellt sowie bestehende Modelle weiter trainiert werden können.

spacy Natural Language Toolkit (nltk) acdh-spacytei
NLP Named Entity Recognition / NER Part-of-Speech-Tagging acdh-spacytei Tagger
Natural Language Processing Software und Softwareentwicklung