KONDE - Kompetenznetzwerk Digitale Edition

Weißbuch

Lemmatisierung TEI Download PDF Download

Resch, Claudia; claudia.resch@oeaw.ac.at

In Zusammenhang mit der Erschließung von digitalen Textdaten meint Lemmatisierung die Rückführung eines vorkommenden Wortes – einer Vollform – auf seine Grundform (auch: Lemma, Nennform, Basisform oder kanonische Form), die stellvertretend für das gesamte Flexionsparadigma eines Wortes steht. So werden etwa die Wortformen helfe, hilfst, hilft, helft, geholfen oder hilf auf ein gemeinsames Lemma helfen zusammengeführt. Durch diesen Arbeitsschritt kann die Suche erheblich erleichtert werden: Anstatt alle Formen eines Wortes abfragen zu müssen, erhalten Benutzerinnen und Benutzer durch die Eingabe einer Grundform alle ihr zugeordneten Wortformen. Besondere Bedeutung hat die Lemmatisierung für historische Korpora mit höherer grafischer und formaler Varianz bzw. für regionale Sprachvarietäten oder Daten gesprochener Sprache. Durch die Rückführung der Non-Standard-Daten auf eine einheitliche Grundform können diese Varianten ebenfalls mit einem einzigen Suchbefehl gefunden werden.

Die Ansetzung des Lemmas erfolgt nach bestimmten Richtlinien und kann auch mit Hilfe von Tools – sogenannter ‘Lemmatisierer’ (lemmatizer) – durchgeführt werden. Diese versuchen verschiedene Wortformen mit ihrer jeweiligen Grundform zu verbinden und sind dazu mit anderen Ressourcen, etwa mit maschinenlesbaren Lexika, ausgestattet, in denen hinterlegt ist, welcher Flexionssystematik bestimmte Worte folgen. In jedem Fall muss aber für Benutzerinnen und Benutzer nachvollziehbar dokumentiert sein, nach welchen Regeln lemmatisiert worden ist.

Die Lemmatisierung ist – gemeinsam mit der Tokenisierung und der Wortartenzuordnung (Part-of-Speech-Tagging) – Teil der linguistischen Annotation.

Literatur:

Zitiervorschlag:

Resch, Claudia. 2021. Lemmatisierung. In: KONDE Weißbuch. Hrsg. v. Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner im HRSM Projekt "Kompetenznetzwerk Digitale Edition". Aufgerufen am: . Handle: hdl.handle.net/11471/562.50.115. PID: o:konde.115