Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird, beschäftigten sich sieben universitäre Partner und drei weitere Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale Edition umfasst. Die behandelten Themenkomplexe reichen dabei über Digitale Editionswissenschaft im Allgemeinen, Annotation und Modellierung, Interfaces, Archivierung und Metadaten bis hin zu rechtlichen Aspekten.
Die automatisierte Erkennung von Handschrift (Handwritten Text
Recognition) beruht in Transkribus auf exakt
demselben Verfahren bzw. derselben Engine, die auch für die
Druckschriftenerkennung (OCR)
angewendet wird. Allerdings müssen die neuronalen Netze mit einer Reihe
zusätzlicher Herausforderungen zurechtkommen, da der Standardisierungsgrad bei
Handschriften insgesamt wesentlich geringer ist als bei Druckschrift. Konkret
bedeutet dies, dass wesentlich mehr Trainingsdaten notwendig sind, um diese
Aufgabe bewältigen zu können. Das macht sich insbesondere bei großen Modellen
bemerkbar, die zum Beispiel für eine Epoche von 100 oder mehr Jahren gute
Ergebnisse erzielen sollen.
Der einfachste Fall, der jedoch bei der Erstellung von digitalen Editionen häufig
auftreten wird, ist gegeben, wenn ein Modell für einen einzelnen Schreiber
trainiert werden soll. Hier reichen schon relativ wenige Seiten aus, um gute
Ergebnisse erzielen zu können. Als Beispiel führen wir die Tagebücher von Andreas
Okopenko an, die im Rahmen des KONDE-Projekts in Transkribus trainiert wurden. Hier lässt sich auch gut der Fortschritt
der letzten Jahre dokumentieren. Das erste Modell, das im Frühjahr 2018 erzeugt
wurde, weist eine Fehlerquote von 10,17 Prozent am Validierungsset auf. Mit der
weiterentwickelten Engine hingegen wird auf den identischen Trainingsdaten eine
Fehlerquote von 3,61 Prozent erreicht. Das Trainingsset besitzt in beiden Fällen
20.782 Wörter, geht man von 200 Wörtern pro Seite aus, dann liegen also nicht mehr
als ca. 100 Seiten Trainingsmaterial zugrunde.
Eines der größten Modelle für historische Handschriften in Transkribus wurde vom Nationalarchiv der Niederlande zusammen mit dem
Stadtarchiv Amsterdam erstellt. Das Modell umfasst ca. 7.000 Seiten bzw. 1.384.893
Wörter und erzielt auf dem Validierungsset 5,67 Prozent. Die zugrundeliegenden
Trainingsdaten wurden auf Basis einer Zufallsstichprobe aus mehreren Millionen
Seiten des 18. Jahrhunderts ausgewählt. Das Modell enthält hunderte
unterschiedliche Schreiber und kann daher mit einer Vielzahl unterschiedlicher
Schreibstile umgehen.
Ganz ähnliche Ergebnisse können auch mit den Kurrentmodellen in Transkribus erzielt werden, die auf ähnlichen Datenmengen beruhen. Hier
wurden mehrere tausend Seiten Kurrentschrift aus dem 17. bis 20. Jahrhundert
zugrunde gelegt. Der Schwerpunkt liegt allerdings auf dem späten 19. Jahrhundert.
Die Modelle sind in Transkribus frei verfügbar.
Zusammenfassend lässt sich sagen, dass mit dem Einsatz moderner Methoden der Texterkennung bei historischen Druckschriften nahezu fehlerlose Transkriptionen erzielt werden können. Bei historischen Handschriften sind die Ergebnisse noch deutlich fehlerhafter, trotzdem lassen sich mit überschaubarem Aufwand auch für Handschriften Modelle trainieren, die sowohl die Transkription beschleunigen, als auch die Durchsuchbarkeit großer Dokumentenmengen ermöglichen.