Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird, beschäftigten sich sieben universitäre Partner und drei weitere Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale Edition umfasst. Die behandelten Themenkomplexe reichen dabei über Digitale Editionswissenschaft im Allgemeinen, Annotation und Modellierung, Interfaces, Archivierung und Metadaten bis hin zu rechtlichen Aspekten.
Eine der häufigsten fachspezifischen Annotationen von Texten besteht in der Zuweisung linguistischer Information nach morphosyntaktischen Merkmalen. Das sogenannte Part-of-Speech-Tagging (PoS-Tagging) ist das Klassifizieren eines Textes nach Wortarten und stellt neben der Tokenisierung und Lemmatisierung einen wesentlichen Bestandteil der linguistischen Basisannotation dar: Dabei werden die in einem Text vorkommenden Wörter und Satzzeichen mit einem vordefinierten Inventar von verfügbaren Wortarten (TagSet) einer grammatikalischen Klasse zugewiesen, wodurch eine Suche nach abstrakten sprachlichen Phänomenen möglich wird. Auf diese Weise kann die Abfrage generalisiert werden, etwa indem nach bestimmten Wortarten oder Sequenzen von Wortarten gesucht wird. Die Abfrage kann damit jedoch auch weiter spezifiziert werden, zum Beispiel, wenn gezielt nach allen Belegen der Wortform ‘sein’ in der Funktion des Possessivpronomens gesucht wird, hingegen die Vorkommen von ‘sein’ als Auxiliarverb ausgeschlossen werden sollen.
Die Zuordnung der Wortformen zu einer Wortart kann manuell, halb-automatisch oder – bei sehr großen Textsammlungen – automatisch durch sogenannte Part-of-Speech-Tagger (kurz: PoS-Tagger) erfolgen. Deren Zuweisungen und Disambiguierungen basieren entweder auf Regeln (symbolische Tagger) oder auf statischen Verfahren bzw. maschinellen Lernverfahren (stochastische Tagger). Sogenannte hybride oder transformationsbasierte Tagger kombinieren beide Verfahren, indem sie bei der Disambiguierung mehrdeutiger Einheiten zunächst von der wahrscheinlichsten Wortart ausgehen, um diese dann durch kontextspezifische Regeln zu korrigieren
Als Referenzsysteme und Grundlage für das Trainieren des PoS-Taggings werden Texte von bester Qualität (Goldstandard) herangezogen, deren automatische Annotation manuell überprüft und nachkorrigiert wurde. Generell ist die Automatisierung des PoS-Taggings für große, moderne Standardsprachen bereits sehr weit fortgeschritten – allerdings „bleibt hier für historische oder variante Spracherzeugnisse oder bestimmte literarische Genres noch viel zu tun“
Die Qualität von manuell durchgeführten Annotationen beruht letztlich auf interpretativen Entscheidungen, deren Zuverlässigkeit durch die Anwendung des Inter-Annotator-Agreements oder des Intra-Annotatator-Agreements gesichert werden soll. Im Sinne der Nachnutzbarkeit von Annotationen ist es wichtig, deren Qualität einzuschätzen, mögliche Fehlerquellen zu diskutieren und die Verwendung der Labels sowie getroffene Entscheidungen in den Tagging-Guidelines nachvollziehbar zu dokumentieren.