KONDE - Kompetenznetzwerk Digitale Edition

Weißbuch

Alternativen zur Textkodierung mit TEI TEI Download PDF Download

Hinkelmanns, Peter; peter.hinkelmanns@sbg.ac.at

Auf hierarchischen Graphen basieren zahlreiche Modelle der Textkodierung. Im geisteswissenschaftlichen Bereich kann hier an erster Stelle das Modell der Text Encoding Initiative (TEI) (TEI: P5 Guidelines) genannt werden, aber es folgen auch andere verbreitete Formate wie etwa WordprocessingML (WordprocessingML 2017) oder die inzwischen abgelöste Extensible HyperText Markup Language (XHTML) (XHTML 2000) diesem Ansatz. Gemein ist diesen Modellen, dass streng hierarchisch Text von einer großen Einheit – etwa einem Absatz – hin zu untergeordneten Einheiten – einem Satz – strukturiert wird.

Diese strikte Hierarchisierung bedeutet, dass ein Überschneiden von Elementen nicht möglich ist. Eine solche Überschneidung kann etwa ein über eine Seitengrenze hinaus laufender Satz sein:

<page><s></page><page></s></page>

Das kurze Beispiel ist ein Verstoß gegen die hierarchischen Regeln von XML. Dieser Umstand ist wiederholt diskutiert worden, etwa von Claus Huitfeldt (Huitfeldt 1994, S. 237), Steven J. DeRose (DeRose 2004) und von Desmond Schmidt und Robert Colomb. (Schmidt/Colomb 2009, S. 498–99) Trotz der TEI zugrunde liegenden hierarchischen Struktur bietet TEI zahlreiche Möglichkeiten, wie leere Elemente oder Stand-off-Markup, um auch solche überlappende Strukturen abzubilden. Übersichtlich hat dies James Cummings dargestellt. (Cummings 2018)

Eine Alternative zur Kodierung als hierarchischer Graph ist etwa die als Variantengraph. Geprägt wurde diese Idee durch Desmond Schmidt und Robert Colomb (Schmidt/Colomb 2009). Sie schlagen vor, Unterschiede zwischen Varianten eines Textes als Graph darzustellen. So ergibt sich für jede Textversion ein bestimmter Pfad durch den Graph. Umgesetzt wurde dies im Datenformat des Textkollationierers CollateX (Haentjens Dekker/Middell 2010–2019). Die Tokens des Textgraphs bilden die Knoten des Graphs; die Kanten, welche die Knoten untereinander verbinden, sind den einzelnen Textvarianten zugeordnet.

Weitere Ansätze zur Textkodierung umfassen etwa:

Eine Plattform für Editionsvorhaben, die Textvariation und Stemmata mittels Graphen abbilden, ist Stemmaweb. (Andrews/Mace 2013)

Literatur:

  • Andrews, Tara; Macé, Caroline. 2013. Beyond the tree of texts: Building an empirical model of scribal variation through graph analysis of texts and stemmata. In: Literary and Linguistic Computing 28, S. 504–521.
  • Cummings, James. 2017. A World of Difference. Myths and misconceptions about the TEI. In: DH2017. Montréal.
  • DeRose, Steven J. 2004. Markup Overlap. A Review and a Horse. In: Extreme Markup Languages 2004 Proceedings. Montréal, Québec.
  • Efer, Thomas. 2016. Graphdatenbanken für die textorientierten e-Humanities. Leipzig, Dissertation. URL: https://nbn-resolving.org/urn:nbn:de:bsz:15-qucosa-219122.
  • Haentjens Dekker, Ronald; Middell, Gregor. Documentation. URL: https://collatex.net/doc/
  • Haentjens Dekker, Ronald; Bleeker, Elli; Buitendijk, Bram; Kulsdom, Astrid; Birnbaum, David J. 2018. TAGML: A markup language of many dimensions. In: Balisage: The Markup Conference 2018. Washington, DC.
  • Huitfeldt, Claus. 1994. Multi-dimensional texts in a one-dimensional medium. In: Computers and the Humanities 28, S. 235–241.
  • Schmidt, Desmond; Colomb, Robert. 2009. A data structure for representing multi-version texts online. In: International Journal of Human-Computer Studies 67, S. 497–514.
  • Sperberg-McQueen, C M; Huitfeldt, Claus. 2004. GODDAG: A Data Structure for Overlapping Hierarchies. In: Digital Documents: Systems and Principles. Hrsg. von Peter King und Ethan V. Munson. Springer, S. 139–160.
  • Structure of a WordprocessingML document (Open XML SDK). URL: https://docs.microsoft.com/en-us/office/open-xml/structure-of-a-wordprocessingml-document
  • TEI: P5 Guidelines. URL: http://www.tei-c.org/Guidelines/P5/
  • XHTML™ 1.0 The Extensible HyperText Markup Language (Second Edition). URL: http://www.w3.org/TR/xhtml1

Zitiervorschlag:

Hinkelmanns, Peter. 2021. Alternativen zur Textkodierung mit TEI. In: KONDE Weißbuch. Hrsg. v. Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner im HRSM Projekt "Kompetenznetzwerk Digitale Edition". Aufgerufen am: . Handle: hdl.handle.net/11471/562.50.15. PID: o:konde.15