Alternativen zur Textkodierung mit TEI Peter Hinkelmanns Projektleitung Helmut W. Klug Datenmodellierung Selina Galka Datenmodellierung Elisabeth Steiner Bundesministerium für Wissenschaft, Forschung und Wirtschaft Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities, Karl-Franzens-Universität Graz Austria Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities, Karl-Franzens-Universität Graz Austria GAMS - Geisteswissenschaftliches Asset Management System Creative Commons BY 4.0 2021 Graz o:konde.15 KONDE Weißbuch Projektleitung Helmut W. Klug Weißbuchartikel: Alternativen zur Textkodierung mit TEI Peter Hinkelmanns Herausgegeben von Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner 2021 Austria KONDE Weißbuch

Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird, beschäftigten sich sieben universitäre Partner und drei weitere Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale Edition umfasst. Die behandelten Themenkomplexe reichen dabei über Digitale Editionswissenschaft im Allgemeinen, Annotation und Modellierung, Interfaces, Archivierung und Metadaten bis hin zu rechtlichen Aspekten.

Deutsch
Alternativen zur Textkodierung mit TEI
Hinkelmanns, Peter; peter.hinkelmanns@sbg.ac.at

Auf hierarchischen Graphen basieren zahlreiche Modelle der Textkodierung. Im geisteswissenschaftlichen Bereich kann hier an erster Stelle das Modell der Text Encoding Initiative (TEI) (TEI: P5 Guidelines) genannt werden, aber es folgen auch andere verbreitete Formate wie etwa WordprocessingML (WordprocessingML 2017) oder die inzwischen abgelöste Extensible HyperText Markup Language (XHTML) (XHTML 2000) diesem Ansatz. Gemein ist diesen Modellen, dass streng hierarchisch Text von einer großen Einheit – etwa einem Absatz – hin zu untergeordneten Einheiten – einem Satz – strukturiert wird.

Diese strikte Hierarchisierung bedeutet, dass ein Überschneiden von Elementen nicht möglich ist. Eine solche Überschneidung kann etwa ein über eine Seitengrenze hinaus laufender Satz sein:

<page><s></page><page></s></page>

Das kurze Beispiel ist ein Verstoß gegen die hierarchischen Regeln von XML. Dieser Umstand ist wiederholt diskutiert worden, etwa von Claus Huitfeldt (Huitfeldt 1994, S. 237), Steven J. DeRose (DeRose 2004) und von Desmond Schmidt und Robert Colomb. (Schmidt/Colomb 2009, S. 498–99) Trotz der TEI zugrunde liegenden hierarchischen Struktur bietet TEI zahlreiche Möglichkeiten, wie leere Elemente oder Stand-off-Markup , um auch solche überlappende Strukturen abzubilden. Übersichtlich hat dies James Cummings dargestellt. (Cummings 2018)

Eine Alternative zur Kodierung als hierarchischer Graph ist etwa die als Variantengraph. Geprägt wurde diese Idee durch Desmond Schmidt und Robert Colomb (Schmidt/Colomb 2009). Sie schlagen vor, Unterschiede zwischen Varianten eines Textes als Graph darzustellen. So ergibt sich für jede Textversion ein bestimmter Pfad durch den Graph. Umgesetzt wurde dies im Datenformat des Textkollationierers CollateX (Haentjens Dekker/Middell 2010–2019). Die Tokens des Textgraphs bilden die Knoten des Graphs; die Kanten, welche die Knoten untereinander verbinden, sind den einzelnen Textvarianten zugeordnet.

Weitere Ansätze zur Textkodierung umfassen etwa:

Textformate: FtanML Textformate: GrAF Textformate: Kadmos Textformate: LAF Textformate: LMNL Textformate: TAGML Textformate: TexMECS (GODDAG) Textformate: XStandoff

Eine Plattform für Editionsvorhaben, die Textvariation und Stemmata mittels Graphen abbilden, ist Stemmaweb. (Andrews/Mace 2013)

Beyond the tree of texts: Building an empirical model of scribal variation through graph analysis of texts and stemmata 10.1093/llc/fqt032 Beyond the tree of texts Tara Andrews Caroline Macé Literary and Linguistic Computing 0268-1145, 1477-4615 28 4 504–521 2013 2019-12-16T13:39:06Z https://academic.oup.com/dsh/article-lookup/doi/10.1093/llc/fqt032 A World of Difference. Myths and misconceptions about the TEI James Cummings DH2017 Montréal 2017 https://dh2017.adho.org/abstracts/529/529.pdf Markup Overlap. A Review and a Horse Steven J DeRose Extreme Markup Languages 2004 Proceedings Montréal, Québec 2004 http://xml.coverpages.org/DeRoseEML2004.pdf Graphdatenbanken für die textorientierten e-Humanities Thomas Efer Leipzig 2016 https://nbn-resolving.org/urn:nbn:de:bsz:15-qucosa-219122 Dissertation Documentation Ronald Haentjens Dekker Gregor Middell CollateX. Software for Collating Textual Sources 2010 https://collatex.net/doc/ TAGML: A markup language of many dimensions 10.4242/BalisageVol21.HaentjensDekker01 TAGML Ronald Haentjens Dekker Elli Bleeker Bram Buitendijk Astrid Kulsdom David J Birnbaum Balisage: The Markup Conference 2018 Washington, DC 2018 2019-12-16T13:58:25Z http://www.balisage.net/Proceedings/vol21/html/HaentjensDekker01/BalisageVol21-HaentjensDekker01.html Multi-dimensional texts in a one-dimensional medium 10.1007/BF01830270 Claus Huitfeldt Computers and the Humanities 0010-4817, 1572-8412 28 4-5 235–241 1994 2019-12-16T13:58:48Z http://link.springer.com/10.1007/BF01830270 A data structure for representing multi-version texts online 10.1016/j.ijhcs.2009.02.001 Desmond Schmidt Robert Colomb International Journal of Human-Computer Studies 10715819 67 6 497–514 2009 2019-12-16T13:59:21Z https://linkinghub.elsevier.com/retrieve/pii/S1071581909000214 GODDAG: A Data Structure for Overlapping Hierarchies GODDAG C. M. Sperberg-McQueen Claus Huitfeldt Digital Documents: Systems and Principles 978-3-540-21070-2 978-3-540-39916-2 Peter King Ethan V. Munson Springer 139–160 Berlin, Heidelberg 2004 2014-06-19T13:01:25Z http://link.springer.com/chapter/10.1007/978-3-540-39916-2_12 Lecture Notes in Computer Science 2023 Structure of a WordprocessingML document (Open XML SDK) WordprocessingML Microsoft 2017 https://docs.microsoft.com/en-us/office/open-xml/structure-of-a-wordprocessingml-document TEI: P5 Guidelines TEI Guidelines Text Encoding Initiative http://www.tei-c.org/Guidelines/P5/ XHTML™ 1.0 The Extensible HyperText Markup Language (Second Edition) 2000 http://www.w3.org/TR/xhtml1
CollateX The Stemmaweb Project
TEI Textformate: FtanML Textformate: GrAF Textformate: Kadmos Textformate: LAF Textformate: LMNL Textformate: TAGML Textformate: TexMECS (GODDAG) Textformate: XStandoff
Annotation und Modellierung