Heidelberg Center for Digital Humanities Forschungsprojekte
Auf dieser Seite finden Sie Informationen zu verschiedenen Projekten, die aktuell durch das HCDH unterstützt werden bzw. die sich innerhalb der Veranstaltungsreihe des Zentrums vorgestellt haben und sich weiter vernetzen möchten.
Naval Kishore Press – digital
Die Naval Kishore Press (NKP) wurde 1858 in der nordindischen Stadt Lakhnau von Munshi Naval Kishore (1836-1895) gegründet und entwickelte sich in den folgenden vier Jahrzehnten zu einem der bedeutendsten Verlagsunternehmen Indiens. Die Naval Kishore Press veröffentlichte Werke in den Sprachen Hindi, Urdu, Arabisch, Persisch, Sanskrit und Englisch. Inhaltlich deckte das Verlagsportfolio eine große Bandbreite ab – Belletristik, Schulbücher, Ratgeber, Religion, Texte der klassischen Sanskrit-Literatur, Literatur zum Islam, zur indischen Heilkunde, Koran-Ausgaben, Übersetzungen englischer Klassiker wurden vom Verlag publiziert. Die CATS Bibliothek / Abt. Südasien der Universität Heidelberg besitzt mit der ca. 2.200 Titel (davon 742 Titel auf Mikrofilm) umfassenden Naval Kishore Press-Sammlung einen repräsentativen Querschnitt durch die Verlagsproduktion dieses bedeutenden Verlagshauses.
Ausgewählte Hindi- und Sanskrit-Werke der NKP Sammlung wurden im Rahmen des DFG-geförderten Projekts Fachinformationsdienst Asien (2016-2021) digitalisiert und als editierbare Volltextversionen in Devanāgarī und Transliteration online zur Verfügung gestellt. Ein über die Volltextsuche gefundener Textabschnitt wird im Faksimile durch Highlighting der Textstelle sichtbar gemacht.
Für die Texterkennung kommt Transkribus zum Einsatz. Verschiedene Datenmodelle wurden auf der Basis von Ground Truth (GT) Transkriptionen für die Texterkennung der Devanagari-Werke trainiert. Sie liefern mit einer CER von ca. 2% sehr gute Ergebnisse.
Für die Ground Truth Daten wurde auf heiDATA ein Ground Truth Datenarchiv für südasiatische Schriften eingerichtet. Hier stehen GT Daten aus dem Naval Kishore Press – digital Projekt sowie GT Daten von Kooperationspartnern zur Nachnutzung bereit.
Darüber hinaus dient die von der Bibliothek des Südasien-Instituts aufgebaute Naval Kishore Press Bibliographie als zentrales Nachweisinstrument für Druckwerke des Verlagshauses. Ziel der Bibliographie ist es, die an Bibliotheken weltweit verteilten Bestände zentral in einer Datenbank nachzuweisen. Neben der Heidelberger Sammlung sind auch die an der Bodleian Library in Oxford verfügbaren Werke der Naval Kishore Press nachgewiesen.
Prosopographie-Datenbank mittelassyrischer Texte
Ziel des Projekts „Datenbank für die Personennamen der mittelassyrischen Texte“ ist, eine funktionelle, webbasierte Datenbank zu erstellen, die den Anforderungen eines Projekts im Bereich der Namenskunde und der internationalen Standards für vergleichende Projekte nachkommt. Es handelt sich um eine Datenbank für das von Prof. Dr. Ariel M. Bagg (Seminar für Sprachen und Kulturen des Vorderen Orients/Assyriologie) seit September 2019 geleitete DFG-Projekt „Die Prosopographie der mittelassyrischen Texte (PMA)“, dessen Ziel ist es, ein „bibliographisches“ Lexikon der ca. 5.000 Personennamen (ca. 12.500 Individuen), die im mittelassyrischen Textkorpus vorkommen, zu verfassen. Das Korpus besteht aus ca. 3.000 Keilschrifttexten aus der zweiten Hälfte des zweiten Jts. v. Chr., die im mittelassyrischen Dialekt des Akkadischen verfasst sind. Nach dem der DFG vorgelegten Konzept zum Datenmanagement soll eine benutzerfreundliche Datenbank entwickelt werden, die vom Antragsteller im Laufe des Projekts mit Daten gespeist und nach Projektende (August 2025) in eine webbasierte Datenbank umgewandelt wird. Die Datenbank ist nicht ein wichtiges Hilfsmittel für die Projektarbeit, sondern wird vielmehr nach Projektende Aktualisierungen und weiterführende Studien ermöglichen. Um die nachhaltige öffentliche Verfügbarkeit der Projektergebnisse zu gewährleisten, wird ‒ nach Absprache mit der UB Heidelberg – die webbasierte Software easydb für die Erstellung der Projektdatenbank verwendet.
Objekt und Provenienz - Blogprojekt
Das Blogprojekt „Objekt und Provenienz“ will Provenienzforschung transparent und öffentlich machen: Sukzessive sind dort seit 2021 historische Dokumente aus dem sog. Alten Inventar der Antikensammlung mit Transkriptionen online gestellt worden, die Informationen über Erwerb oder Schenkung von Objekten liefern. Dank hochauflösender Scans der UB Heidelberg können in einem zweiten Schritt diese Dokumente digital annotiert werden, d.h. Hinweise auf identifizierte Objekte und Fotos der Objekte direkt verlinkt werden (work in progress). Längerfristig sollen auch weitere historische Dokumente zur Sammlung in dem Blog verfügbar gemacht werden.
Das Projekt verbindet Provenienzforschung zur Heidelberger Antikensammlung mit einem Citizen Science-Ansatz, durch den Interessierte sich an der Transkription historischer Quellen zur Sammlungsgeschichte beteiligt haben. Es versteht sich damit unter den archäologischen Universitätssammlungen in Deutschland als Pilotprojekt und möchte mit gutem Beispiel vorangehen, um zu helfen, nicht nur ein Bewusstsein für Provenienzfragen, sondern auch für die dazu notwendigen, oft langwierigen Forschungen zu schaffen.
Annotation von Moralisierungspraktiken
In dem Projekt „Annotation von Moralisierungspraktiken“ erstellen wir ein Datenset mit Texten aus verschiedenen Sprachen (deutsch, englisch, französisch, italienisch) und Textgenres (Online-Foren, politische Debatten, Zeitungstexte, Sachbücher…), in denen Sprachhandlungen des Moralisierens annotiert werden.
Unter moralisierende Sprachhandlungen verstehen wir diskursstrategische Verfahren, in denen die Beschreibung von Streitfragen und erforderlichen Handlungen mit moralischen Begriffen enggeführt werden. Auf moralische Werte verweisendes Vokabular (bspw. “Freiheit”, “Sicherheit” oder “Glaubwürdigkeit”) wird dabei verwendet, um eine Forderung durchzusetzen, die auf diese Weise unhintergehbar erscheint und keiner weiteren Begründung oder Rechtfertigung bedarf.
Der entstehende Datensatz wird in Zukunft zur automatisierten Erforschung des Phänomens der Moralisierung genutzt - ein diffuses alltagssprachliches Konzept, das als Terminus der deskriptiven Linguistik operationalisiert werden soll.
OCR-Technologien im Vergleich
Das Vorhaben ist in der digitalen Sprachwissenschaft verankert. Es wurde eine Grundlage für die computergestützte Untersuchung vormoderner lexikographischer Werke und historischer Sprachkontakte im Bereich der Lexik erarbeitet. Zum Ausbau einer technischen Infrastruktur für die digitale Erfassung mehrsprachiger Wörterbücher (Handschriften und Altdrucke) wurden lexikographische Daten mit Hinblick auf Verknüpfung in einer Datenbank aufbereitet. Gleichzeitig wurde der zu untersuchende Datensatz mithilfe der HTR-Tools Transkribus und eScriptorium erweitert. In diesem Zusammenhang wurden HTR-Modelle trainiert und für weitere automatische Transkriptionen angewandt. Parallel wurden verschiedene OCR-Engines (CITlab HTR+, PyLaia, kraken) evaluiert und ihre Vor- und Nachteile abgewogen. Darüber hinaus wurden internationale Kontakte und Kooperationen mit anderen Projekten geknüpft, die lexikographische Daten sowie ganze Wörterbücher zusammenführen (Gorazd, LiLa, Logeion, MLW digital).