Optical Character Recognition Development (OCR-D)

Mit den Verzeichnissen der im deutschen Sprachraum erschienenen Drucke des 16.–18. Jahrhunderts (VD 16, VD 17, VD 18) wird eine retrospektive Nationalbibliografie des frühneuzeitlichen Schriftguts aus dem deutschsprachigen Raum erstellt. Um der Forschung die Zugänglichkeit zu diesen Texten zu erleichtern, wurden und werden große, konzertierte Anstrengungen unternommen, Volldigitalisate oder Schlüsselseiten zu den einzelnen verzeichneten Titeln digital bereitzustellen.

Projektziele

Das Hauptziel des Projektes ist die konzeptionelle und technische Vorbereitung der Volltexttransformation der VD ist. Die Aufgabe der automatischen Volltexterkennung wird in ihre einzelnen Prozessschritte zerlegt, die in der Open Source OCR-D-Software nachvollzogen werden können. Dies ermöglicht es, optimale Workflows für die zu prozessierenden alten Drucke zu erstellen und damit wissenschaftlich verwertbare Volltexte zu generieren.

Dazu wurde ein Koordinationsprojekt gebildet, das in der ersten Projektphase Entwicklungsbedarfe identifizierte. Diese wurden in der zweiten Projektphase von insgesamt acht Modulprojekten bearbeitet. In der derzeitigen dritten Projektphase steht die konzeptionelle Vorbereitung für die automatische Generierung von Volltexten für die Verzeichnisse der im deutschen Sprachraum erschienenen Drucke des 16., 17. und 18. Jahrhunderts im Fokus. Außerdem arbeiten vier Implementierungsprojekte daran, OCR-D in bestehende Anwendungen und Infrastrukturen zu integrieren, während drei Modulprojekte OCR-D-Werkzeuge weiter optimieren.

Die Rolle der GWDG innerhalb des Projektes

  • Bereitstellung von Infrastruktur und Berater in allen Phasen
  • Workflow-Entwicklung in Phase 3
  • Softwareentwicklung für ein Langzeitarchivierungssystem (OLA-HD) in Phase 2 und 3
  • Softwareentwicklung für ein Implementierungsprojekt in Phase 3 (OPERANDI)

Projektpartner

OCR-D logo

Kontakt

Prof. Dr Philipp Wieder Triet Ho Anh Doan

Dauer des Projektes

Phase 1: 01.09.2015 - 28.02.2018 Phase 2: 01.03.2018 - 30.06.2020 Phase 3: 01.04.2021 - 31.03.2024

Webseite

Webseite

Communities

GitHub Gitter Twitter Docker Hub

Finanziert von

dfg logo

Projektnummer: 460675868

Deutsche Forschungsgemeinschaft DFG