Editionsprojekte

Projekt Recognition and Enrichment of Archival Documents READ (Horizon 2020)

Das Staatsarchiv ist im Rahmen des EU-Förderprogramms für Forschung und Innovation Horizon 2020 Projektpartner des internationalen Konsortiums READ, stellt dafür spezifische Dokumente, Daten und Metadaten zur Verfügung und beteiligt sich aktiv an den Forschungsaktivitäten des Projekts.

Das von der Europäischen Union geförderte Projekt Recognition and Enrichment of Archival Documents READ will den Zugang und die Verarbeitung handschriftlicher Dokumente fundamental verbessern durch Forschung zu Automatisierungsprozessen in den Bereichen der Formerkennung («pattern recognition»), Dokumentenanalyse («document image analysis»), maschinellem Sehen («computer vision») sowie Spracherkennung und -verarbeitung («natural language processing»).

Die gewonnenen Erkenntnisse werden in Form von Services als unterschiedliche Software- und Webinterfaces interessierten Institutionen und Forschenden zur Verfügung gestellt. Zielpublikum sind Aufbewahrungsinstitutionen wie Archive und Bibliotheken, Geisteswissenschaftler/innen und interessierte Freiwillige, die sich an Crowdsourcing-Projekten beteiligen wollen. Aber auch Computerwissenschaftler können ihre eigenen Algorithmen an den in READ aufbereiteten Daten testen. Bereits ab Projektstart ist die Expertenplattform Transkribus verfügbar, zu späteren Zeitpunkten werden eine Crowdsourcing-Lösung (in Kooperation mit Transcribe Bentham), eine e-Learning-Applikation sowie eine ScanApp für Smartphones zur Verfügung gestellt.

Extraktion von Volltexten, Layoutanalyse, Tabellenerkennung, Schreiberidentifikation und diverse Exportmöglichkeiten sollen künftig dank READ ein effizientes und technisch ausgereiftes Arbeiten mit handschriftlichen Dokumenten ermöglichen.

Rolle des Staatsarchivs

Das Staatsarchiv fungiert als so genannter Large Scale Demonstrator und bereitet die im Projekt TKR (Transkription und Digitalisierung der Kantonsratsprotokolle und Regierungsratsbeschlüsse des Kantons Zürich seit 1803) erarbeiteten handschriftlichen Dokumente als so genannte Ground Truth auf, damit diese zum Training und zur Evaluation der Automatisierungsprozesse gebraucht werden können.

Die Beschäftigung mit den Dokumenten aus dem Editionsprojekt wird gleichzeitig genutzt, um strukturierte und weiterführende Informationen aus den Dokumenten zu generieren, die wiederum eine verbesserte Suche und neue Zugangsformen zu den Texten ermöglichen.

Daneben verantwortet der Projektmitarbeiter die Verbreitung der Erkenntnisse für interessierte Institutionen und Fachpersonen. In unregelmässigen Abständen werden daher Workshops und Informationsveranstaltungen zu READ, der Plattform Transkribus und den Tätigkeiten des Staatsarchivs in dem Bereich durchgeführt.

Durch die Mitarbeit im Projekt READ steht das Staatsarchiv in engem Kontakt zu führenden Entwicklern in der Aufbereitung und der Extraktion von Informationen aus handschriftlichen Dokumenten, was für laufende und zukünftige Editionsprojekte, aber auch die Nacherschliessung der Bestände nutzbar ist.

Neben Effizienzsteigerung steht auch die Abwägung der Risiken, insbesondere Qualitätseinbussen durch Automatisierungen, im Vordergrund der Forschungen von Seiten des Staatsarchivs. Ziel ist es, die Reife und die Einsatzchancen der Services kritisch zu evaluieren und Best Use Cases zu entwickeln.Das Projekt READ informiert regelmässig über aktuelle Veranstaltungen, Neuigkeiten und wichtige Informationen.

Das Projekt READ informiert regelmässig über aktuelle Veranstaltungen, Neuigkeiten und wichtige Informationen.

supported by:

 

 

 

This project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 674943.