Wenn Algorithmen Zeitschriften lesen - vom Mehrwert automatisierter Textanreicherung

Open access
Date
2018-06-13Type
- Other Conference Item
ETH Bibliography
yes
Altmetrics
Abstract
Mit der Plattform E-Periodica (www.e-periodica.ch) stellt die ETH-Bibliothek rund 280 retrodigitalisierte Schweizer Fachzeitschriften mit insgesamt über 6 Mio. Seiten online zur Verfügung. Diese Menge an OCR-erkannten Texten bieten sich an, um dank automatisierter Textanreicherung zusätzlichen Mehrwert für die bessere Nutzbarkeit der Daten zu generieren. Vor diesem Hintergrund führte die ETH-Bibliothek gemeinsam mit dem Institut für Computerlinguistik der Universität Zürich im Jahr 2017 ein entsprechendes Pilotprojekt durch. Als Testkorpus wurden zwei umfangreiche Architekturzeitschriften (ab 1874 bis in die Gegenwart) mit computerlinguistischen Methoden aufbereitet, strukturiert und verlinkt.
Im Vortrag werden zum einen die methodischen Schwerpunkte der verbesserten Texterkennung (durch die automatische Korrektur von OCR-Fehlern) und der Textanreicherung - durch die Erkennung, die Aggregierung und die Verlinkung von Personen- und Ortsnamen - ausgeführt. Zum anderen wird gezeigt, welche Resultate sich für Bibliothek und Forschungspartner aus dem Pilotprojekt ergeben. Auf Seite der Bibliothek gehören dazu sowohl die Nutzung der angereicherten Daten für optimierte Suchfunktionen und Informationsangebote in E‑Periodica als auch der Kompetenzaufbau in der Bereitstellung maschinenlesbarer Textkorpora. Der Nutzen für den Forschungspartner liegt in der Weiterentwicklung semantischer Erschliessungsmethoden. Diese neuen Formen der Inhaltserschliessung werden die Nutzung und Verarbeitung digitalisierter Bibliotheksinhalte in den kommenden Jahren entscheidend beeinflussen und voranbringen. Show more
Permanent link
https://doi.org/10.3929/ethz-b-000270809Publication status
publishedPublisher
ETH ZürichEvent
Subject
Automatische Textanreicherung; Named entity recognition (NER); Named entity linking (NEL); Optical character recognition (OCR); COMPUTERLINGUISTIKOrganisational unit
00060 - Abt. ETH-Bibliothek / ETH-Bibliothek
More
Show all metadata
ETH Bibliography
yes
Altmetrics