Wenn Algorithmen Zeitschriften lesen

Vom Mehrwert automatisierter Textanreicherung


Date

2018-12-10

Publication Type

Journal Article

ETH Bibliography

yes

Citations

Altmetric

Data

Abstract

In Zusammenarbeit mit dem Institut für Computerlinguistik der Universität Zürich (ICL UZH) lancierte die ETH-Bibliothek Zürich ein Pilotprojekt im Bereich automatisierter Textanreicherung. Grundlage für den Piloten bildeten Volltextdateien der Schweizer Zeitschriftenplattform E-Periodica. Anhand eines ausgewählten Korpus dieser OCR-Daten wurden mit automatisierten Verfahren Tests in den Bereichen OCR-Korrektur, Erkennung von Personen-, Orts- und Ländernamen sowie Verlinkung identifizierter Personen mit der Gemeinsamen Normdatei GND durchgeführt. Insgesamt wurden sehr positive Resultate erzielt. Das verwendete System dient nun als Grundlage für den weiteren Kompetenzausbau der ETH-Bibliothek auf diesem Gebiet. Das gesamte bestehende Angebot der Plattform E-Periodica soll automatisiert angereichert und um neue Funktionalitäten erweitert werden. Dies mit dem Ziel, Forschenden einen Mehrwert bei der Informationsbeschaffung zu bieten. Im vorliegenden Beitrag werden Projektinhalt, Methodik und Resultate erläutert sowie das weitere Vorgehen skizziert.

Publication status

published

Editor

Book title

Volume

5 (4)

Pages / Article No.

181 - 192

Publisher

VDB

Event

Edition / version

Methods

Software

Geographic location

Date collected

Date created

Subject

Bibliothekswesen; COMPUTERLINGUISTIK; Named entity recognition (NER); Named entity linking (NEL); OCR

Organisational unit

00060 - Abt. ETH-Bibliothek / ETH-Bibliothek

Notes

Funding

Related publications and datasets