NLP-gestützte Erschließung von Metadaten in epigraphischen Datenbanken
Geförderte: Lisa Kilbinger
Figürliche Darstellungen auf spätantiken Grabinschriften sind wichtige Zeugnisse einer gerade erst entstehenden frühchristlichen Ikonographie, wurden jedoch bisher nicht großflächig ausgewertet. Epigraphische Datenbanken erfassen solche Bildmotive bislang ausschließlich in unstrukturierter Form: als Freitext im Kommentarbereich oder als editorische Anmerkung innerhalb der Transkription. Diese Praxis verhindert eine systematische Auswertung und maschinelle Verarbeitung der enthaltenen ikonographischen Informationen.
Im Mittelpunkt des geförderten Projekts steht daher die Frage, mit welchen Methoden sich solche unstrukturierten Metadaten zuverlässig extrahieren lassen. Verglichen werden regelbasierte Keyword-Suche (Regex), eine NLP-Pipeline auf Basis von Stanza sowie wörterbuchbasierte Named Entity Recognition und Dependency Parsing. Durch den Abgleich automatisierter Ergebnisse mit einer manuell geprüften Stichprobe werden Stärken und Grenzen der einzelnen Ansätze systematisch bewertet. Die entstehenden Datensätze, Keyword-Listen und Skripte werden nach FAIR-Prinzipien veröffentlicht und als nachnutzbarer Workflow für all jene bereitgestellt, die mit historischen Datenbanken arbeiten, in denen qualitative Informationen in unstrukturierten Feldern gespeichert sind.