Kompetenzstufe: Anfänger*in
Sprache: Deutsch
Format: Artikel, Tutorial, Selbstlerneinheit
Medientyp: Bildmedien, Textmedien, Datensatz, Videomedien
Veröffentlichung: 21.01.2019
Topic Modeling mit dem DARIAH Topics Explorer
Jan Horstmann
Wir werden in dieser Lerneinheit eine Sammlung von 46 Märchen des dänischen Schriftstellers Hans Christian Andersen thematisch explorieren. Topic Modeling ist ein auf Wahrscheinlichkeitsrechnung basierendes Verfahren zur Exploration größerer Textsammlungen. Das Verfahren erzeugt statistische Modelle (sog. Topics) zur Abbildung häufiger gemeinsamer Vorkommnisse von Wörtern. In dieser Lerneinheit verwenden wir dafür den DARIAH Topics Explorer, ein 2018 erschienenes Tool, das sich noch im Prototyp-Status befindet. Als Prototyp kann es noch keine sehr großen Textsammlungen verarbeiten, es bietet jedoch den Vorteil einer grafischen Benutzeroberfläche mit interaktiven Schaltflächen.
Diese Ressource steht unter folgender Lizenz: