Turing-Test fürs Topic Modeling

Von Menschen und Maschinen erstellte inhaltliche Analysen der Korrespondenz von Leo von Thun-Hohenstein im Vergleich.

Bei diesem Beitrag handelt es sich um den Vorschlag für ein Einzelreferat am österreichischen Historikertag 2015.

In einem von Alan Turing 1950 vorgestellten Experiment sollte ein Mensch herausfinden, ob er mit einem Menschen oder mit einer Maschine (Computer) kommuniziert.[1] Die Formulierung „Turing-Test“ bezeichnet seither einen Vergleich zwischen menschlicher und künstlicher Intelligenz.

„Topic Modelling“ beschreibt ein Verfahren, das mit Hilfe komplexer statistischer Berechnungen  aus einer abgeschlossenen Textmenge eine vorher festgelegte Anzahl von „Topics“ extrahiert.[2] Bei diesen Topics handelt es ich um eine Liste einzelner Wörter, die gemeinsam ein Thema beschreiben.  Ein solches Topic könnte beispielsweise aus den Wörtern „Parteien“, „Rabbiner“, „Synode“, „Belehrung“, etc. bestehen, die sich mit dem Schlagwort „Judentum“ zusammenfassen ließen (vgl. Abbildung 1).

Abbildung 1:
JUDENTUM – eines von 50 automatisch generierten Topics der Thun-Korrespondenz

Abb1_TopicJudentum

Das Auftreten und Verschwinden dieser Topics bzw. der Themenverlauf innerhalb eines Textes oder einer Sammlung von Texten, kann anschließend visualisiert und analysiert werden. Große Textmengen ließen sich somit – im Sinne von „Distant Reading“[3] – innerhalb weniger Minuten thematisch erschließen (siehe Abbildung 2).

Abbildung 2:
Visualisierung der Themenverteilung über einen Teilbestand der Thun-Korrespondenz.

Abb2_TopicDistribution1

Ein solches computergestütztes Vorgehen eröffnet aber (mindestens) zwei Problemfelder, nämlich jenes der Nachvollziehbarkeit und jenes der Zuverlässigkeit. Ob und inwieweit die präsentierten Ergebnisse nachvollzogen werden können, hängt dabei vornehmlich von den eigenen Kenntnissen und Kompetenzen im Bereich Statistik und Informatik ab. Entscheidender als die Frage, ob man die dem Topic Modeling zugrunde liegenden Algorithmen nun verstanden hat oder zumindest den Fachleuten aus Mathematik, Statistik und Informatik vertrauen möchte, erscheint vielmehr die Frage nach der Zuverlässigkeit und Sinnhaftigkeit der Ergebnisse. Also genau jene Frage, die im Zentrum des Referates steht und anhand der Korrespondenz Leo von Thun-Hohensteins beantwortet werden soll.

Der gesamte Briefwechsel des Ministers für „Cultus und Unterricht“ der Jahre 1849 bis 1860 wurde im Rahmen eines von Brigitte Mazohl geleiteten FWF-Projektes transkribiert, in Form von Regesten kommentiert und mit Schlagworten versehen. Der so aufbereitete Korpus umfasst rund 550 Dokumente, die derzeit sukzessive in Form einer digitalen online Edition veröffentlicht werden.[4]

Im Laufe des Referates soll dieser Bestand ‚in Echtzeit‘ mittels Topic Modeling erschlossen werden. Anschließend werden ausgewählte ‚Topics‘ und deren Vorkommen im Textkorpus gemeinsam mit dem Auditorium analysiert und zwar mit dem Ziel, die Möglichkeiten und Grenzen computergestützter Textanalyse auszuloten und zu diskutieren, ob und inwieweit Topic Modeling eine sinnvolle Erweiterung des geschichtswissenschaftlichen Methodenkanons darstellen kann.

[1] Alan Turing, Computing Machinery and Intelligence, in: MIND 59 (1950), S. 433-460, online: http://www.loebner.net/Prizef/TuringArticle.html.

[2] David M. Blei, Topic Modeling and Digital Humanities, in: Journal of Digital Humanities 2/1 (2012), online: http://journalofdigitalhumanities.org/2-1/topic-modeling-and-digital-humanities-by-david-m-blei/.

[3] Franco Moretti, Distant Reading, London 2013.

[4] http://thun-korrespondenz.uibk.ac.at/