Forschungsinkubator: Automatisierte Textanalyse

Welche Digitalisierungsthemen werden politisch und gesellschaftlich gesetzt? Ergebnisse einer automatisierten Textanalyse
Das Team Forschungsinkubator
  1. Home
  2. Forschung
  3. Forschungsinkubator
  4. Forschungsinkubator: Automatisierte Textanalyse

Um Hinweise auf potentiell wichtige Themen der Digitalisierungsforschung zu finden, führte das CAIS eine automatisierte Inhaltsanalyse richtungsweisender Textdokumente durch. Ein Einblick in den Prozess und in die Erkenntnisse.

Abbildung 1. Die automatisierte Textanalyse ist ein Baustein im Themenfindungsprozess

Gesellschaftliche Entwicklungen vorherzusehen und darauf entsprechend zu reagieren, sind zentrale Aufgaben politischer und gesellschaftlicher Akteur:innen. Welche Digitalisierungsthemen werden aber überhaupt politisch gesetzt? Und welche davon eher kurz- oder eher mittelfristig? Wie agieren Fördermittelgeber (z.B. die Deutsche Forschungsgemeinschaft oder das Bundesministerium für Bildung und Forschung) in diesem Feld? Setzen sie abweichende Schwerpunkte? Und welche Themen mit Fokus auf die digitale Transformation werden von anderen Einrichtungen bearbeitet?

Um diese Fragen zu beantworten, wurde im Herbst 2020 eine automatisierte Textanalyse solch richtungsweisender Dokumente durchgeführt. In Kombination mit den Befunden der Online-Real-Time-Delphi-Studie von Herbst 2019 sowie den ein Jahr später durchgeführten Expert:innen-Diskussionen mit Forschenden der Digitalisierungsforschung, ist diese automatisierte Textanalyse ein weiterer Baustein im Rahmen der Identifikation zukunftsweisender Forschungsthemen am CAIS.

Die Visualisierung des gesamten Themenfindungsprozesses finden Sie in diesem Video.

Automatisierte Textanalyse von 471 Dokumenten

Die automatisierte Textanalyse von 471 Dokumenten umfasste wichtige Texte, wie unter anderem die Digitalisierungsstrategien von Bundesländern, Ausschreibungen für Forschungsprojekte des Bundesministeriums für Bildung und Forschung, sowie die Selbstbeschreibungen bereits bestehender Forschungszusammenhänge mit Digital-Fokus. Die Datenerhebung dazu fand statt in der Zeit vom 20. August bis zum 07. September 2020. Dabei wurde basierend auf dem Bag-of-Words-Ansatz ein explorativer Einblick in grobe Strukturen und Inhalte der Texte erreicht.

Erste Erkenntnis:

Starke Ausprägung von forschungs- und wirtschaftsbezogenem Vokabular in allen Texten

3

Zweite Erkenntnis:

Kongruente Ergebnisse zu anderen Themenfindungsmethoden

3

Dritte Erkenntnis:

Wertvolle Einstiegshinweise und Entwicklungspotentiale

Bag-of-Words-Ansatz

Bag-of-Words-Ansatz bedeutet, dass Texte für die Analyse in Bestandteile festgelegter Länge zerlegt werden. Dabei löst sich der Kontext auf, in dem sich etwa Worte, Wortgruppen oder Sätze befinden. Bildlich gesprochen befinden sich in einem Beutel alle Worte der ursprünglichen Texte in loser Reihenfolge und Beziehung.

Topic-Modeling-Ansatz

Topic Modeling bezeichnet ein Verfahren in der automatisierten Verarbeitung von Texten. Ein Topic Model kann verstanden werden als ein statistisches Model zur Entdeckung von Themen oder semantischen Strukturen, die in einer Sammlung von Dokumenten vorkommen. LDA ist die Kurzform eines gängigen Analyseverfahrens: Latent Dirichlet Allocation.