Computer Vision trifft Protestforschung

Das „Zentrum für sozialwissenschaftliche Bildanalyse“ (ZESOB) an der Universität Konstanz ver-knüpft etablierte Methoden aus der Informatik mit sozialwissenschaftlicher Analyse von Protest-bildern. Damit geht es neue Wege, denn bislang werden Bilder als Datenquellen in der Politikwis-senschaft kaum genutzt. Ein Bericht über die innovative (Weiter-) Entwicklung wissenschaftlicher Methodik im Zeitalter der künstlichen Intelligenz.
© Colin Lloyd unsplash / LeonhardS pixabay

Konzentriert beugt sich Stefan Scholz über seinen Laptop. Auf seinem Bildschirm ist eine für Laien wirre Abfolge an Buchstaben, Zahlen und Klammern zu sehen – ein Python-Skript, wie es beispielsweise SoftwareentwicklerInnen benutzen. Scholz scrollt in eine Zeile und tippt einen kurzen Befehl ein – mit beträchtlicher Wirkung. Das auf eine Leinwand projizierte Foto ändert sich augenblicklich vom unauffälligen Bild einer Menschenmenge in ein knallbuntes Sammelsurium von Schlagwörtern, Rechtecken und Zahlen.

Das, was Stefan Scholz, Doktorand an der Universität Konstanz, hier macht, nennt sich sozialwissenschaftliche Bildanalyse. Bereits seit längerem existieren computergestützte Verfahren, mit deren Hilfe Bilder analysiert und kategorisiert werden können. Im „Zentrum für sozialwissenschaftliche Bildanalyse (ZESOB)“ gehen die Forschenden jedoch neue Wege. Mit Hilfe einer etablierten Methode aus der Computer Vision wollen sie die Analyse von Bildern in den Sozialwissenschaften weiter vorantreiben.

Computer Vision
Computer Vision ist ein Feld der künstlichen Intelligenz (KI). Ziel ist es, Computer so zu trainieren, dass sie auf visuellen Medien wie Bildern oder Videos erkennen, um was es sich bei der Darstellung handelt. Innerhalb der Computer Vision gibt es verschiedene Methoden, um aussagekräftige Informationen zu erhalten. Im ZESOB wird eine dieser Methoden, ein Segmentierungsverfahren, genutzt und für den Zweck der sozialwissenschaftlichen Bildanalyse angepasst. 


Die interdisziplinäre Arbeitsgruppe, bestehend aus ExpertInnen in Informatik und Politikwissenschaft, arbeitet zurzeit an der Analyse von Protestbildern aus sozialen Medien. Hunderttausende Bilder wurden dazu bereits gesichtet und von menschlicher Hand kategorisiert. Ein ganz normales Vorgehen bei maschinellem Lernen: Nur über die Zuordnung durch Menschen lernt die Maschine, wie sie Bilder einordnen kann. Soweit, so bekannt. Doch warum benötigte es eine neue Methode?

„Die bislang eingesetzten Methoden aus der Computer Vision können recht gut vorhersagen, ob es sich um ein Protestbild handelt oder nicht. Aber aufgrund welcher Objekte ein Foto vom Computer als Protestbild klassifiziert wird, das ist völlig unklar. Wir haben es hier also mit einem Transparenzproblem zu tun und das möchten wir lösen.“

Nils Weidmann

In der Computer Vision geht es hauptsächlich darum, die Erkennungsrate des Programms zu erhöhen. Warum aber die künstliche Intelligenz beispielsweise eine Kaffeetasse als Kaffeetasse erkennt, ist von untergeordnetem Interesse. In den Sozialwissenschaften ist aber genau das problematisch. SozialwissenschaftlerInnen, die Klassifikationsalgorithmen als Datengrundlage nutzen, möchten verstehen: Könnte es zum Beispiel sein, dass die KI falsche Objekte heranzieht und damit die weiterführende wissenschaftliche Analyse verzerrt? Oder lernen wir vielleicht sogar mehr über das Bild, wenn wir es „mit den Augen des Computers“ sehen?

Womit wir wieder bei dem knallbunten Sammelsurium vom Anfang wären: Mit dem Eingabebefehl hat Stefan Scholz nicht etwa einen Lollipop-Filter über die Menschenmenge gelegt, sondern in Sekundenschnelle das Ergebnis einer Protestanalyse erhalten. Im Gegensatz zu den herkömmlichen Methoden, die lediglich bestimmte Bereiche, wie zum Beispiel Protestplakate rot einfärben (denken Sie an Wärmebildkameras), werden nun auch verschiedene Objekte auf dem Bild erkannt. Durch die manuelle Kodierung im Vorfeld, „weiß“ die KI nun, welche Kombination von Objekten ein Protestbild ausmacht.

Und darin liegt die Innovation, denn Objekte kann man zählen. So gelangen die WissenschaftlerInnen zu einer abstrakten Repräsentation eines Bildes, die nur noch beschreibt, welche und wie viele Objekte sich auf einem Bild befinden. „Dadurch übersetzen wir die Bilder in eine allgemein verständliche Sprache von Objekten, wie z.B. ‚das Bild zeigt zwei Protestplakate und drei Sicherheitskräfte‘. Mit diesen wiederum sagen wir voraus, ob es sich um ein Protestbild handelt“ erläutert Nils Weidmann. Bilder mit einer bestimmten Kombination dieser Objekte lassen dann beispielsweise mit sehr hoher Wahrscheinlichkeit auf ein Protestbild schließen. „Wir standardisieren das Verfahren schlussendlich auf ein Vokabular von Entitäten und verstehen, warum die Künstliche Intelligenz Protest vorhergesagt hat“, fasst Weidmann das Segmentierungsverfahren zusammen.

Methodischer Hintergrund
Für die Auswahl der Protestbilder haben die WissenschaftlerInnen existierende Protestdatensätze herangezogen. Diese Datensätze geben Aufschluss darüber, in welchen Ländern und Zeiträumen Protestgeschehen stattgefunden hat. Am Ende haben die Forschenden Twitter-Fotos aus 14 verschiedenen Ländern für ihr Projekt „Transparent Classification for Protest Coding from Images“ analysiert und 190.000 Protestbilder manuell kodiert.

Bildergalerie: Die Analyse mit verschiedenen computergestützten Verfahren wird beispiehaft anhand von zwei Protestbilder dargestellt

Das Heatmap-Verfahren:
Wie bei einem Wärmebild werden bestimmte Bereiche markiert, die auf Protest schließen lassen (rot markierte Stellen). Beim Bild rechts werden die Protestschilder im Vordergrund erkannt, aber ansonsten werden hauptsächlich die umliegenden Gebäude hervorgehoben. Hier wird das Transparenzproblem deutlich: Warum werden diese Bilder als Protestdarstellung klassifiziert?


Ein weiteres Verfahren nach dem Heatmap-Prinzip:
In diesem Fall erkennt das computergestützte Verfahren keinen Protest und die Bilder wären nicht in die Datensammlung mit aufgenommen worden.

***

Das Segmentierungsverfahren:
Bei diesem Beispiel handelt es sich bereits um die Methode, die im ZESOB angewendet wird. Der KI werden aber nur verhältnismäßig wenig Segmentkategorien zur Verfügung gestellt. Diese Kategorien erkennt das Verfahren, ohne weitere Kategorien, die in ihrer Gesamtheit ein Protestbild klassifizieren, ist das Ergebnis aber unpräzise. Werden (wie im rechten Beispiel) nur Personen erkannt, könnte es sich auch um eine Shoppingmeile an einem Samstagnachmittag handeln.


Die Methode des ZESOB:
Der Computer hat zahlreiche Einheiten zur Verfügung und identifiziert sie auf dem Bild. In ihrer Kombination lässt sich dadurch mit hoher Wahrscheinlichkeit auf ein Protestbild schließen.
 

***


Der Vergleich im selben Bild: Originalbild und Computeranalyse.

Die Eine oder der Andere mag sich nun fragen, wozu der ganze Aufwand nötig ist. Schließlich erkennt das menschliche Auge sehr zuverlässig Proteste oder Demonstrationen. Bei den Millionen Bildern aber, die täglich allein in den sozialen Medien veröffentlicht werden, braucht es maschinelle Unterstützung. „Bei der Analyse von Bildern stehen wir zusätzlich vor der Herausforderung, dass Protest in verschiedenen Ländern sehr unterschiedlich aussehen kann“, fügt Stefan Scholz hinzu. Zudem gehe aus den Bildunterschriften häufig nicht hervor, dass es sich um ein Protestbild handelt. Der Vorteil liegt also auf der Hand: Neben der reinen Anzahl an Bildern, die der Algorithmus in einem Bruchteil von Sekunden analysiert, klassifiziert das computergestützte Verfahren Protest unabhängig von Text und Sprache. Und das ist noch nicht alles: Bilder als Datengrundlage können häufig subtile Informationen zum Vorschein bringen, die bei klassischen Quellen in den Sozialwissenschaften (Befragungen, Texte, etc.) untergehen. Mit dem Material, das mittels Crowdsourcing in den sozialen Medien gesammelt wird, lässt sich zum Beispiel die Entstehung und Eskalation eines Protests verfolgen. Herkömmliche Medienberichterstattung beginnt meist erst dann, wenn ein Protest schon in vollem Gange ist. 

Für die Zukunft der Methode sieht Eda Keremoglu jedenfalls enormes Potential: „Sobald wir mit unseren ersten Forschungsergebnissen an die Öffentlichkeit gehen, wird vielen SozialwissenschaftlerInnen vermutlich erst klar, wie viele Möglichkeiten die Bildanalyse bietet. Wir rechnen mit ganz neuen Einsatzmöglichkeiten.“

Weitere Infos zu den Projekten des ZESOB und der sozialwissenschaftlichen Bildanalyse gibt es auf der Website

Informationen zu den Wissenschaftlerinnen und Wissenschaftlern

Prof. Dr. Bastian Goldlücke
Bastian Goldlücke ist Professor für Informatik und Leiter der AG „Computer Vision and Image Analysis“. Er entwickelt neuartige Methoden zur Erfassung von Bildinformationen aus Fotos und Videoaufnahmen.


Dr. Eda Keremoglu
Eda Keremoglu ist Postdoc in der Forschungsgruppe "Communication, Networks and Contention" am Fachbereich Politik- und Verwaltungswissenschaften der Universität Konstanz und Principal Investigator im Exzellenzcluster „The Politics of Inequality“. Ihre Forschungsschwerpunkte sind autoritäre Regime, Informations- und Kommunikationstechnologie, Protest und Repression.
 


Stefan Scholz
Stefan Scholz ist Koordinator des Zentrums für sozialwissenschaftliche Bildanalyse. Während seiner Arbeit am Zentrum promoviert er mit den Schwerpunkten maschinelles Lernen, Bildanalyse sowie der Analyse sozialer und politischer Ereignisse. Seinen Masterabschluss hat er in „Social and Economic Data Science“ gemacht. 
 


Prof. Dr. Nils B. Weidmann
Nils Weidmann ist Professor für Politikwissenschaft, Principal Investigator im Exzellenzclusters "The Politics of Inequality" und Leiter der Forschungsgruppe "Communication, Networks and Contention". Weidmann hat einen fachlichen Hintergrund in den Sozialwissenschaften und in der Informatik.
 

Annalena Kampermann

Von Annalena Kampermann - 26.06.2023