Projekt

Das Forschungsvorhaben betrifft den Förderbereich “Erforschung und Entwicklung automatisierter Erkennungs- und Klassifikationsverfahren von ‘Fake News’ und ‘Hate Speech’ in Zusammenarbeit mit der Meldestelle Hasskommentare des Hessen3C”. In diesem Projekt soll ein deutlicher Bezug zu „Hate Speech“ hergestellt werden.

Hassrede ist durch „gruppenbezogene Menschenfeindlichkeit“ gekennzeichnet

‘Hate Speech’ umfasst das weite Spektrum von dem Gebrauch von Schimpfwörtern über Beleidigungen und Diskriminierungen bis hin zu Gewaltandrohungen (Ruppenhofer et al. 2018). Wir verwenden den Begriff ‘Hate Speech’ stellvertretend für die Vielzahl möglicher offensiver Inhalte. Es ist zu beachten, dass der Begriff Hate Speech, Hasskommentar bzw. Hassrede nicht legal definiert ist. Als Grundlage kann die Begriffserklärung der zentralen Meldestelle „Hasskommentare“ des Hessen3C dienen: Postings, Kommentare und Bilder, die Menschen aufgrund ihrer zugeschriebenen oder tatsächlichen Nationalität, ihrer ethnischen Zugehörigkeit, Hautfarbe, Religionszugehörigkeit, Weltanschauung, physischen und/oder psychischen Behinderung oder Beeinträchtigung, ihres Geschlechts, der sexuellen Orientierung und/oder sexuellen Identität, ihrer politischen Haltung, Einstellung und/oder Engagements, ihres äußeren Erscheinungsbildes oder sozialen Status angreifen, entsprechende Äußerungen fördern, rechtfertigen oder dazu anstiften. Hassrede ist demnach durch seine „gruppenbezogene Menschenfeindlichkeit“ gekennzeichnet.

Identifizierung und Bewertung notwendig

Die sozialen Medien wie Twitter, Facebook und auch die Kommentarspalten der Online-Präsenzen von Zeitungen und Radiosendern werden zunehmend von Menschen dominiert, die diffamieren, beleidigen und bedrohen. Automatisch generierte Nachrichten werden verwendet, um den Eindruck zu erwecken, dass diese extremen Meinungen in der Bevölkerung weit verbreitet sind, aber auch, um politische Gegner mundtot zu machen. Infolgedessen gelingt es vielen Betreibern von Social-Media-Webseiten nicht mehr, Nutzerbeiträge manuell zu moderieren, und es bedeutet für die Moderatoren eine enorme psychische Belastung. Daher besteht ein dringender Bedarf an Methoden zur automatischen Identifizierung verdächtiger Beiträge. Neben der Identifizierung bedarf es einer normativen und moralisch-gesellschaftlichen Bewertung.

Das Gesamtziel des Projekts ist die Detektion, Identifizierung und Bewertung von Hasskommentaren. Die Bewertung soll auf zwei Ebenen erfolgen: Toxizität und Aggression.

Abbildung 1 stellt das gesamte Forschungsprojekt schemenhaft dar und dient als Grundlage für die Beschreibung der Arbeitspakete, des Zeitplans und der Ziele.

 

Neben der Identifizierung im Sinne der Klassifizierung von Beiträgen mit ‘Hate Speech’-Inhalten soll es auch um den Prozess der Detektion, Meldung und der Bewertung gehen. Die Frage nach der Toxizität und Aggressivität ist für präventive Maßnahmen von großer Bedeutung.

Es gibt noch keine optimale Verfahren

Die KI stellt Methoden zur automatischen Textklassifikation zur Verfügung, die auf diese Aufgabe angewendet werden sollen. Im Zusammenhang mit der Organisation des Forschungswettbewerbs GermEval haben wir Erfahrungen mit der automatischen Klassifikation von aggressiven Äußerungen in Social-Media-Daten sammeln können. Ca. 25 internationale Forschungsgruppen haben ihre Methoden miteinander verglichen und kombiniert. Dennoch war das Fazit: “All in all, these results underline that the problem of offensive language detection is far from solved” (Struß et al. 2019). Dieses Fazit gilt insbesondere für die deutsche Sprache, die im Projekt (wie bei der GermEval) im Vordergrund stehen soll. Wir werden an die Ergebnisse anknüpfen und Verfahren wie Transformer-Modelle (z. B. Risch et al. 2019) mit Support Vector Machines (z. B. Montani und Schüller 2018) verknüpfen, um die Ergebnisse zu optimieren. Vorgesehen sind Klassifikationsexperimente, um optimale Kombinationen von Verfahren zu erreichen.

Dabei behalten wir die Erklärbarkeit der Klassifikationsergebnisse im Auge, denn besonders bei Verfahren, die mit neuronalen Netzen arbeiten, ist zunächst nicht ersichtlich, wie die Klassifikationen zustande kommen. Besonders beim Thema ‘Fake News’, aber auch bei ‘Hate Speech’ besteht aber die dringende Notwendigkeit, Klassifikationen zu begründen. In Zusammenarbeit mit der Meldestelle Hasskommentare des Hessen3C werden wir ein annotiertes (vorklassifiziertes) Textkorpus aufstellen, das als Grundlage für die Experimente und für die Evaluationen dienen wird. Das annotierte Textkorpus unterliegt einem ständigen Wandel. Möglicherweise können verifiziert gemeldete Nachrichten oder Profile für eine Art Feedbacksystem genutzt werden. Im Sinne eines Active-Learning-Ansatzes (S.-A. Ahmadi, 2017) kann so die ständige Weiterentwicklung und Adaption des Klassifikators an sich verändernde Sprachgewohnheiten und Themen garantiert werden.

Opinion Leader können großen Einfluss haben

Die Toxizität und Aggressivität können aus den verifizierten Meldungen ermittelt werden. Hierbei wird die Wirkung anhand der Ausbreitung, Verstärkung und Eindämmung in einem abgegrenzten Netzwerk gemessen. Wenn eine Diskussion thematisch mit Hate Speech in Verbindung gebracht wurde, könnte die Messung der Emotionsänderung im Netzwerk (positivenegative) gemeinsam mit dem zeitlichen Wachstum des Netzwerks einen starken Hinweis auf die Aufnahme und Verbreitung des Gedankengutes liefern. Dieser Effekt wird verstärkt, wenn selektive Anreize vorhanden und wenn Aggressoren intrinsisch motiviert sind. Darüber hinaus sind möglicherweise Rückschlüsse auf Übersprungshandlungen in die reale Welt feststellbar. Maße, wie der durch FoSIL entwickelte Competence Rank können dann dazu beitragen geeignete Adressaten für Interventionen zu ermitteln.

Dabei können Opinion Leader, im Deutschen auch Meinungsführer, also Personen, die innerhalb einer kleineren Gruppe kommunikativ und persönlich einen hohen Einfluss auf die anderen Gruppenmitglieder haben, über den Competence Rank (z. B. M. Spranger, et al.2018) gemessen werden. Die Messung erfolgt auf der Grundlade der „Sozialen-Norm-Theorie“ und wird mittels der Sentimentanalyse (Siegel & Alexa 2020) durchgeführt. Für die Definition des erforderlichen Sentiment-Wortschatzes soll das Wissen der Hessen3C generisch aufbereitet werden. Somit besteht die Chance, nicht nur den eigentlichen Verfasser zu monitoren, sondern zu prüfen, ob und in welche Richtung sich der jeweilige Hasskommentar entwickelt hat.

Crowd-Labeling-Ansatz bei Annotation

Mit Hilfe des von FoSIL entwickelten Annotationswerkzeugs können umfangreiche annotierte Korpora auf Basis eines Crowd-Labeling-Ansatzes erzeugt werden, welche die Grundlage für die Erzeugung eines Goldstandards bilden. Den dabei zu berücksichtigenden Unsicherheiten bezüglich der Vertrauenswürdigkeit der einzelnen Annotatoren kann mittels des ebenfalls durch FoSIL entwickelten Inter-Rater-Agreement-Learning-Ansatzes (IRAL) begegnet werden (J. Cohen, 1960; K.-J. Hanke, et al. 2020). Dieser Ansatz ermöglicht die Steuerung des Einflusses jedes einzelnen Annotators auf das Gesamtergebnis mit Hilfe eines individuellen Profilings.

Syntaktische Auffälligkeiten sollen ebenfalls in die Lernprozesse einbezogen werden, bzw. können dadurch detektiert werden. Wenn das “Verfassen” von Hate Speech oder Fake News durch Social Bots in Betracht gezogen wird, erhöht sich die Wahrscheinlichkeit der Detektion.

Zum Nachweis eines derartigen Phänomens würden aber Nachrichten benötigt, die nachweislich von Social Bots stammen. Ein erfolgversprechender Ansatz liegt in der lexikalischen Analyse in Zusammenhang mit Word Embeddings, die bestimmte wiederkehrende rhetorische Begriffe und Phrasen entdeckt, die symptomatisch für diese Art von Texten sind.

Das Ziel einer neuartigen und nachhaltigen Strategie für eine automatisierte Detektion von Toxizität und Aggressionen in Postings und Kommentaren im Netz kann nur in einem Verbund aus Wissenschaft und Anwendern umgesetzt werden.

Der vorgestellte Ansatz dient nicht nur der eigentlichen Detektion und Klassifikation, sondern beschäftigt sich auch mit der Ausbreitung und der Überführung in einzelne Straftatbestände.