Skip to main content
Top

15-11-2021 | Machine Learning | Schwerpunkt | Article

"Wir nutzen NLP, um Ähnlichkeiten von Texten zu berechnen"

Author: Barbara Bocks

5 min reading time

Activate our intelligent search to find suitable subject content or patents.

search-config
print
PRINT
insite
SEARCH
loading …
Interviewee:
Professor Detlef Schoder

ist seit 2003 Geschäftsführender Direktor und Gründer des Kölner Instituts für Wirtschaftsinformatik / Cologne Institute for Information Systems (CIIS) der Universität zu Köln.

Fake News zu erkennen, fällt nicht nur Laien schwer. Auch Experten fallen darauf herein. Detlef Schoder erforscht deshalb, wie KI-Anwendungen helfen können, Falschmeldungen in der Finanzwelt aufzuspüren. Wie das in der Praxis funktioniert, erklärt der Professor im Interview.

Springer Professional: Wie kamen Sie auf die Idee, KI zum Erkennen von Fake News einzusetzen?

Detlef Schoder: Die Forschungsarbeiten meines Lehrstuhls im Rahmen des Kölner Instituts für Wirtschaftsinformatik konzentrieren sich auf digitale Transformation, eine Natural Language Processing (NLP)-basierte Analyse von Daten, datenzentrierte Geschäftsmodellinnovation und Anwendungen von Künstlicher Intelligenz zur Entscheidungsunterstützung in der Luftfrachtlogistik und auf Finanzmärkten. Grundlage der Forschung unserer KI-Arbeitsgruppe "Machine Learning & Natural Language Processing" bilden Word-Embedding-Ansätze sowie Weiterentwicklungen wie etwa Transfer Learning auf Basis von tiefen neuronalen Netzen, dem so genannten Deep Learning. Ich begleite außerdem die Entwicklung des FinTechs Stockpulse schon seit vielen Jahren.

Editor's recommendation

2021 | OriginalPaper | Chapter

Was ist KI und was nicht

Die Geschichte maschineller Informationsverarbeitung reicht fast 200 Jahre zurück. Trotzdem stehen wir noch am Anfang der Entwicklung von KI.

Inwiefern unterscheiden sich Transfer Learning, Deep Learning und Natural Language Processing (NLP) voneinander? Können Sie deren Grundprinzip kurz erläutern?

Transfer Learning beschäftigt sich mit der Frage, ob und inwieweit erlernte Zusammenhänge und Strukturen eines Themengebietes auf ein anderes, verwandtes Themengebiet angewendet werden können. Es ist dabei häufig so, dass ein relativ kleiner Zusatzaufwand betrieben werden muss, um die bestehenden neuronalen Netze auf Spezifika des Anwendungsfalls auszurichten und die zuweilen sehr großen, allgemein antrainierten Classifier dabei nicht zwingend ändern zu müssen. Die derzeit leistungsfähigsten Ansätze fußen alle auf tiefen, neuronalen Netzen, dem sogenannten Deep Learning. Es stellt einen generellen Rahmen für maschinelles Lernen zur Verfügung. Transfer Learning ist sozusagen Anwendungsfall neuronaler Netze und zugleich eine eigenständige Methode.

Worauf liegt der Fokus beim Natural Language Processing?

Natural Language Processing (NLP), ein Teilgebiet von Machine Learning und damit wiederum der Künstlichen Intelligenz, hilft beim Verständnis natürlichsprachlicher Information. Der Fokus liegt hier auf der Frage, wie Computer große Mengen natürlicher Sprachdaten in Textform verarbeiten und analysieren können. NLP kann sowohl Deep-Learning-Methoden als auch simplere Methoden nutzen. Jedoch ist Deep Learning in Kombination mit Transfer Learning die Grundlage für die jüngsten Fortschritte im Bereich NLP. Ein mögliches Ziel von NLP ist es etwa, Inhalte von Texten zu klassifizieren und das Sentiment oder die Semantik der Texte bestmöglich zu erkennen.

Wie setzen Sie NLP ein?

Wir nutzen NLP, um Ähnlichkeiten von Texten zu berechnen, um damit Texte zu klassifizieren und in Cluster einzuteilen. Darauf aufbauend generieren wir einen sogenannten Novelty- oder Newness-Faktor von Beiträgen und Nachrichten, also eine Abschätzung darüber, ob ein Beitrag aus dem Rahmen fällt und damit potenziell Neuigkeits- und/oder Informationsgehalt hat. Konkret setzen wir dafür Deep-Learning-Modelle wie BERT, kurz für Bidirectional Encoder Representations from Transformers, ein. Das ist eine maschinelle Lernmethode für NLP, die Kontextinformationen eines Wortes berücksichtigt, um etwa ein Wort aus einem Kontext von Wörtern zu schließen oder umgekehrt aus einem Wort auf wahrscheinliche Kontextworte zu schließen. Ein Schlüsselvorteil ist hier, dass syntaktisch ungleiche Worte, die aber inhaltlich Ähnliches meinen, in der Analyse berücksichtigt werden. Bei einer rein syntaktischen Betrachtung würde man diese Ähnlichkeiten schnell übersehen.

Woran erkennt die KI potenziell manipulative Beiträge?

Die Bewertung der Autoren der Beiträge sowie die Herkunft der Beiträge in einem netzwerktheoretischen Sinn sind zentrale Bestandteile, um mögliche Manipulationen zu erkennen. In die Analyse gehen verschiedene Daten ein, wie der Zeitpunkt des ersten Posts, die Anzahl der Posts über eine bestimmte Zeitperiode, die Anzahl der Follower und die Anzahl der Retweets. Auf der Basis dieser Datenpunkte können mit Hilfe von Machine-Learning-Ansätzen Muster erkannt werden, die mit bestimmten Wahrscheinlichkeiten Erklärungsansätze für Nutzungsverhalten liefern können. Damit können beispielsweise weniger einflussreiche Autoren von solchen mit stärkerem Einfluss getrennt werden. Auch wird dadurch die Erkennung von Social Bots potenziell erleichtert.

Wie läuft der Prozess der KI genau ab, bis sie mögliche Fake News aufgespürt hat?

Wir verfolgen mehrere Ansätze, um Inhalte von Texten und Autoren der Texte zu klassifizieren, um daraus Muster zu erkennen, die mit einer bestimmten Wahrscheinlichkeit auf Fake News hindeuten. Letztendlich basieren diese Analyse auf Wahrscheinlichkeitsangaben und auf historischen Mustern, bei denen Fake News vorlagen. Es ist eine generelle Eigenschaft von Deep Learning, Transfer Learning oder NLP, auf der Basis von historischen Daten zu lernen, Muster zu erkennen und daraus Schlüsse zu ziehen, die mit einer möglichst hohen Wahrscheinlichkeit im wesentlichen probabilistische Aussagen zulassen. Daher ist der historische Datensatz von Stockpulse von großer Bedeutung. Wir können hier auf mehr als elf Jahre Historie von Social-Media-Beiträgen und Nachrichten aus dem Finanzbereich zurückgreifen.

Welche Daten fließen aus welchen Quellen in die Datenbank hinein und wer prüft deren Richtigkeit? Gibt es noch ein Kontrollgremium oder menschliches Vier-Augen-Prinzip, das die Ergebnisse der KI verifiziert?

Die Datenbasis wurde von Stockpulse über die vergangenen elf Jahre aufgebaut und besteht hauptsächlich aus Social-Media-Beiträgen und traditionellen Nachrichten mit Bezug zum Finanz- und Aktienmarkt. Social Media umfasst Quellen wie Twitter, Stocktwits, Reddit, Foren, Kommentarspalten von Nachrichtenseiten sowie Blogs. Alles was unter die Definition nutzergenerierte Inhalte fällt, kann dazu gezählt werden. Die Crawler von Stockpulse laufen 24 Stunden und sieben Tage in der Woche. Gecrawlt werden nur öffentlich zugängliche Quellen. Alle Daten werden strukturiert in Datenbanken abgelegt. Basierend auf den hauptsächlich textbasierten Daten werden entsprechend verschiedener Ansätze die Analysen gefahren. Da die Ergebnisse, ob eine Nachricht Fake News ist oder nicht, auf Wahrscheinlichkeitsangaben beruhen, ist es zweckmäßig, die Ergebnisse von Menschen gegenprüfen zu lassen. Dies erhöht die Erkennungsrate und führt zu robusteren Ergebnissen.

print
PRINT

Related topics

Background information for this content