1 Einleitung
-
FF1: Wie kann eine Stimmungserkennung von Tweets mittels der Kombination von Sentiment-Lexika und maschinell lernenden Verfahren erreicht werden?
-
FF2: Wie kann die Stimmungserkennung von Tweets im Rahmen einer Echtzeitumgebung skaliert werden?
2 Hintergrund und verwandte Arbeiten
3 Sentistorm
3.1 Stimmungserkennung
3.1.1 Tokenisierung
Input-Tweet | Tokenisierter Tweet |
---|---|
@user1 @user2 OMG I just watched Michael's comeback ! U remember him from the 90s ?? yaaaa \uD83Dn\DE09 #michaelcomeback | [@user1, @user2, OMG, I, just, watched, Michael’s, comeback, !, U, remember, him, from, the, 90, s, ?, ?, yaaaa, ;), #michaelcomeback] |
3.1.2 Vorverarbeitung
Input-Tokens | Vorverarbeitete Tokens |
---|---|
[@user1, @user2, OMG, I, just, watched, Michael’s, comeback, !, U, remember, him, from, the, 90, s, ?, ?, yaaaa, ;), #michaelcomeback] | [@user1, @user2, Oh, my, God, I, just, watched, Michael’s, comeback, !, you, remember, him, from, the, 90, s, ?, ?, yeah, ;), #michaelcomeback] |
3.1.3 Erzeugung von Merksmalsvektoren
-
Anzahl Nomen
-
Anzahl Verben
-
Anzahl Adjektiven
-
Anzahl Adverbien
-
Anzahl Satzzeichen
-
Anzahl Hashtags
-
Anzahl Emoticons
-
Anzahl an positiven Wörtern
-
Anzahl an neutralen Wörtern
-
Anzahl an negativen Wörtern
-
Summe aller Sentiment-Werte
-
Anzahl an Wörtern, für die ein Sentiment-Wert bestimmt werden konnte
-
Maximaler positiver Sentiment-Wert
-
Maximaler negativer Sentiment-Wert
Lexikon
|
Umfang
|
Sentiment-Wertebereich
|
---|---|---|
AFINN-111 (Nielsen 2011) | 2477 Wörter | [−5, 5] |
SentiStrength Emotions (Thelwall 2015) | 2544 reguläre Ausdrücke | [−5, 5] |
SentiStrength Emoticons (Thelwall 2015) | 107 Emoticons | [−1, 1] |
147.292 Wörter | [−0,935, 0,8827] | |
Sentiment140 (Kiritchenko, Zhu, Mohammad 2014) | 62.468 Wörter | [−4,999, 5] |
6785 Wörter | [positiv, negativ] | |
MPQA Subjectivity (MPQA 2015) | 6886 Wörter | [positiv, negativ] |
3.1.4 Klassifikation
3.2 Skalierung von Sentistorm
4 Evaluation
Positiv
|
Negativ
|
Neutral
|
Gesamt
| |
---|---|---|---|---|
Training
| 3660 | 1466 | 4602 | 9729 |
Development
| 575 | 340 | 739 | 1654 |
Test
| 1572 | 601 | 1640 | 3813 |
5 Resultate
Ermittelte Klasse
| |||||
---|---|---|---|---|---|
Positiv | Negativ | Neutral | Gesamt | ||
Klasse
| Positiv | 1033 | 146 | 393 | 1572 |
Negativ | 56 | 412 | 133 | 601 | |
Neutral | 257 | 151 | 1232 | 1640 | |
Gesamt | 1346 | 709 | 1758 | 3813 |
2013
|
F
p/
n
|
2014
|
F
p/
n
|
---|---|---|---|
NRC-Canada | 0,6902 | TeamX | 0,7212 |
GU-MLT-LT | 0,6527 | NRC-Canada | 0,7075 |
Teragram | 0,6486 | Coooolll | 0,7040 |
BOUNCE | 0,6353 | RTRGO | 0,6910 |
KLUE | 0,6303 | SentiKLUE | 0,6906 |
Knoten
|
Durchschnitt Tweets/Sekunde
|
---|---|
1 | 3133 |
2 | 5920 |
3 | 8599 |
4 | 11.528 |
5 | 14.295 |
6 | 17.025 |
7 | 19.735 |
8 | 22.579 |
9 | 25.207 |
10 | 27.876 |