Eksploracja tekstu i wyszukiwanie informacji w mediach społeczno¶ciowych


Słownikowa analiza sentymentu

Analiza sentymentu (sentiment analysis - SA) jest jednym z najistotniejszych działów text miningu. Jak sama nazwa wskazuje, zajmuje się ocen± zawarto¶ci emocjonalnej, która można uzyskać analizuj±c dan± próbkę tekstu. Ogólnie można pwoiedzieć, że dwoma głównymi podej¶ciami w SA s± metody bez nadzory oraz pod nadzorem. Pierwsza gama metod wykorzystuje najczę¶ciej uprzednio stworzone leksykony emocjonalne i opieraj±c się na nich ocenia sentument w tek¶cie. Druga to typowe podje¶cie typu data mining - na zbiorze ucz±cym trenujemy okre¶lony algorytm, aby póĽniej stosować go do innych danych. Na dzisiejszych zajęciach zajmiemy się pierwsz± metod± (w najprostszym wydaniu).

Wykorzystamy zbiór czterach ksi±żek Juliusza Verne'a:


 g <- gutenberg_works()
 id <- c(83, 103, 164, 1268)
 verne <- gutenberg_download(id)
 books <- g[g$gutenberg_id %in% id, c("gutenberg_id","title")]
 verne %<>% left_join(books) %>%
    mutate(gutenberg_id = NULL)
I tak jak poprzednio, rozbijamy zbiory na poszczególne tokeny - czyli słowa.


verne_books <- verne %>%
  group_by(title) %>%
  mutate(linenumber = row_number()) %>%
  ungroup() %>%
  unnest_tokens(word, text)

Słownik tidytext

Teraz, oczywi¶cie, kluczow± spraw± jest zdobycie jakiego¶ słownika, który powi±że nam poszczególne słowa z zawartymi w nich emocjami. Bibioteka tidytext udostępnia zbiór danych sentiments, będ±cy de facto zbiorem aż czterech oddzielnych leksykonów: NRC, Bing, Finn Arup Nielsen i Loughran. Każdy z nich w inny sposób opisuje emocje: drugi podaje warto¶ci numeryczne z zakresu \([-5; 5]\), trzy pozostałe korzystaj± z opisowego okre¶lenia sentymentu. Do każdego słownika mozna dostać się za pomoc± wrappera get_sentiments(). Poniżej wypiszemy emocje, które zwraca slownik NRC.


Korzystaj±c z takiego zbioru możemy np. okre¶lić jakie słowa w wybranych ksi±żkach odpowiadaj± za negatywny lub pozytywny sentyment


pos_neg <- verne_books %>%
  inner_join(nrc) %>%
  filter(sentiment %in% c("positive", "negative")) %>%
  group_by(sentiment) %>%
  count(word, sort = T) %>%
  top_n(10, n) %>%
  ungroup() %>%
  mutate(word = reorder(word, n))
ggplot(pos_neg) + geom_col(aes(word, n, fill = sentiment)) + 
  coord_flip() + 
  facet_wrap( ~ sentiment, scales = "free")

W podobny sposób okre¶limy emocje inne niż tylko negatywny/pozytywny.


nrc_class <- verne_books %>%
  filter(title == books[["title"]][2]) %>%
  inner_join(nrc) %>%
  filter(!(sentiment %in% c("positive", "negative"))) %>%
  group_by(sentiment) %>%
  count(word, sort = T) %>%
  top_n(10, n) %>%
  ungroup() %>%
  mutate(word = reorder(word, n))
ggplot(nrc_class) + geom_col(aes(word, n, fill = sentiment), show.legend = FALSE) + 
  coord_flip() + 
  facet_wrap(~sentiment, nrow = 3, scales = "free")

Emocje w sekcjach tekstu

Poprzednio wyznaczali¶my warto¶ci emocji w całych tekstach, ale oczywi¶cie tekst nie zawsze jest zwarta i jednolit± jednostk±. St±d sens ma rozłożenie ksi±żki na poszczególne fragmenty, i badania jak zmienia się sentyment w trakcie jak toczy się fabuła. Tym razem wykorzystamy słownik bing oraz funkcję spread(), która, jak sama nazwa wskazuje, rozrzuca warto¶ci po kolumnach.


verne_senti_bing <- verne_books %>%
  inner_join(get_sentiments("bing")) %>%
  count(title, index = linenumber %/% 80, sentiment) 
verne_senti_bing %<>%
  spread(sentiment, n, fill = 0) 

verne_senti_bing %<>%
  mutate(sentiment = positive - negative)

ggplot(verne_senti_bing, aes(index, sentiment, fill = title)) +
  geom_col(show.legend = FALSE) +
  facet_wrap( ~ title, ncol = 2, scales = "free_x")

Słowniki dostępne w pakiecie tidytext nie s±, rzecz jasna, jedynymi dostępnymi materiałami zwi±zanymi z sentymentem. W 2013 roku została opublikowana interesuj±ca praca przez Amy Warriner i współpracowników, w której zawarto warto¶ci walencji, pobudzenia i dominancji prawie 14000 angielskich słów. Jak zostało wspomniane na Wykładzie 5, walencja i pobudzenie do dwie często wykorzystywane składowe emocji, pierwsza mówi o nacechowaniu emocji (negatywna, pozytywna), druga o intensywno¶ci. We wspomnianej pracy dla obu zmiennych pojawiaj± się warto¶ci w skali \([1; 9]\). Zbiór ma kilkadziesi±t kolumn, ale nas interesuje jedynie ¶rednia walencja i pobudzenie poszczególnych słów:


emo <- as_tibble(read.csv("http://www.fizyka.pw.edu.pl/~julas/TEXT/lab/Ratings_Warriner_et_al.csv", stringsAsFactors = F))
Maj±c już wczytany zbiór, możemy pokusić się o stworzenie podobnego wykresu, co poprzednio, tyle, że korzystaj±c z innych danych.


verne_senti_warriner <- verne_books %>%
  inner_join(emo) %>%
  group_by(title, index = linenumber %/% 80) %>%
  summarise(valence = mean(valence))
ggplot(verne_senti_warriner, aes(index, valence, color = title)) +
  geom_point(show.legend = FALSE) + 
  geom_line(show.legend = FALSE) +
  facet_wrap( ~ title, ncol = 2, scales = "free_x")

Emocjonalny wordcloud

Chmury słów (wordclouds) s± bardzo często wykorzystywanym narzędziem do wizualizacji istotno¶ci (np. liczby) słów w danym dokumencie. Tym wygodniejsze jest ubranie tej metody w możliwo¶ć wy¶wietlania w różny sposób słów pozytywnych i negatywnych. Wkorzystamy tu funkcję acast() z pakietu reshape2, która po prostu w zgrabny sposób transformuje zliczenia słów jako pozytywnych i negatywnych, a następnie "nagniemy" funkcję comparison.cloud(), która w swoim zamy¶le ma porównywać słowa z różnych dokumentów.


## Loading required package: RColorBrewer
verne_books %>%
  inner_join(get_sentiments("bing")) %>%
  count(word, sentiment, sort = TRUE) %>%
  acast(word ~ sentiment, value.var = "n", fill = 0) %>%
  comparison.cloud(colors = c("red", "darkgreen"),
                   max.words = 100)
## Joining, by = "word"

Model Russela

Zgodnie z Wykładem 5, emocje opisane za pomoc± walencji i pobudzenia tworz± tzw. model kołowy Russela. Korzystaj±c z dostępnych danych można sprawdzić, na ile ten model faktycznie jest adekwatny do rzeczywisto¶ci. Na pocz±tek sprawdĽmy jak wygl±daj± we współrzędnych walencja-pobudzenie słowa ze słownika NRC.


sent <- nrc %>% 
  filter(!(sentiment %in% c("negative", "positive")))

sent_comb <- inner_join(sent, emo)
ggplot(sent_comb, aes(x = valence, y = arousal)) +
  geom_point(size = 1)

Jak widać, ciężko jest uzyskac duzy rozrzut pobudzenia dla obiektywnych warto¶ci walencji. Ciekawe może okazać się wypisanie najbardziej skrajnych słów.


ggplot(sent_comb %>% filter(abs(arousal - 5) > 1.5 & abs(valence - 5) > 1.5), aes(x = valence, y = arousal)) +
  geom_point(size = 0) + 
  geom_text(aes(label = word), size = 4)

Dla nas istotne jest to, że możemy bezpo¶rednio powi±zać poszczególne emocje (strach, rado¶ć etc) i warto¶ciami walencji \(v\) i pobudzenia \(a\). W tym celu histogramujemy ile słów o konkretnej emocji znajduje się w okre¶lonym punkcie \(v\), \(a\).

ggplot(sent_comb) + 
  geom_bin2d(aes(x = valence, y = arousal)) + 

Wreszcie, po dokonaniu u¶rednienia możemy porównać otrzymane pozycje emocji z modelem Russela.


sent_comb_sum <- sent_comb %>% 
  group_by(sentiment) %>% 
  summarise(valence = mean(valence), arousal = mean(arousal))

ggplot(sent_comb_sum, aes(x = valence, y = arousal)) +
  geom_point(size = 0) + geom_text(aes(label = sentiment))