Deprecated: Function create_function() is deprecated in /customers/d/c/f/dominikschauer.com/httpd.www/wp-includes/pomo/translations.php on line 208 Welche Länder werden am häufigsten in den Nachrichten erwähnt? – Dominik Schauer

Welche Länder werden am häufigsten in den Nachrichten erwähnt?

 

 

Wie in meinem Beitrag über GDELT und Google BigQuery erwähnt, habe ich selbst auch deren Benutzung erprobt. Inspiriert von Felipe Hoffas Post habe ich mich gefragt, über welche Länder im Jahr 2015 bisher am meisten geschrieben wurde. Um es kurz zu machen, das Ergebnis lautet folgendermaßen:

  1. USA
  2. GBR
  3. FRA
  4. RUS
  5. CAN
  6. AUS
  7. CHN
  8. ISR
  9. NGA
  10. DEU

länder nachrichten häufig erwähnt

 

Im Folgenden beschreibe ich meine Vorgehensweise und beantworte ein paar andere Fragen, die ich mir im Zusammenhang mit dem Datensatz außerdem gestellt habe.

Die Datenbeschaffung

Zunächst benötigte ich also erst einmal die Daten. Die standen glücklicherweise mit der GDELT-Datenbank auf Google BigQuery schon bereit. Alles was ich tun musste, war es, die richtige Abfrage zu stellen.

SELECT count(*) Anzahl, Actor1CountryCode, Year
FROM [gdelt-bq:full.events] 
WHERE Actor1CountryCode != ''
GROUP BY Actor1CountryCode, Year
ORDER BY Anzahl DESC, Year DESC

Das Ergebnis kann auf BigQuery direkt als CSV-Datei gespeichert werden. Diese habe ich zunächst über die Funktion Import Dataset in RStudio importiert. Dem data.frame hab eich den Namen news gegeben und als Datensatz von besonderem Interesse eingebunden.

attach(news)

Die Beantwortung der Fragestellung war nun recht einfach.

Die Lösung der Ausgangsfragestellung

Im Grunde lässt sich das Ergebnis bereits aus den Daten ablesen so wie ich sie mit der SQL-abfrage erhalten habe, da ich die Angabe

ORDER BY Anzahl DESC, Year DESC

eingefügt habe. Damit ist das Ergebnis im Prinzip bereits direkt ablesbar. Unten ist jedoch noch eine sichere Methode mit R, mit der man auch zu dem selben Ergebnis gelangt, selbst wenn mir ein komplett ungeordneter Datensätze vorgelegen hätte.

news2015 = subset(news,Year==2015)
head(news2015$Actor1CountryCode[order(news2015$Anzahl,decreasing=T)],10)
alternativ: 
head(Actor1CountryCode[order(subset(Anzahl,Year==2015),decreasing=T)],10)

Das selbe lässt sich nun mit jedem beliebigen Jahr zwischen 2015 und 1979 wiederholen indem “2015” durch das Jahr ersetzt wird. Im Jahr 2014 waren USA, GBR, FRA, RUS, CAN, AUS, CHN, ISR, NGA und DEU ebenfalls die meistgenannten Länder.

 Weitergehende Fragen

Ich wollte wissen, für wie viele Länder und wie viele Jahre überhaupt Daten vorhanden sind. Das Ergebnis: für 224 Länder und 37 Jahre.

length(table(Actor1CountryCode))
length(table(Year))

Danach habe ich mich gefragt, ob auch für jedes Land in jedem der 37 Jahre Daten vorhanden sind. Das Ergebnis: Nein. Für 26 Länder bzw. 11,6% der Länder ist nicht in jedem Jahr ein Eintrag vorhanden.

length(subset(table(Actor1CountryCode),table(Actor1CountryCode)!=37))
length(subset(table(Actor1CountryCode),table(Actor1CountryCode)!=37))/length(table(Actor1CountryCode))*100

Bei den 26 Ländern, die nicht in jedem Jahr Erwähnung finden handelt es sich um die, mit den CountryCodes  COK, MHL, SLB, VUT, ABW, AIA, GEO, TUV, SCN, SMR, CAS, EAF, LAM, AND, ROM, SAF, SAM, WLF, HKG, EEU, NAF, CAU, PRI, TWN, SSD und BLK. Dabei wurden BLK und SSD nur in 2 bzw. 5 Jahren erwähnt während COK und MHL hingegen nur in einem Jahr nicht erwähnt wurden. Die genau Verteilung habe ich anschließend in einem Barplot visualisiert.

table(Actor1CountryCode)[tail(order(table(Actor1CountryCode),decreasing=T),26)]
barplot(table(Actor1CountryCode)[tail(order(table(Actor1CountryCode),decreasing=T),26)])

am seltensten erwähnte LänderZum Abschluss habe ich mich noch gefragt, welche Länder die All-time-Hitliste der meist erwähnten Länder anführen. Das Ergebnis: Die ersten 9 Plätze der Top 10 gehen an die USA mit Erwähnungen aus den Jahren 2014, 2012, 2013, 2011, 2010, 2009, 2008, 2007 und 2015. Auf Platz 10 folgt Großbritannien mit dem Wert aus 2014. Damit kann man schon jetzt festhalten, dass die USA 2015 in weniger als zwei Monaten mehr Erwähnungen erreicht haben als der Rest der Welt in jedem beliebigen gesamten Jahr. Deutschland erscheint in der Liste übrigens zum ersten Mal auf Platz 67 mit seinem Wert von 2014.

head(news$Actor1CountryCode[c(order(Anzahl,decreasing=T))],10)
head(news$Year[c(order(Anzahl,decreasing=T))],10)

Leave a Reply

Your email address will not be published. Required fields are marked *