Datenjournalismus (3): Newsroom-Mathematik mit Excel & Co

Datenjournalismus (1): Grundlagen
Datenjournalismus (2): Scraping
Datenjournalismus (3): Newsroom-Mathematik mit Excel & Co
Datenjournalismus (4): Messy data – Daten säubern mit OpenRefine
Datenjournalismus (5): Visualisierung

Wenn Journalisten sich vor Mathematik fürchten, ist das nicht ganz unbegründet. Nur ein Fehler, eine einzige falsche Berechnung kann erheblich an der Glaubwürdigkeit kratzen. Die gute Nachricht: Es braucht eigentlich nur die Grundrechenarten, um über die Runden zu kommen. Das müsste doch selbst für uns Journalisten zu bewältigen sein …

Vieles von dem, was Steve Doig in diesem Modul der Serie „Doing Journalism with data“ über Funktionen und Formeln in Tabellenkalkulationsprogrammen wie Excel oder Openoffice Cal sagt, kenne ich bereits aus einem früheren Workshop mit Christina Elmer bei Zeit online. Eine Herausforderung bleibt das Jonglieren und Kalkulieren mit Zahlentabellen für mich dennoch. Mit diesem Modul, dem dritten des Online-Kurses Doing Journalism with Data, bin ich ein wenig sicherer geworden – nicht zuletzt, weil Steve Doig uns viele Übungen mit einem Datensatz aus der imaginären Welt Datamania machen ließ.

Hier notiere ich mal ein paar grundlegende OpenOffice-Formeln und Funktionen zum Nachschlagen. Weil ich sowas selbst gerne vergesse, wenn ich nicht täglich damit zu tun habe.

Navigation

Reihen/Spalten „einfrieren“
(um auch beim Scrollen durch größere Datensätze die Basis-Informationen nicht aus den Augen zu verlieren): Die Zelle nach der „einzufrierenden“ Zelle ansteuern (z.B. A2) -> Fenster -> Fixieren.

Die erste/letzte Zeile Ende der Tabelle ansteuern:
CMD/CTRL plus Pfeil nach oben/unten

Die erste/letzte Spalte der Tabelle ansteuern:
CMD/CTRL plus Pfeil nach rechts/links

Zahlen formatieren (um sie leichter lesbar zu machen):
Spalte/Zeile oder Zelle markieren -> Format -> Zellen. Auswahl „Zahl“, Option „Tausenderpunkt“.

An dieser Stelle finden sich weitere Formatierungsmöglichkeiten, die die Übersicht verbessern, beispielsweise „Negativ in rot“ darstellen.

Sortieren/Filter

Sortieren einer Variablen:
Cursor in der fraglichen Spalten platzieren -> Sortieren (A-Z für aufsteigend, Z-A für absteigend)

Sortieren mehrerer Variablen:
Daten -> Sortieren -> Auswahl der Spalten, nach denen zuerst und anschließend sortiert werden soll.

Filtern:
Daten -> Autofilter -> blendet Filteroptionen für alle Spalten ein.

„Standardfilter“ verknüpft mehrere Filterkriterien.

Berechnen

Eine Formel auf mehrere Zellen anwenden:
Doppelklick auf oder Ziehen an der rechten unteren Ecke der Zelle, die die Formel enthält

Variablen addieren:
=SUMME(Zellenname1+Zellenname2) (addiert zwei Zellenwerte)
=SUMME(Zellenname1:Zellenname2) (addiert „von – bis“)

Prozentsatz mehrerer Variablen:
Teilsumme durch Gesamtsumme teilen: =Zellenname1/Zellenname2
Ergebnis in Prozent: =Zellenname1/Zellenname2*100 oder Format -> Zellen -> Zahlen -> Prozent

Durchschnittlichen Prozentwert errechnen:
Prozentwerte nicht addieren, sondern Prozentformel kopieren.

Häufigkeitszahl: Fälle/Bevölkerung * Einheit (z.B.100.000, also Anzahl der Fälle pro 100.000 Einwohner)

Zeiträume berechnen:
Anzahl von Tagen zwischen zwei Daten: =Zellenname Enddatum-Zellenname Anfangsdatum
Beispiel: =D2-C2
Ergebnis umrechnen auf Jahre: =(Zellenname Enddatum-Zellenname Anfangsdatum)/durchschnittliche Anzahl der Tage pro Jahr
Beispiel: =(D2-C2)/365,25

Durchschnitt und Median:
=MITTELWERT(Zellenname1:Zellenname2)
=MEDIAN(Zellenname1:Zellenname2)

Geschichten in Daten finden: Sortieren

Wie findet man nun Ansätze für Datenstorys? Steve Doig rät: Sortiere jeden Wert, den du errechnet hast, schau nach, ob es auffällige Abweichungen gibt – und frag dich (und vor allem die Fachleute), warum das so ist.

Abweichungen vom Durchschnitt, ungleiche Verteilungen, die höchste und die niedrigste Zahl – anhand solcher Fragestellungen lässt sich ein Datensatz nach Geschichten durchkämmen.

Häufigkeitszahl

Beim Vergleich von Variablen verschiedener Größe, also etwa von Städten mit unterschiedlich hoher Bevölkerungszahl, ist die Häufigkeitszahl wichtig. Sie macht Daten oft erst vergleichbar. Wenn ich mir alljährlich vom Bundeskriminalamt die Zahlen zur Kriminalität in deutschen Städten geben lasse, bitte ich immer auch um die Zahl der Fälle pro 100.000 Einwohner. Nur anhand dieser Häufigkeitszahl wird ersichtlich, ob Köln tatsächlich gefährlicher ist als Frankfurt (was der Fall ist). Hat man einen Datensatz mit absoluten Zahlen und Angaben zur Bevölkerung, kann man sich die Häufigkeitszahl selbst ausrechnen (siehe Box oben). Aber oft kann man sich das sparen, wenn man zum Telefon greift, denn die Behörden haben diese Kalkulation zumeist bereits erledigt. 😉

Median und Mittelwert

Was ich noch gelernt habe: Der Median ist keineswegs der Mittelwert (im Sinne von Durchschnitt), sondern der mittlere in einer Liste von Werten. Beim Vergleich von Einkommensverhältnissen beispielsweise kann der Blick auf den Median sinnvoller sein als auf den Durchschnitt: Das mittlere Einkommen ist unter Umständen aussagekräftiger als das durchschnittliche Einkommen, das sich durch extreme Werte im oberen oder unteren Bereich entsprechend verschiebt.

Pivot: Abheben mit dem Datenpiloten

Eine Funktion, die ich ganz besonders mag, heißt in Excel „Pivot“, in OpenOffice „Datenpilot“: Sie hilft, wenn ich auch einem großen Datensatz nur einige bestimmte Bestandtteile sehen, mir also schnell eine neue Tabelle aus Teilen der Gesamttabelle zusammenstellen will. Wie das geht (und welche Fallstricke es geben kann), zeigt dieses Turorial:

Weiterführende Links:
School of Data: Sortieren und Filtern
Video: Openoffice Calc Tutorial
Steve Doig: Die wichtigsten Excel-Formeln auf einen Blick (pdf)

Mein Fazit aus diesem Modul:

Lieber zweimal nachrechnen!