Bei Data Science geht es nicht nur um Modellbildung und Algorithmen, häufig besteht ein Teil des Jobs auch nur darin, Zahlen richtig einordnen und bewerten zu können. Data Science ohne Zahlenverständnis oder neudeutsch Numeracy ist ein Ding der Unmöglichkeit.

Vor einigen Jahren lieferte Andre Gelman in einem Blog Post unter der Überschrift „Doing Data Science: What’s it all about?“ ein anschauliches Beispiel für den Nutzen einfacher Überschlagsrechnungen im Zeitalter von High Performance Computing und Big Data.

Im Bereich der Political Data Science kommt es auch oft darauf an, Zahlen überhaupt in den Bereich des Vorstellbaren zu rücken. Gestern war zu hören, dass die Europäische Zentralbank seit März 2015 zur Steuerung der Inflationsrate Anleihen im Wert von 2,6 Billionen Euro erworben hat. Zeitweise erfolgten Woche für Woche Käufe im Umfang von 80 Milliarden Euro.

Eine Billion entzieht sich im wahrsten Sinne des Wortes unserer Anschauung. Zwar würden Zählungen des menschlichen Mikrobioms oder menschlichen Zellen auch zu Ergebnissen in mindestens dieser Größenordnung führen, aber die einzelnen Zählelemente lassen sich eben nicht mehr unmittelbar betrachten.

Ungewöhnlich große oder kleine Zahlen werden aber durch Komponentenzerlegung oder durch in Beziehung setzen zu anderen Werten begreiflicher. Dividieren wir die Gesamtsumme von 2,6 Billionen durch die Laufzeit von 45 Monaten, dann erhalten wir eine monatliche Aufkaufsumme von im Schnitt rund 58 Mrd. Euro, immer noch eine große Zahl. Die im nächsten Schritt aber zur Einwohnerzahl der Eurozone in Beziehung gesetzt werden kann. Bei rd. 340 Mill. Einwohnern beträgt der Aufwand pro Kopf und Monat 167 Euro. Geld in diesen Mengen findet sich durchaus in unseren Portemonnaies, mit solchen Summen sind wir vertraut.Aus dieser Perspektive kann jede und jeder selbst entscheiden ob der Aufwand der EZB zur Stabilisierung der Wirtschaft gerechtfertigt erscheint.

In seinem Buch Data Analysis with Open Source Tools rät Philipp K. Janert (Janert, Data Analysis,2011, S. 152) jedem Data Scientist dazu, sich ein eigenes Referenzsystem für Zahlen zu schaffen. Wieviel Text passt auf eine Seite, wie viele Passagiere sitzen in einem großen Verkehrsflugzeug, wieviel Grad Celsius werden an einem heißen Tag erreicht?

Trainieren lässt sich der Zahlensinn auch mit sogenannten Fermi-Problemen, benannt nach dem italienischstämmigen, in die USA emigrierten Physiker Enrico Fermi (1901 bis 1954, Nobelpreis 1938). Eine seiner bekanntesten Schätzfragen lautete: „Wie viele Klavierstimmer gibt es in Chicago?“. Der Weg ist das Ziel.