Warning: (Update vom 22.11.2021) Vorweg ist hier eine persönliche Anmerkung, um Missverständnisse zu vermeiden: Ich bin geimpft! Die STIKO-Impfempfehlungen waren bislang immer schlüssig, daher ist auch meine älteste Tochter geimpft und sobald eine entsprechned Zulassung vorhanden ist, werden wir auch unsere jüngere Kinder impfen lassen. Nun, berücksichtige bei den nachstehenden Zahlen, dass diese aus dem Frühjahr 2021 stammen, also bevor die Delta-Variant in Deutschland weit verbreitet war und zu einer Zeit als Kinder mehr Einschränkungen hatten als Erwachsene.

In diesem Blog-Post möchte ich herausfinden, wie leicht sich interaktive Grafiken in Notebooks erstellen lassen. Als Framework verwende ich hier Altair, da es sich in meinem Blog leicht integrieren lässt [FP20].

Um den Beitrag auch inhaltlich interessant zu gestallten, werte ich die Sterbefallzahlen von Deutschland der letzten fünf Jahre aus. Dabei Grenze ich die Zeiträume vor und während Covid19 voneinander ab.

Als Fragestellung definiere ich:

  • Wie verändern sich die Sterbefallzahlen je Altersgruppe und Monat?
  • Wie verändern sich die Sterbefallzahlen je Bundesland?

Im ersten Teil wird die Datenherkunft und -verarbeitung beschrieben. Anschließend werden rund um die obigen Fragestellungen Grafiken aufgebaut. Zum Schluss folgt ein technisches Fazit zum Framework.

Important: Die Sterbefallzahlen sind kein Indikator für die Gefährlichkeit von Covid19. Sie bilden lediglich rückwirkend betrachtet die Anzahl verstorbener Menschen ab.

Datenherkunft

Für die Auswertung von Sterbefällen in Deutschland werden die aktuellen Sterbefalldaten vom Statistischen Bundesamt [SB21] herangezogen. Die Daten beinhalten unter anderem Aufstellungen der Todesfälle nach Altersgruppen oder Bundesländern. In dieser Analyse werden die monatlichen Sterbefallzahlen für den Zeitraum März 2016 bis Februar 2021 herangezogen. Die aktuellsten Daten liegen derzeit nur bis Februar 2021 vor und beinhalten einen Schätzanteil, der in der Datenquelle im Reiter "Hinweise" erklärt ist. Neben den Sterbefallzahlen werden zusätzlich Daten über die Bevölkerungsdichte der Bundesländer verarbeitet [SB20], wobei sich diese Zahlen auf den Stichtag 31.12.2019 beziehen.

Verarbeitung der Daten

Preprocessing

Der Auswertungszeitraum wird beschränkt auf März 2016 bis Februar 2021. Der Zeitraum, in dem Corona in Deutschland sehr aktive war, wird hier vereinfacht auf März 2020 (als Covid19 in Deutschland die ersten größeren gesellschaftlichen Veränderungen auslöste) bis Februar 2021 (orange) festgelegt. Der vor-Covid19-Zeitraum wird auf März 2016 bis Februar 2020 festgelegt (blau). Somit umfasst der Covid19-Zeitraum exakt ein Jahr und der vor-Covid19-Zeitraum exakt 4 Jahre. Somit bleiben beide Zeiträume ohne gravierende saisonale Abweichungen vergleichbar. Die Aufteilung der Zeiträume ist im nachstehenden Diagramm verdeutlicht.

Datenaggregation

Bei den Berechnungen werden die Werte über einen Zeitraum über das Arithmetische Mittel aggregiert. Je nach Auswertung geschieht dies über den ganzen Zeitraum oder je Monat. Das erste und dritte Quartil, der aggregierten Daten, werden gegebenenfalls als Schattierung in den Diagrammen mit abgebildet. In einigen Abbildung werden die berechneten Punkte interpoliert um die Lesbarkeit zu erhöhen.

Tip: Bei interaktiven Grafiken befinden sich in der rechten oberen Ecke Steuerungselemente, wie Dropdown-Boxen. Mit dem Mausrad lässt sich zoomen und per Doppelklick lässt sich eine Grafik zurücksetzen.

Todesfälle nach Alter

Im nachstehenden Diagramm wird die durchschnittliche Anzahl an Todesfällen pro Monat je Altersgruppe abgebildet. Eine Altersgruppe umfasst fünf Jahre. Der Punkt Alter 55 umfasst z.B. alle Todesfälle im Alter zwischen 50 und 55. Todesfälle der über 100-jährigen werden im Punkt 100 abgebildet.

Die Werte sind jeweils über den vor-Covid19-Zeitraum (blau) und den Covid19-Zeitraum (orange) aggregiert. Im Diagramm lassen sich die Monate per Dropdown-Box auswählen.

Nachfolgend sind die durchschnittlichen Todesfälle nach Alter für jeden einzelnen Monat aufgelistet. Die Auflistung beginnt mit dem Monat März.

Beobachtung

In den Altersgruppen unter 55 Jahren kam es in diesen Zeiträumen zu keiner Übersterblichkeit. In den Altersgruppen ab 80 Jahren nahm die Übersterblichkeit massiv zu.

Todesfälle nach Bundesland

Im nächsten Diagramm lassen sich für die Altersgruppen 0-65 und 65+ die Todesfälle für die beiden Zeiträume je Bundesland auswerten. Per Dropdown-Box kann zwischen den Kennzahlen Todesfälle oder Todesfälle je 100.000 Einwohner gewählt werden.

Beobachtung

Nordrhein-Westfalen (NW) hat als Einwohner-stärkstes Land die meisten Todesfälle. In jedem Bundesland sind Anstiege der Todeszahlen im Covid19-Zeitraum zu erkennen. Allerdings sind lediglich minimale Anstiege in Hessen (HE) und Bayern (BY) für die Altersgruppen unter 65 Jahren zu erkennen. In den anderen Bundesländern gibt es keinen merklichen Anstieg in dieser Altersgruppe.

Bei der Darstellung der Todesfällen je Einwohner gibt es in der Altersgruppe unter 65 kleinere Schwankungen. Der Anstieg an Todesfällen in Nordrhein-Westfalen (NW) ist etwas geringer als in Bayern (BY) und in etwa so hoch wie in Baden-Württemberg (BW). Den stärksten Anstieg verzeichnet hier Sachsen (SN) und Brandenburg (BB).

Note: Hier werden nur Sterbefallzahlen betrachtet. Es werden keine anderen Aspekte (wie z.B. demografische Aspekte) berücksichtigt.

Todesfälle nach Bundesland und Bevölkerungsdichte

Das letzte Diagramm setzt die Bevölkerungsdichte der Bundesländer mit deren Todesfällen je 100.000 Einwohner in Bezug.

Beobachtung

Die Stadtstaaten Hamburg (HH) und Bremen (HB) weisen trotz ihrer hohen Einwohnerdichte einen nur moderaten Anstieg der Sterbefälle aus. Wohingegen Berlin einen hohen Anstieg verzeichnet. Schleswig-Holstein (SH) hat den geringsten Anstieg zu verzeichnen.

Der Korrelationskoeffizient zwischen der Bevölkerungsdichte und Anstieg der Todesfälle beträgt:

0.0232

Eine Korrelation ist für diesen Vergleich nicht festzustellen.

Note: Hier werden nur Sterbefallzahlen betrachtet. Es werden keine anderen Aspekte (wie z.B. demografische Aspekte) berücksichtigt.

Technisches Fazit

Mit Altair lassen sich einfach Grafiken gestallten und interaktiv in Notebooks mit einbinden. Die Webseite beinhaltet eine Vielzahl von Beispielen [AA1]. Einige Fragestellungen werden auch im Github-Issue-Tracker [AA2] beantwortet.

Ich habe etwas Zeit mit JavaScript-Debugging verbracht, als ich die Bindings falsch verwendet habe. Es gab aber schlussendlich zu jedem Problem eine Lösung [AA2] oder Workarounds wie etwa bei der Legende im Bardiagramm [AG18]. Wie erwartet braucht es etwas Übung um ein neues Framework wie gewollt einsetzen zu können.

Die Integration [FP20] in diesen Blog funktioniert einwandfrei. Ich werde das Framework bestimmt auch an anderer Stelle verwenden.

Quellverzeichniss

Datenquellen

Die hier verwendeten Daten stammen vom Statistischen Bundesamtes und unterliegen der Lizenz "dl-de/by-2-0". Der Lizenztext findet sich unter www.govdata.de/dl-de/by-2-0. Die Daten wurden zum Zwecke der Analyse ausschließlich innerhalb dieses Notebooks durch Ausführung des angegebenen Programmcodes modifiziert.

Sonstige Quellen

A lot of the coding is derived from various examples of the Altair homepage and great examples in the coresponding github issue tracker answered by https://github.com/jakevdp.