Vorneweg

Ich möchte vorneweg schicken, dass es mir nicht darum geht, den Zusammenhang “Impfquote - Inzidenz” in Frage zu stellen. Ich bin überzeugter Impfbefürworter und habe am 12. Juni 2021 meine zweite Covid-Impfung erhalten.

Aber mich überzeugt die statistische Analyse im unten zitierten Artikel nicht vollständig und ich lege hier meine Sichtweise dar.

Mehr über meine Arbeit als Biostatistiker gibts unter www.kasparrufibach.ch.

Zusammenfassung

Am 23. September 2021 erschien dieser Artikel in der NZZ und wurde auf Twitter diskutiert. Auch der Tagesanzeiger hat dieselben Daten in diesem Artikel analysiert. Der 2. Artikel liegt hinter einer Bezahlschranke, ich habe ihn deswegen nicht lesen können.

In dieser kurzen Analyse gehe ich auf einige Punkte im NZZ Artikel ein, für die die Daten meiner Meinung nach anders interpretiert werden könnten (sollten?).

Fragestellungen

Wenn ich den NZZ Artikel korrekt verstehe, sollen die folgenden Fragen beantwortet werden:

  • Besteht ein Zusammenhang zwischen dem Anteil der vollständig geimpften Personen und den Anzahl Corona-Fällen?
  • Ist dieser Zusammenhang linear?
  • Wie stark ist dieser Zusammenhang?

Daten und Programmcode

Als Daten zur Verfügung stehen

  • Anteil der vollständig geimpften Personen vor zwei Wochen, in Prozent,
  • Fälle pro 100 000 Einwohner in den letzten zwei Wochen (Inzidenz).

Lobenswerterweise haben die Autoren des obigen Artikels ihren Programmcode auf hier zur Verfügung gestellt, sodass die Daten einfach zu beschaffen sind.

Analog ist der Programmcode für diesen Bericht hier verfügbar.

Analyse

Als erstes reproduziere ich die erste Grafik im NZZ Artikel.

Die Kreise sind proportional zur Bevölkerungsgrösse. Schauen wir uns diese Grafik genauer an, dann fallen die folgenden Dinge auf:

  • Über alle Kantone scheint der Zusammenhang negativ zu sein, d.h. je mehr vollständig Geimpfte desto weniger Fälle.
  • Allerdings sehen wir auch drei Gruppen von Kantonen (Gruppe 1: AI / GL / OW vs. Gruppe 2: AR / SG / SZ / TG / UR vs. Gruppe 3: Rest, d.h. AG / BE / BL / BS / FR / GE / GR / JU / LU / NE / NW / SH / SO / TI / VD / VS / ZG / ZH) sowie LU, dass ein wenig dazwischensteht und am ehesten dem Rest zugeschlagen werden kann.
  • Innerhalb dieser Gruppen scheint obiger Zusammenhang viel weniger klar. Man ist sogar geneigt einen leicht positiven Zusammenhang zu “sehen”.
  • Zudem besteht Gruppe 1 ausschliesslich aus bez. Bevölkerungszahl kleinen Kantonen.

Der im NZZ Artikel postulierte relevant negative Zusammenhang kommt also eher daher, dass wir drei Gruppen von Kantonen haben die eine ähnliche hohe Impfquote aber (pro Gruppe) wesentlich verschiedene Inzidenzen haben und nicht unbedingt direkt vom Zusammenhang Impfquote - Inzidenz.

Im Artikel wir jetzt ohne weitere Diskussion postuliert, dass der negative Zusammenhang linear ist und ein entsprechendes linears Modell wird berechnet und die Koeffizienten werden entsprechend interpretiert (“Statistisch gesehen können knapp 70 Prozent der Unterschiede bei der Inzidenz durch die Impfquote erklärt werden. Ein zusätzliches Prozent vollständig Geimpfter reduziert im linearen statistischen Modell die Inzidenz um rund 35 Fälle.”).

Dabei muss klar gemacht werden, dass dieses lineare Modell stark durch Gruppe 1 “getrieben” ist, da diese drei Kantone die gerade “steil machen”, umsomehr als im Artikel die Grösse der Kantone bei der Berechnung des Modells nicht berücksichtigt wird, d.h. der Kanton ZH wird genau gleich gewichtet wie der Kanton AI. Das im Artikel nicht gewichtet ist umso erstaunlicher, als die Bevölkerungszahl ja explizit (im Gegensatz zum analogen Artikel im Tagesanzeiger) in der Punktgrösse abgebildet wird.

Berechnen wir jedoch eine mit der Bevölkerungsgrösse gewichtete Regression fällt die (absolute) Steiung der Geraden von -32.6 auf -18.2 und der Korrelationskoeffizient von 0.67 auf 0.42, der Zusammenhang ist also wesentlicher weniger stark. Es gilt auch zu beachten, dass der Korrelationskoeffizient die Stärke des linearen Zusammenhangs quantifiziert - ist der Zusammenhang aber nicht linear, dann ist der Korrelationskoeffizient (jedenfalls der hier verwendete) nicht vernünftig interpretierbar.

“Statistische Signifikanz” erachte im Zusammenhang mit Korrelationen als wenig informativ, sie sagt lediglich aus, ob die Steigung der angepassten Geraden statistisch verschieden ist von 0.

Wir können noch weiter gehen und sagen, wir beschränken uns nicht ausschliesslich lineare Funktionen, sondern lassen unser Modell eine flexible Kurve für den Zusammenhang wählen, die auf ihre Art “am besten angepasst” ist (eine sog. LOESS Anpassung). Wir berechnen diese Anpassung ebenfalls mit der Bevölkerungszahl gewichtet.

Hier wird jetzt klar ersichtlich, dass mind. in Gruppe 3 kaum ein Zusammenhang zwischen Impfquote und Inzidenz besteht, der Teil der LOESS Kurve dort ist im wesentlichen horizontal. Dies gilt eigentlich auch für Gruppe 2, aber die Gerade wird dort “zu den bevölkerungsreichen Kantonen heruntergezwungen”.

Um das Ganze auf die Spitze zu treiben können wir isoliert in Gruppe 3 ebenfalls noch eine lineare Regression anpassen (für eine sinnvolle LOESS Anpassung hats in Gruppe 3 eher zuwenig Kantone):

Die Steigung dieser Gerade innerhalb Gruppe 3 ist lediglich -2.2 mit Korrelationskoeffizient von 0.006, d.h. es gibt keinen Zusammenhang mehr zwischen Impfquote und Inzidenz.

Multiple Regression

Wir können den Einfluss der Gruppe natürlich auch mit einem multiplen Regressionmodell beurteilen: wir vergleichen das Modell mit und ohne Gruppierungsvariable:

stargazer(m2, m4, type = "html")
Dependent variable:
per100k
(1) (2)
second_pct -18.226*** -1.739
(4.348) (6.091)
groupGruppe 2 199.425***
(67.736)
groupGruppe 3 461.472***
(141.401)
Constant 1,309.163*** 367.485
(241.214) (344.661)
Observations 26 26
R2 0.423 0.649
Adjusted R2 0.399 0.601
Residual Std. Error 47,782.200 (df = 24) 38,928.840 (df = 22)
F Statistic 17.567*** (df = 1; 24) 13.541*** (df = 3; 22)
Note: p<0.1; p<0.05; p<0.01

Das multiple Regressionmodell bestätigt, dass der Zusammenhang - bei Zunahme von Gruppe - zusammenfällt: Die Steigung beträgt lediglich noch -1.7.

Konklusionen

Aus diesen Analysen schliesse ich:

  • Es gibt drei Gruppen von Kantonen, die sich bezüglich Impfquote und Inzidenz unterscheiden.
  • Innerhalb dieser Gruppen erklärt die Impfquote die Inzidenz im wesentlichen nicht.
  • Es müssen andere / weitere Faktoren hinzugezogen werden, die die beobachteten Unterschiede in der Inzidenz besser zu erklären vermögen. Betrachte ich die drei Gruppen scheint mir ein Stadt-Land Zusammenhang nicht unplausibel.

Abschliessende Kommentare

Generell begrüsse ich das Aufkommen von “Daten-Journalismus” wie das vorliegende Beispiel sehr. Allerdings würde ich mir wünschen, dass Analysen trotz dem Bedürfnis nach genügender Vereinfachung sorgfältig durchgeführt werden.

Zudem bin ich mit folgender Aussage im Artikel nicht einverstanden:

Einen kausalen Zusammenhang kann die Statistik nicht belegen.

Randomisierte klinische Versuche in der Medizin (und anderswo, z.B. bei Facebook) sind ein Instrument um Kausalität zu beurteilen. Auch erlebt kausale Inferenz, die Beobachtungsdaten mit (teilweise unverifizierbaren) Annahmen kombiniert um eben genau kausale Aussagen treffen zu können, eine Blütezeit.