Dajte IZP pokoj

Vladimir Boza
4 min readApr 5, 2020

--

Disclaimer: Autor je data scientist. Veľmi dobrý data scientist. Kaggle grandmasterov je na svete len 200.

Rozmohl se nám tady takovej nešvar. Keďže na Slovensku máme aktuálne 5,4 milióna epidemiológov, tak sa tu vyrojili aj nejaké články kritizujúce posledný IZP model. Chvíľu som aj rozmýšlal, že ich nebudem linkovať, ale diskusia bude ľahšia, keď možem adresne kritizovať.

Vsuvka: Zrkadlo od mocnedata.sk má absolutné zlý graf (správny začiatok IZP modelu je 6*295). Akurát mi nie je jasné, prečo skok okolo 7.4. nikoho nezarazil. Správne zrkadlo vyzerá takto (keď sa to naškáluje na rovnaký štart):

Stručná odpoveď na tieto blogy by sa dala zhrnúť nasledovne:

Model je, v rámci možnosti, ktoré máme, dosť dobrý (keby som ho písal ja, tak asi vyzerá ináč, ale to nič nemení na tom, že je dobrý). Komunikácia jeho výstupov nebola ideálna (viď Matovičov nápad s blackoutom). Pozrite si rozhovor s Martinom Smatanom. A poriadne sa zamyslite, že či ste pred mesiacom vedeli, čo je to SIR model. A hlavne:

A teraz podrobnejšie

Čo povedal šéf IZP v Sme

Hlavné body by sa dali zhrnúť nasledovne:

  • chcú byť radšej konzervatívni (toto je rozumné)
  • o týždeň by mali mať lepší odhad, keď budú otestované MRK (osady) a bude aj viac iných dát
  • okrem toho celého spracúvajú aj iné zadania (blackout)
  • prvý model ani nechceli zverejniť, ale Pelle ho vytiahol v TA3. Ten model bol spravený za +- dve noci (vzhľadom na toto je dosť dobrý).

R0

Všetci tu hubujeme o nejakej R, že IZP ju má veľkú a vraj Česko ju má 1,1. To, čo všetci zabudli dodať, že Český interval spoľahlivosti je 0,8–1,5 (zdroj). To, že IZP zvolilo konzervatívnú hodnotu 1,6, je úplne v pohode. A to ani nehovorím o tom, že v modeli je redukcia mobility, ktorá výsledné R asi zredukuje.

Mimochodom 30.3. mi R0 v mojom modeli (ktorý dopočítava, čo bolo spätne) vychádzalo 0.8–1.6. Dnes (4.4) je to optimistickejšie 0.6–1.2 (berte prosím s rezervou, toto nie je model od epidemiológa).

Inými slovami, keď IZP robil model, tak videli toto (možné ešte bez posledných dvoch dní):

Stĺpce: denné nové prípady. Čiara: päťdňový plávajúci priemer

Takže tu chybu IZP určite neurobil, ale mohol viac zdôrazniť, že ide o konzervatívny odhad.

Komplexnejší model

Čo keby sme modelovali to, že časť ludí ide MHD a časť autom. Čo keby sme modelovali to, že keď tu bude 100 mŕtvých, tak ľudia viac zalezú domov? Čo keby …

Modelovať ďalšie faktory by sa dalo. Ale pokiaľ k tomu nie sú dáta, tak to veľký zmysel nemá. A aj keby dáta boli, tak je dosť možné, že niekde po ceste vznikne neželaný bias, ktorý to celé pokazí. Jednoduchší model je niekedy lepší ako komplexný. Nehovoriac o tom, že by to asi veľa nezmenilo. A ak si myslíte, že by to zmenilo, tak zoberte IZP model, vymyslite si OD maticu (kľudne stačia nejaké 3 mestá) a pozorujte, že čo váš faktor spraví (ináč osvojiť si toto správanie pri akejkoľvek pripomienke k hocijakému modelu je celkom dobrý nápad, šetrí to čas a pridáva váhu argumentom).

Každý, kto niekedy staval model, vie povedať, že nápadov, čo zlepšiť je vždy veľa. Ale realizovať ich nie je ľahké a niekedy je lepšie prestať a uspokojiť sa s tým, čo máme.

V celej plejáde pripomienok som videl zaujímavú iba jednu. “Nepracovanie s faktorom individuálnej izolácie”. IZP s tým nejako pracuje (má izolovaných ľudí), ale ja by som to robil trochu inak. Ale výsledky IZP simulácie sú podľa mňa stále validné.

A niektoré pripomienky boli úplne mimo. Operovať s odhadom 0.3% pre smrtnosť podľa štátov, kde počet smrtí je 1–3, si zaslúži doučovanie štatistiky. Nehovoriac o tom, že tento odhad si vyžaduje prerátanie podľa odhadu toho pre koľko prípadov už vieme, čo s nimi bude (inými slovami rátať do smrtnosti aj potvrdené prípady z posledného týždňa nemá až taký zmysel). Takže odhad bude nakoniec vyšší.

Dunning-Kruger

O šírení epidémie veľa z nás (aj keď sme fundovaní data scientisti) nevieme nič. Doménovú znalosť nemáme (preto si ani netrúfam robiť verejné predikcie kedy bude vrchol, …). Ja osobne, vlastnými pokusmi každý deň zistím niečo nové.

Navyše vyzerá, že social distancing je nová vec aj pre epidemiologické modely (pozrite si FB Richarda Kollára) a vieme o tom menej ako sme si mysleli. Kto neverí, odporúčam mu si nasimulovať nejakú sieť kontaktov a urobiť pár pokusov. Nie s cieľom predikcie, čo bude na Slovensku, ale pochopenia, čo sa vlastne deje. Budete prekvapení.

Takže prosím nechajte IZP pracovať a neosočujte ich na verejnosti. Vedia čo robia a komunikujú s rozumnými ľudmi. A snáď nabudúce pošlú Matovičovi predikcie aj s poriadnym disclaimerom.

P.S.: Spomínať v kontexte IZP trestné oznámenie za šírenie poplašnej správy je drzosť.

--

--