Tragedija nekih podatkov

Sledilnik.org
sledilnik
Published in
6 min readMar 4, 2021

Cilj Sledilnika je (bil?) javnosti in odločevalcem nuditi celovit pregled epidemije v državi in ​​nam vsem omogočiti boljšo oceno stanja — zato, da bi lahko ustrezno ravnali in sprejemali preudarnejše odločitve. Obvladovanje podatkov je ključno za razumevanje razsežnosti problema ter ustrezno oblikovanje — in sprejemanje — ukrepov za omejevanje širjenja okužb. Razsežnost pandemije je večino držav ujela nepripravljene tudi na podatkovnem področju, a mnoge izmed njih tudi leto dni kasneje v praksi še niso uspele bistveno izboljšati kriznega delovanja. Med njimi je žal tudi Slovenija.

Zato poglejmo na konkretnem primeru, kako uporabni so lahko javno objavljeni podatki in koliko vrednosti jim lahko dodamo s tem, da jih združimo in primerjamo v preprosti analizi. Uporabili bomo podatke o starostni strukturi, ki kljub svoji enostavnosti lepo orišejo možne uvide v epidemiološke razmere.

Najprej malo konteksta: vemo, da covid-19 prizadene različne starosti različno, zato je prvi podatek, ki nas zanima, starostna struktura prebivalcev Slovenije. Širine barvnih pasov na spodnjem grafu so sorazmerne deležu prebivalstva v vsaki starostni skupini. Roza odtenki predstavljajo prebivalce Slovenije nad 65 let, rumeni mlade pod 24 let. Zelena barva približno ustreza delovno aktivnemu prebivalstvu.

Prvi podatki naše zgodbe so podatki o testiranju na covid-19. Starostna struktura testirancev na spodnjem grafu se že vidno razlikuje od ozadja, torej celotnega prebivalstva. Najprej opazimo, da se mlade relativno malo testira — približno pol toliko, kot bi pričakovali glede na njihovo število. Tudi starejše skupine nad 65 let se testira manj, kot bi bilo sorazmerno njihovemu deležu; to pa ne velja za osebe nad 85 let (temno roza). Njih se testira približno dvakrat pogosteje. Delovno aktivne osebe med 24 in 65 let predstavljajo večji delež testiranih v primerjavi z njihovim deležem prebivalstva.

Drugo poglavje so (pozitivni) rezultati testiranja, prikazani v drugem stolpcu na spodnjem grafu. Tu vidimo, da je porazdelitev potrjenih okužb med starostnimi skupinami nekoliko bližje dejanski starostni strukturi prebivalstva, kar velja predvsem za osebe, starejše od 65 let (roza odtenki). Delovno aktivno prebivalstvo (zeleni odtenki) še vedno predstavlja nesorazmeren delež prebivalstva, in sicer na račun mladih pod 24 let (rumeni odtenki).

Iz razmerja med deležem ene starostne skupine v prvem in v drugem stolpcu lahko izračunamo delež pozitivnih testov za vsako starostno skupino (zakaj jih ne izračunamo, pojasnimo v nadaljevanju). Najnižji delež pozitivnih je za osebe nad 85 let, najvišji pa za skupino starih 5–14 let; visoki so tudi deleži za drugi dve skupini starostnikov skupini.

Naslednji podatek v naši primerjavi so hospitalizacije po starosti (tretji stolpec v spodnjem grafu). Tu vidimo dramatično razliko: starostniki nad 65 let — ki predstavljajo okoli 20 odstotkov prebivalstva, pa tudi testiranih in potrjenih okužb — zasedajo kar okoli dve tretjini bolniških postelj na covid oddelkih. Iz tega grafa lahko takoj razberemo pričakovan učinek precepljenosti skupine nad 65 let na zasedenost bolnišnic, saj predstavljajo največjo skupino bolnikov.

V naslednjem koraku lahko natančneje pogledamo še podatke o starosti bolnikov na intenzivnih enotah (četrti stolpec). Na prvi pogled je struktura podobna kot na navadnih oddelkih v bolnišnicah, toda z dvema pomembnima razlikama. Med njimi namreč pravzaprav ni mladostnikov, kar je pričakovano, morda bolj presenetljivo pa je, da ni bolnikov nad 85 let. Razlog je, da so tako stari bolniki praviloma prešibki, da bi preživeli intenzivno nego, saj gre za precej agresivno zdravljenje.

Zadnja prikazana skupina podatkov so smrti po starostnih skupinah. V zadnjem stolpcu vidimo, da je kar 95 odstotkov vseh smrti v starostni skupini nad 65 let. Kar polovica vseh smrti zaradi covida-19 je v starostni skupini nad 85 let. Tukaj se bo torej najbolj očitno poznal učinek cepljenja, saj so ravno te skupine prednostno cepljene.

Prikazana je torej preprosta, hitra analiza, ki temelji le na podatkih o starostni strukturi. Ti podatki so enostavni in razumljivi, a vseeno nudijo pomemben vpogled v epidemiološko situacijo. Iz njihove primerjave lahko vidimo, kako se dostopnost testiranja razlikuje glede na starostne skupine: koga testiramo več in koga manj. Iz tega lahko izračunamo deleže pozitivnih po starosti, kar nam daje večji vpogled v dinamiko širjenja epidemije. Na podlagi teh podatkov lahko natančneje predvidevamo širjenje virusa in s tem potrjene primere, potrebe po hospitalizacijah in tudi pričakovano število umrlih. Ne nazadnje lahko iz teh podatkov predvidimo tako učinke rasti primerov, kot tudi cepljenj — predvsem na zasedenost bolnišnic in na število smrti.

S to zgodbo o uporabnosti obravnavanih podatkov je samo ena težava. V resnici teh podatkov sploh nimamo! Na spodnjem grafu lahko vidite dejanske podatke, ki so javno dostopni in jih lahko resnično primerjamo; to sta le starostni strukturi potrjenih primerov in umrlih. S sivo označeni podatki se sicer zbirajo, a javnosti s strani uradnih institucij dostop ni omogočen. Žal.

Seveda si podatkov v grafih nismo izmislili. S pomočjo ljudi, ki razumejo pomen podatkov, smo v raziskovalne namene pridobili dejanske — a omejene — podatke o testiranjih za enega od nacionalnih laboratorijev ter podatke o hospitalizacijah za eno od bolnišnic [1]. Podatki torej obstajajo in se zbirajo. Toda prikazani podatki niso reprezentativni za celotno državo. Poleg tega so podatki na voljo samo za en določen dan in niso rezultat rednega podatkovnega toka, iz katerega bi lahko sklepali o trendih skozi čas. Zato morate celotno analizo, ki ste jo ravnokar prebrali, jemati z velikim ščepcem soli.

Namen tega članka seveda ni bila analiza sama, temveč plastičen prikaz podatkovne luknje, v kateri poteka naša epidemija. Tragedija zgodbe je, da se vsi ti podatki zbirajo, in sicer dnevno: v svoje računalnike jih vnašajo medicinske sestre, analitiki, poročevalci, administratorji. Žal pa se po našem vedenju tako zbrani podatki nikjer na sistematičen način ne združujejo in analizirajo, s tem pa ostajajo večinoma neizkoriščeni.

Govorimo o anonimiziranih podatkih, pri katerih ni nobene nevarnosti razkritja osebnih podatkov. O podatkih, ki potrebujejo minimalno obdelavo, preden bi bili lahko primerni za javno objavo. O podatkih, pri katerih ni potrebno veliko domišljije, da lahko razumemo, kako uporabni bi bili za spremljanje in razumevanje epidemije. A niso.

Kateri so ti podatki, ki bi nam omogočili bistveno bolje razumeti stanje in potek epidemije v Sloveniji? To smo podrobno opisali v članku Kaj hočemo jutri.

V velikih organizacijah je povsem normalno, da se podatki zbirajo, še preden je povsem jasno, za kaj vse bi lahko bili uporabni. Povsem razumljivo je tudi, da v dani situaciji mnoge od teh ustanov nimajo dovolj človeških in drugih virov, da bi lahko izkoristile podatke, ki jih pravzaprav imajo. Toda nič od tega ni in ne sme biti ovira za javno objavo teh podatkov. Z odprtim deljenjem podatkov se ustvarja neprecenljiva dodana vrednost, od katere imamo korist vsi. Čas pandemije pa je najslabši čas za to, da ne izkoriščamo potenciala, ki se skriva v podatkih, še manj pa potenciala zainteresirane javnosti, ki bi te podatke lahko povezovala in združevala v splošno dobro. Večja odprtost podatkov pomeni boljše razumevanje razmer in vodi k delovanju, ki lahko na osnovi prav teh podatkov rešuje življenja.

To nam že leta govorijo raziskave. To nam od lani priporoča svetovna zdravstvena organizacija [2]. To nam dokazujejo primeri držav, kjer epidemijo uspešno obvladujejo. Zakaj jih ne slišimo?

[1]: Gre za podatke o 2100 pozitivnih testih, ki jih je 22.1.2021 opravil IMI v Ljubljani, ter za podatke o 319 bolnikih v UKCLJ dne 26.1.2021.

[2]: Svetovna zdravstvena organizacija je že marca 2020 izdala priporočili glede spodbujanja uporabe podatkov in povečevanja njihovega učinka s ciljem boljšega obvladovanja pandemije covid-19.

--

--

Sledilnik.org
sledilnik

Na sledi COVID-19; ažurirani, zbrani, analizirani in pregledni podatki — za boljši pregled, pravilno oceno tveganja in učinkovito ukrepanje!