A koronavírus lassan egy éve itt van velünk, teljesen átszőtte a napjainkat, megváltoztatta az élet normális zajlását. Naponta jönnek a hírek, hányan haltak meg, mennyi az új fertőzött, mik a jövőbeli kilátások, dobálják egymás után random számokat a különböző médiumok. Hogy lép kapcsolatba az adatok és a koronavírus? Rettenetesen kényes téma, talán morbidnak is hathat egyeseknek, de kell ezekről beszélni, kell foglalkozni a koronavírusban elhunytak adataiból kinyerhető információkkal.
A védekezés szempontjából megkerülhetetlen a megfelelő adatok begyűjtése, rendszerezése és elemzése, ezek nélkül nem könnyű megfelelő stratégia kialakítása, ugyanakkor egy laikus számára nyújthat fontos információkat, lényeges kérdésekre adhat választ egy jól kialakított adatvizualizációs felület: mely korosztály a legveszélyeztetettebb, mely krónikus betegségek fordulnak elő a legtöbbször az elhalálozottak között, hogyan alakul a nemek közötti eloszlás, stb.
Az adatforrás
Nem állítok balgaságot, amikor azt mondom, hogy mindenki járt már legalább egyszer a https://koronavirus.gov.hu oldalon, ezenbelül is az elhunytak aloldalon, itt találhatóak az elhunytakkal kapcsolatos adatok, mint nem, kor és az alapbetegségek felsorolása. A cikk írásánál durván 14 ezer elhunyt adata található fent, több oldalon keresztül, ötvenesével.
Begyűjthetnénk ezeket az adatokat manuálisan, minden oldalról bemásolhatnánk őket egy Excel munkafüzetbe és különböző számításokat végezhetnénk rajtuk, de ki akarna ezzel foglalkozni nap, mint nap, amikor ezt automatizálni is lehet? Napjaink egyik kulcsszava lett az automatizáció, alapjaiban változtatja meg az életünket, a gazdaságot és a munkaerő piacot nem is említve. Elég egyszer jól kitalálni egy folyamatot és integrálni, onnantól kezdve nem is nagyon kell foglalkozni vele, az erőforrásainkat más feladatokra tudjuk fordítani. Itt lépnek a képbe a modern üzleti intelligencia / adatelemzési eszközök. Mi is az üzleti intelligencia? A Wikipédia megfelelő bejegyzése ezt írja erről: „Az üzleti intelligencia (angolul Business Intelligence, röviden BI) gyűjtőfogalom; magában foglalja azokat az alkalmazásokat, legjobb gyakorlatokat, eszközöket - beleértve az infrastruktúrát is -, amelyek lehetővé teszik, hogy megszerezhessünk és felhasználhassunk olyan információkat, amelyek fontosak ahhoz, hogy az üzleti döntéseket és így az üzleti teljesítményt javítsuk.
A modellezés
Ezek a modern adatelemzési eszközök képesek arra, hogy különböző adatforrásokhoz kapcsolódva extraktálják az ott található adatokat, átalakítja őket az elemzés szempontjából szükséges formába, valamint vizualizálják az eredményeket, mindezt természetesen automatizálva. Fontos megjegyezni, hogy ezek az eszközök nemcsak informatikai szakembereknek készültek, hanem akár egyszerű üzleti felhasználók is könnyen összerakhatják a riportot.
A kísérletemben két ilyen eszközzel is begyűjtöttem az adatokat. Az elemzést viszont még nem kezdhetjük el, tisztítani kell az adatokat, valamint megfelelő modellt kell létrehoznunk. Felmerül a kérdés, hogy miért is kell ebben az esetben tisztítani az adatokat? Ha csak egy pillantást veszünk a nem oszlopra látható, hogy a két nem leírása is több formában került bejegyzésre. Ez egy egyszerű probléma, könnyen megoldható. Az alapbetegségek szétbontása viszont már nem ilyen triviális. Egy elhunythoz az esetek nagyrészében több, mint egy krónikus betegség tartozik, így ezeket szét kell bontani.
Elérkeztünk a feladat legnehezebb részéhez. A szétbontás után kategóriákba kell rendezni a felsorolt betegségeket. Igen ám, de egy fajta betegség is többféleképpen található. Vegyük példának a magas vérnyomást: magas vérnyomás, magasvérnyomás-betegség, magasvérnyomás. Tudjuk, hogy ezek a kifejezések ugyanarra vonatkoznak, de a gép számára ez három különböző entitás. Sajnos ez a szabad szöveges mezők átka, nehéz jó eredményt elérni. Jelen analitika célja, hogy egy magasszintű csoportosítást tudjon adni, ezért különböző kulcsszavak előfordulását kerestem, amik egyértelműen besorolják az adott betegséget. Amennyiben mélyebben szeretnénk látni a covidos adatainkat, ahhoz bizony saját fordító táblát kell létrehoznunk, amiben minden egyes betegségnek lesz egy rendes általános megnevezése, amivel aztán érdekesebb kimutatásokat is lehetne létrehozni. Például mely betegség párok, csoportok szerepelnek a legtöbbször.
De térjünk vissza a magasszintű csoportosításhoz, egy példán keresztül szeretném bemutatni a csoportosítást: daganatos betegségnek számít minden olyan bejegyzés, amiben szerepel a daganat, rák vagy a tumor szavak. Felmerül a kérdés, hogy mi van abban az esetben, ha egy kicsivel is komplexebb a kifejezés? Vegyük a tüdőrákot, ebben egyszerre szerepel a tüdő és rák is, így egyszerre kapunk egy tüdővel kapcsolatos bejegyzést, valamint a daganatos megbetegedéshez is. A fő kérdésünk ugye az volt, hogy mely betegségek fordulnak elő a legtöbbször, de ha az a kérdés, hogy mely betegségek fordulnak elő közösen legtöbbször, akkor további transzformációt kell elvégeznünk, valamint néhány trükköt alkalmazni az adatmodell kialakításánál, valamint a mérőszámok megalkotásánál.
Az elemzés
Vegyük előre az egyszerűbb kérdéseket, hogy néz ki a nemek és a korok eloszlása?
A vizualizációt megtekintve látható, hogy egy kicsivel több a férfiak elhalálozása, 0,6 %-kal többen vannak, mint a nők.
Az elhunytak korát tekintve kijelenthetjük, hogy a legtöbben 75 és a 90 év közötti emberek voltak. A hisztrogramm görbéjét nézve a 60 év felettiek esetében történik egy-egy ugrásszerű növekedés.
Tegyük össze ezt a két dimenziót és vizsgáljuk meg az adatokat.
Amennyiben a korosztályokat nézzük, jól látható, hogy amíg a nőknél magasan a 80-as korosztály vezet, addig a férfiaknál a 70-es, valamint 80-as és 60-as kategóriák következnek. Érdemes lehet ezeket összevetni a magyarországi halálozási adatokkal, mennyire hoz hasonló arányokat.
Elérkeztünk az elemzésünk fő kérdéséhez. Mely betegségkategóriában szedi a legtöbb áldozatot a koronavírus? Még mielőtt megnéznénk az eredményt, szeretnék kihangsúlyozni pár igencsak fontos tényezőt:
az adatok minősége: felmerül a kérdés a hivatalos oldalon található adatok milyenek? Nem tisztem eldönteni, hogy mennyire tükrözik a valóságot. Ebből kell építkezni, talán más adatforrásokkal összefésülve egy fokkal árnyaltabb képet adhat.
Alapbetegségek osztályozása: amíg ez a mező szabad szöveges kitöltésű, addig sose lesz tökéletes az eredmény, ebből kifolyólag a saját csoportosításomat se mondanám hibátlannak, viszont arra, hogy arányokat megvizsgáljuk, arra ez is meg fogja tenni.
Lássuk a végeredményt:
Az első képen a különböző betegségek kategóriákat láthatjuk nemek szerint, a másikon a betegségkategóriák egymáshoz való arányát. Meghökkentő látni, hogy messze a szív és érrendszeri betegségek fordulnak elő a legtöbbször, jelen pillanatban majdnem 11 ezer esetben, az elhunytak durván 80%-nál ez volt az egyik alapbetegség. A második helyen a cukorbetegség, körülbelül 4 ezer esetben, a halottak 30%-ánál volt jelen. A „dobogó” harmadik fokánál a tüdővel kapcsolatos betegségek állnak, ám a vese-, valamint a daganatos betegségek is elég közel vannak.
Ez egy nagyon magasszintű eredmény, amit most láthattunk. Tisztább adatokkal, valamint egy dátum és helyszín adattal még sokkal több információt tudnánk szerezni magunknak. De addig is ne feledjük el, vigyázzunk magunkra és a szeretteinkre!
Ez a weboldal sütiket használ, hogy a lehető legjobb felhasználói élményt nyújthassuk. A cookie-k információit tárolja a böngészőjében, és olyan funkciókat lát el, mint a felismerés, amikor visszatér a weboldalunkra, és segítjük a csapatunkat abban, hogy megértsék, hogy a weboldal mely részei érdekesek és hasznosak.
Feltétlenül szükséges sütik
A feltétlenül szükséges sütiket mindig engedélyezni kell, hogy elmenthessük a beállításokat a sütik további kezeléséhez.
Amennyiben ez a süti nem kerül engedélyezésre, akkor nem tudjuk elmenteni a kiválasztott beállításokat, ami azt eredményezi, hogy minden egyes látogatás alkalmával ismételten el kell végezni a sütik engedélyezésének műveletét.