A népesség statisztikai adatainak hasznosítása egészségi index becslésre gépi tanulás segítségével
A rutinszerű lakossági statisztikai felmérésekből nagy számban állnak rendelkezésre értékes szocio-demográfiai adatok (például életkor, nem, lakóhely, iskolázottság). Az Eurostat alapvető egészségi állapot jellemzők gyűjtését is javasolja lakossági felmérésekben egy három kérdésből álló mérce, az úgynevezett Minimum Európai Egészségmodul (MEHM) alkalmazásával. Az új, innovatív orvostechnikai eszközök és egészségügyi technológiák által elérhető egészség-javulás kimutatásához szükséges életminőség adatok azonban többnyire hiányoznak. A témában Prof. Dr. Péntek Márta DSc, a kutatás vezetője adott tájékoztatást.
Korábbi lakossági kérdőíves felméréseinkből egy több mint kilencezer fős adatbázist hoztunk létre és 14 különböző gépi tanulási algoritmust hasonlítottunk össze, mennyire pontosan becsülhető meg az EQ-5D-5L index csak az alapvető szocio-demográfiai adatokból, illetve MEHM adatok hozzáadásával. Az eredmények szerint az AdaBoost modell nyújtotta a legjobb teljesítményt, különösen akkor, ha az adathiányokat nem pótlással, hanem a hiányos adattal rendelkező résztvevők adatainak törlésével kezeltük. Az algoritmikus torzítás annak ellenére megfigyelhető volt, hogy a legjobb modellt egy olyan mutató alapján (G-metrika) választottuk ki, amely a torzításmentes becsléseket részesíti előnyben. A súlyosabb egészségi állapotokban a modellek torzítása továbbra is kihívást jelent.
Kutatásunk rámutatott, hogy a meglévő statisztikai adatkincs hasznosítása a mesterséges intelligencia segítségével hatékony kiegészítő eszköz lehet az egészséggazdasági elemzésekhez szükséges EQ-5D-5L index adatok becslésében, amikor a közvetlen adatgyűjtés (mint arany standard) nem áll rendelkezésre.
Publikáció: Áron Hölgyesi, Zsombor Zrubka, Mehdi Neshat, Viktor Jáger, Áron Kincses, Levente Kovács, László Gulácsi, Seyedali Mirjalili, Márta Péntek. Improving the value of population health data for health policy and decision-making using machine learning algorithms in EQ-5D-5L index estimation. Sci Rep 16, 4329 (2026). https://doi.org/10.1038/s41598-025-32123-6
Támogatás: A kutatás a Nemzeti Kutatási, Fejlesztési és Innovációs Alap (TKP2021-NKTA-36) „Innovatív és digitális egészségipari technológiák fejlesztése és értékelése - Digitális orvostechnikai eszközök értékelése: hatásosság, biztonságosság és társadalmi hasznosulás” támogatásával valósult meg az Óbudai Egyetemen.