1. Definicija prediktivnog problema i podaci
Problem predviđanja rizika rane rehospitalizacije predstavljen je kao binarni klasifikacijski problem, u kojem pozitivnu klasu (labela 1) predstavljaju slučajevi rane rehospitalizacije, t.j. slučajevi kada se pacijent nakon hospitalizacije ponovno vraća u bolnicu unutar 30 dana od otpusta. Ostali slučajevi predstavljaju klasu negativnu klasu (labela 0 u podacima).
Prediktorske varijable (opis varijabli), predstavljaju podatke nakon hospitalizacije pacijenta, a uključuju osnovne antropometrijske mjere, podatke o boravku u jedinici intenzivne njege, o osnovnoj dijagnozi pacijenta pri otpustu iz bolnice nakon hospitalizacije.
Sintetski skup podataka koji je kreiran koristeći originalni skup podataka, podijeljen je na trening i test skup (~ 75% / 25%).
2. Evaluacija rješenja
U sklopu evaluacije prediktivnog modela tokom prvog kruga natjecanja timovi mogu slati predikcije svojeg modela na testnom skupu radi procjene svojeg pristupa gradnji prediktivnog modela. Predikcije modela evaluiraju se na slučajnom podskupu testnog skupa podataka (validacijski podskup ~ 50% testing skupa).
U prvom krugu, natjecateljski timovi imaju pravo na maksimalno 10 takvih preliminarnih procjena modela. Zadnji skup predikcija natjecateljskog tima uzima se kao referentan za finalnu evaluaciju modela na testnom skupu i rangiranje timova u prvom krugu natjecanja.
3. Mjere za ocjenu točnosti modela
Evaluacija rješenja temelji se na tri mjere vezane uz točnost/kvalitetu klasifikatora:
- MCC – Mathew’s correlation coefficient
- AUC – Area Under ROC Curve
- H – H-measure
4. Podaci i primjer datoteke s validnim rješenjem
Podaci za treniranje modela i testiranje nalaze se u data folderu na FTP serveru Organizatora.
Format validnog rješenja, odnosno datoteke za evaluaciju modela:
Ime tima, redni broj pokušaja
1, 0.65 # y’, p(class=1) – procjenjena labela primjera, vjerojatnost za pozitivnu klasu
0, 0.1
0, 0.05
5. Slanje preliminarnih rješenja i tablica rezultata
Preliminarna rješenja se šalju putem FTP upload-a na server Organizatora.
Naziv datoteke s rješenjem: ImeTima_redniBrojRješenja.csv (npr. jakodobartim_3.csv)
Svaki od natjecateljskih timova stavlja svoja preliminarna rješenja u folder submissions. Na kraju svakog radnog dana Organizator će izvršiti evaluaciju novo-pristiglih rješenja i osvježiti rang listu rezultata.
Timovi dostavljaju anotacije dobivene modelom na testnom skupu, na način i u prethodno navedenom formatu. Sudionici (članovi registriranih timova) mogu predati najviše jedno rješenje dnevno, te maksimalno 10 preliminarnih rješenja tijekom natjecanja. Trenutni poredak timova na osnovu preliminarnih rješenja, za zadatak (i) biti će vidljiv tijekom Natjecanja na web stranici Natjecanja (“Ljestvica rezultata (leaderboard)”).
Za anotaciju testnih primjera ne smije se koristiti ručno označavanje, odnosno ljudsko predviđanje.
6. Ograničenje na broj evaluacija preliminarnih rješenja
- tijekom natjecanja Timovi mogu uploadati najviše 1 rješenje dnevno na validacijskom skupu
- Timovi mogu uploadati do najviše 10 rješenja na server
- Za preliminarna rješenja (pokušaje) Organizator će vršiti evaluaciju na validacijskom podskupu testnog skupa
- Za konačnu evaluaciju modela Organizatori će izvršiti na evaluaciju na cjelokupnom testnom skupu podataka.
- Konačna rješenja na testnom skupu podataka moraju biti zaprimljena prije isteka roka za prvi krug Natjecanja.
- Za konačnu evaluaciju na testnom skupu koristiti će se zadnje uploadano rješenje Tima na testnom skupu!