Baseline je model baziran na stablima. Napravljen je u R-u i u Pythonu na originalnim podatcima s kojima radite u SPE-u. Zadatak je nezgodan zbog svoje prirode, ali mogu se ostvariti i bolji rezultati od baseline-a.
Razumijemo. Ono što nam je čudno jest veliki pad MCC-a naših modela na leaderboardu. Lokalno na SPE-u mjerimo više od baselinea na podskupu koji nije korišten za učenje modela.
Ja sam osobno imao isti problem, i dok je zadatak primila kolegica s više iskustva modelu je postavila je nekoliko uvjeta, ključnih uvjeta zbog prirode problema i dobivala je kontinuirano konzistentne rezultate +- 0.01 MCC, ovisno o postavljenom seedu.
Ja mislim da je bude kolega jos jednom provjerio. Nismo nista shufflali nakon odvajanja labela. Zapravo nismo uopce shufflali podatke samo smo pobrisali i odvojili labele.
Nakon svih analiza i eksperimenata koje smo napravili, imamo razloga zaključiti da proces označavanja podataka na skupu za treniranje nije istovjetan onome na testnom (pod)skupu.