Vijesti o Tehnologiji, Recenzije i Savjeti!

Nova metoda za procjenu izvedbe modela obučenih sintetičkim podacima kada se primjenjuju na podatke iz stvarnog svijeta

Napomena: Sljedeći članak će vam pomoći: Nova metoda za procjenu izvedbe modela obučenih sintetičkim podacima kada se primjenjuju na podatke iz stvarnog svijeta

Modeli kreditnog bodovanja ključni su u procjeni i upravljanju kreditnim rizikom unutar financijskih institucija. Međutim, ograničen je zbog izazova u dobivanju podataka od financijskih institucija radi zaštite osobnih podataka zajmoprimaca. Generativni modeli za generiranje sintetičkih podataka mogu pružiti rješenje stvaranjem sintetičkih podataka koji nalikuju podacima iz stvarnog svijeta, omogućujući istraživanje bez ugrožavanja privatnosti. Sintetički podaci također mogu poboljšati točnost modela kreditnog bodovanja povećanjem ograničenih podataka iz stvarnog svijeta.

Korištenje sintetičkih podataka u kreditnom bodovanju uglavnom je ograničeno na rješavanje neuravnoteženih podataka u problemima klasifikacije korištenjem tehnika kao što su SMOTE, varijacijski autokoderi i generativne kontradiktorne mreže. Ove su metode predložene i korištene u novijim studijama za generiranje sintetičkih podataka koji se mogu koristiti za uravnoteženje manjinske klase i poboljšanje točnosti modela kreditnog bodovanja. Nedavno je novi dokument predstavio novi okvir za obuku modela kreditnog bodovanja na sintetičkim podacima i njihovu primjenu na podatke iz stvarnog svijeta, dok je također analizirao sposobnost modela da se nosi s pomicanjem podataka. Glavni nalazi sugeriraju da je moguće uvježbati model na sintetičkim podacima koji ima dobru izvedbu, ali uz trošak izvedbe za rad u okruženju koje čuva privatnost, što rezultira gubitkom moći predviđanja.

U predloženom radu koristi se skup podataka koji je osigurala financijska institucija, a koji uključuje financijske informacije zajmoprimca i značajke društvene interakcije tijekom dva razdoblja, siječnja 2018. i siječnja 2019., od kojih svako sadrži 500.000 pojedinaca. Zajmoprimci su označeni na temelju njihovog ponašanja u plaćanju u sljedećem 12-mjesečnom razdoblju promatranja. Za generiranje sintetičkih podataka koji oponašaju ponašanje u stvarnom svijetu i održavaju privatnost, dva najsuvremenija generatora sintetičkih podataka, CTGAN i TVAE, uspoređuju se pomoću različitih konfiguracija, a odabire se najbolji. Zatim se novi sintesajzer obučava korištenjem najbolje konfiguracije, a skup značajki se proširuje značajkama društvene interakcije. Naposljetku, predlaže se okvir za procjenu kreditne sposobnosti zajmoprimaca, korištenjem odabira značajki i sheme unakrsne provjere K-zbroja. Učinkovitost se procjenjuje pomoću različitih metrika, kao što su AUC, KS i F1-rezultat.

Autori su implementirali metodologiju korištenjem Pythonovih biblioteka Networkx i Synthetic Data Vault. Performanse dva generatora sintetičkih podataka, CTGAN i TVAE, uspoređivane su pomoću dvije različite arhitekture i različitih skupova značajki. Rezultati pokazuju da je TVAE imao brže vrijeme izvršenja i bolju izvedbu u sintetiziranju kontinuiranih i kategoričkih značajki. Dodatno, logistički regresijski model obučen je za razlikovanje stvarnih i sintetičkih podataka, a rezultati pokazuju da je TVAE postigao najbolju izvedbu. Ipak, ova se izvedba smanjila kako je više značajki uključeno u sintesajzer. Autori su usporedili učinkovitost modela procjene kreditne sposobnosti obučenih na sintetičkim podacima i podacima iz stvarnog svijeta. Obučavali su klasifikatore korištenjem podataka iz stvarnog svijeta i testirali njihovu izvedbu pomoću skupova podataka zadržavanja. Rezultati pokazuju da je algoritam povećanja gradijenta postigao bolju izvedbu u usporedbi s logističkom regresijom. Također su obučili klasifikatore koristeći sintetičke podatke i primijenili ih na podatke iz stvarnog svijeta. Rezultati pokazuju da je izvedba modela bila slična kada se trenirao na sintetičkim podacima, osim u jednom slučaju. Usporedba izvedbe između modela obučenih na sintetičkim podacima i podataka iz stvarnog svijeta pokazuje trošak korištenja sintetičkih podataka, što odgovara gubitku prediktivne moći od približno 3% i 6% kada se mjeri u AUC odnosno KS.

U ovom članku predstavili smo studiju koja koristi sintetičko generiranje podataka za istraživanje kreditnog bodovanja uz zaštitu privatnosti zajmoprimaca. Predloženi okvir obučava modele na sintetičkim podacima i primjenjuje ih na podatke iz stvarnog svijeta dok analizira njihovu sposobnost da se nose s pomicanjem podataka. Rezultati pokazuju da modeli obučeni na sintetičkim podacima mogu imati dobre rezultate, ali uz gubitak prediktivne moći. Studija je također otkrila da TVAE ima bolju izvedbu od CTGAN-a, a postoji i trošak u smislu gubitka prediktivne moći pri korištenju sintetičkih podataka.