Vijesti o Tehnologiji, Recenzije i Savjeti!

Zašto skala ne bi trebala biti naknadna misao pri razvoju AI/ML modela

Napomena: Sljedeći članak će vam pomoći: Zašto skala ne bi trebala biti naknadna misao pri razvoju AI/ML modela

“Kada tim počne rješavati probleme, oni razmišljaju malo. Iako u početku mogu postići dobre rezultate, izazovi počinju izlaziti na površinu s skaliranjem. Stvarni učinak prikazan na MVP-u ili malom prototipu postaje razvodnjen i nema čak ni smisla implementirati ga u proizvodnju jer nedostaje aspekt skaliranja,” rekao je Nitin Aggarwal, voditelj Cloud AI Industry Solution Services (Indija) u Google, na konferenciji MLDS.

Evo nekoliko činjenica koje treba razmotriti:

– Oko 80 posto strukture podataka poduzeća je nestrukturirano.

– Oko 70 posto je skoro free teksta, dokumenata, e-pošte i komentara.

– Manje od 1 postotak stvarnih podataka je analiziran.

– Oko 50 posto strukturiranih podataka jedva da se koristi za donošenje ikakvih odluka.

Nitin je rekao da AI vidi kao timski sport u kojem svatko ima svoj način rada i svoju ulogu u rješavanju velikih problema. Ali u inženjerstvu velikih razmjera znanstvenici koji se bave podacima igraju ključnu ulogu u ostvarivanju utjecaja.

Evolucija

– U 70-ima su inženjeri primjenjivali stabla odlučivanja kako bi upravljali ishodima strojeva

– U 90-ima su brža računala i softver utrli put primjeni statistike za postizanje superiornih rezultata

– 2010. godine Deep Learning otvorio je mogućnost rješavanja prethodno nerješivih problema.

– Sada tvrtke gledaju na AI kao na sastavni dio razvoja proizvoda i operativne učinkovitosti.

AI više nije samo usluga mišljenja. Tvrtke ugrađuju AI kao sastavni dio svog razvoja kako bi generirale znanje i vrijednost.

Proces razmišljanja kroz spektar AI/ML projekata

Postoje četiri vertikale kroz koje svaki ML projekt treba proći: roba, procedura, sijeda kosa i raketna znanost.

1. Roba je najmanje tehnički posao za ML; vi samo ugrađujete AI/ML ili samo pozivate tekst u govor ili govor u tekst, baš kao da pozivate OCR.

2. Procedura, gdje ste u prošlosti posložili stvari, sada imate sustavan i sveobuhvatan pristup. Izvana imate zrelu metodologiju i želite slijediti pravi proces. Želite istražiti neka od unaprijed izgrađenih rješenja. Sada možete raditi na punom skupu podataka jer su ukupna implementacija i rizik vrlo niski, ML vještine koje su potrebne vrlo su manje, a većina skupa vještina koji će biti potreban odnosi se na razvojnog programera softvera.

3. Sijeda kosa trenutačno je najveći element jer mnogi žele izraditi prilagođena rješenja i koristiti automatski ML. Organizacije ostvaruju veliku vrijednost jer su rizici visoki, troškovi visoki i potrebne su vještine ML-a. Ovdje dolazi do skaliranja. Možete početi s uzorkom, ali vaš pristup od kraja do kraja mora biti skalabilan. Mora funkcionirati s vašom poslovnom ljestvicom; inače neće uspjeti.

4. Raketna znanost: Radite na visokoj razini istraživanja problema koji nikada nije riješen. Imate sposobnost rješavanja složenih izazova vrlo inovativnim rješenjima. To je visok rizik i zahtijeva visoke ML vještine. Morate početi s malim, a skalabilnost dolazi na kraju jer želite testirati hoće li ovaj određeni pristup funkcionirati ili ne.

Čarobna piramida

Većina podataka nalazi se u silosima koji dolaze iz različitih sustava i u različitim su formatima. Ove će stvari izravno utjecati na vaš cjevovod za obradu podataka. Dakle, pomoglo bi kada biste imali vrlo robusnu bazu podataka o dizajnu sustava za rad na lozi podataka.

Simpsonov paradoks je klasičan primjer rada na vrlo malom problemu. Nećete moći vidjeti utjecaj Simpsonova paradoksa kada počnete raditi na važnoj značajci, ali kada počnete povećavati stvari, važnost vaše značajke drastično se mijenja. A tijekom pretprocesiranja odbacili smo i zanemarili nekoliko značajki koje bi trebale biti vrlo važne pri rješavanju problema na razini. Svaka značajka zahtijeva različite transformacije kada podaci dolaze iz različitih sistemskih procedura.

Trening

Kada želite izgraditi sofisticirani model i početi raditi na njemu, odabir metoda ispisa promijenit će način na koji želite koristiti taj model, kada ćete implementirati taj model i kako ćete izvoditi paralelne eksperimente.

Evaluacija modela

U većini znanosti vidjet ćete preciznost prisjećanja, ocjenu napora, točnost, srednju vrijednost, MSE; ova vrsta tehničke metrike bit će važna, ali tijekom određenog vremenskog razdoblja vidjet ćete povećavate li stvari: latencija, propusnost, vrijeme postavljanja, održavanje, kako se sustavi ponašaju sinkronizirano naspram asinkronizovanog postaju još važniji.

Krajnja točka i predviđanja utakmica.

Kada implementirate model, treba uzeti u obzir kako se nosite sa složenošću implementacije, kakvu postavku implementacije namještaja, kakvu vrstu balansera opterećenja ćete koristiti. Svaka će odluka izravno utjecati na vašu implementaciju, arhitekturu modela i strategiju rješenja.