▷ Uklonite svoja ograničenja: ovaj pristup umjetne inteligencije koristi modele difuzije za omogućavanje segmentacije objekata otvorenog rječnika

Napomena: Sljedeći članak će vam pomoći: Uklonite svoja ograničenja: ovaj pristup umjetne inteligencije koristi modele difuzije za omogućavanje segmentacije objekata otvorenog rječnika

Segmentacija objekta je temeljni problem polja računalnog vida. Koristi se u mnogim primjenama, od autonomne vožnje preko nadzora do robotike. Ovdje je cilj točno identificirati granice objekata na slici i dodijeliti oznaku svakom pikselu koja označava objekt kojem pripada. Na kraju ćete dobiti istaknuti dio za svaki objekt na vašoj slici.

Nedavni napredak u dubokom učenju učinio je segmentaciju objekata relativno lakim problemom za rješavanje, iako izazovni scenariji i dalje ostaju otvoreno pitanje. To je još uvijek aktivno područje istraživanja, a razvijeni su mnogi sofisticirani algoritmi za rješavanje raznih problema.

Jedan od glavnih problema u modelima segmentacije objekata su njihovi ograničeni rječnici. Većina postojećih modela može segmentirati samo objekte koje su vidjeli tijekom obuke. Ako imate model segmentacije životinja obučen samo na slikama mačaka i pasa, on neće segmentirati pandu na slici.

Bilo je više pokušaja da se to riješi “zatvoreno” rječnik modela segmentacije objekata. Međutim, malo je radova uspjelo pružiti jedinstveni okvir koji može analizirati sve instance objekta i semantiku scene istovremeno.

Većina aktualnih pristupa za prepoznavanje otvorenog vokabulara oslanja se na velike modele diskriminacije teksta i slike. Iako su ovi unaprijed uvježbani modeli dobri u klasificiranju pojedinačnih prijedloga objekata ili piksela, oni nisu nužno optimalni za izvođenje strukturalnog razumijevanja na razini scene. Štoviše, često im nedostaje prostorno i relacijsko razumijevanje, što je usko grlo za panoptičku segmentaciju otvorenog vokabulara.

Kako ih možemo naučiti predmetima koje nisu vidjeli tijekom obuke? Kako možemo vokabular modela segmentacije objekata učiniti an otvoren jedan? Vrijeme je za upoznavanje ODISE, Otvoreni vokabular Panoptička segmentacija temeljena na difuziji.

ODISE predlaže se na temelju zapažanja da su modeli difuzije teksta u sliku izvrsni u razumijevanju tekstualnih upita. Mogu prepoznati tisuće objekata i doći do kontekstualnog razumijevanja. Dakle, ako mogu ići od teksta do slike, zašto ih ne koristiti obrnuto i ići od slike do teksta?

ODISE koristi modele difuzije velikih razmjera i diskriminativne modele teksta i slike. Na visokoj razini, sadrži unaprijed uvježban model difuzije zamrznutog teksta u sliku u koji se unose slika i njezin opis. Zatim se izdvajaju unutarnje značajke difuzijskog modela. Uz ove značajke kao ulazne podatke, generator maski proizvodi panoptičke maske svih mogućih koncepata na slici. Modul klasifikacije maske zatim kategorizira svaku masku u jednu od mnogih kategorija otvorenog vokabulara pridružujući difuzijske značajke svake predviđene maske s tekstualnim ugrađivanjem nekoliko naziva kategorija objekata. Jednom obučen, ODISE izvodi panoptičko zaključivanje otvorenog vokabulara s difuzijom teksta i slike i diskriminativnim modelima za klasificiranje predviđene maske.

ODISE je prvi rad koji istražuje velike modele difuzije teksta u sliku za zadatke segmentacije otvorenog vokabulara. Predlaže novi cjevovod za učinkovito iskorištavanje difuzije teksta i slike i diskriminativne modele za izvođenje panoptičke segmentacije otvorenog vokabulara. ODISE nadmašuje sve postojeće osnovne linije na mnogim zadacima prepoznavanja otvorenog vokabulara, značajno unapređujući polje naprijed.

Uklonite svoja ograničenja: ovaj pristup umjetne inteligencije koristi modele difuzije za omogućavanje segmentacije objekata otvorenog rječnika

Preporučeno: