Vijesti o Tehnologiji, Recenzije i Savjeti!

Facebook Poklanja ovaj model prepoznavanja govora za Free

Napomena: Sljedeći članak će vam pomoći: Facebook Poklanja ovaj model prepoznavanja govora za Free

Istraživači na Facebook AI je nedavno predstavio i otvorio novi okvir za samonadzirano učenje prikaza iz neobrađenih audio podataka poznat kao wav2vec 2.0. Tvrtka tvrdi da ovaj okvir može omogućiti modele automatskog prepoznavanja govora sa samo 10 minuta transkribiranih govornih podataka.

Modeli neuronskih mreža stekli su veliku popularnost tijekom posljednjih nekoliko godina zahvaljujući svojim primjenama u raznim sektorima. Modeli rade uz pomoć golemih količina označenih podataka o treningu. Međutim, većinu je vremena izazovno prikupiti označene podatke nego neoznačene podatke.

Trenutačni sustavi prepoznavanja govora zahtijevaju tisuće sati transkribiranog govora da bi se postigla prihvatljiva izvedba. Ima okolo 7,000 jezika u svijetu i mnogo više dijalekata. Može se reći da je dostupnost transkribiranog govora za veliku većinu jezika još uvijek negativna.

Kako bi ublažili takve probleme, istraživači su otvorili okvir wave2vec. Okvir ima sposobnost učinkovitog razvoja automatskog prepoznavanja govora (ASR) za jezike s malo resursa.

Kako wav2vec 2.0 Djela

Nasljednik wav2vec modela, wav2vec 2.0 model uči osnovne govorne jedinice koje se koriste za rješavanje samonadziranog zadatka i obučava se za predviđanje ispravne govorne jedinice za maskirane dijelove zvuka dok istovremeno uči govorne jedinice.

wav2vec 2.0 koristi metodu samonadzora za pomicanje granica učenjem iz neoznačenih podataka o obuci kako bi omogućio sustave prepoznavanja govora za mnogo više jezika, dijalekata i domena.

U tehničkom smislu, wav2vec 2.0 maskira govorni unos u latentnom prostoru i rješava kontrastivni zadatak definiran preko kvantizacije latentnih reprezentacija koje su zajednički naučene.

Wav2vec 2.0 i drugi modeli

Slično modeliranju maskiranog jezika, ovaj okvir kodira zvuk govora putem višeslojne konvolucijske neuronske mreže i zatim maskira raspone rezultirajućih latentnih govornih reprezentacija.

Latentni prikazi se zatim šalju u mrežu Transformer za izgradnju kontekstualiziranih prikaza, a model se trenira putem kontrastivnog zadatka gdje se pravi latent treba razlikovati od distraktora.

Također, slično poznatom modelu BERT (Bidirectional Encoder Representations from Transformers), novi wav2vec 2.0 model se obučava predviđanjem govornih jedinica za maskirane dijelove zvuka.

Jedan veliki nedostatak BERT-a je taj što je zvuk govora kontinuirani signal koji hvata mnoge aspekte snimke bez precizne segmentacije u riječi ili druge jedinice. Wav2vec 2.0 rješava ovaj problem učenjem osnovnih jedinica koje su duge 25 ms kako bi se omogućilo učenje kontekstualiziranih prikaza visoke razine.

Te se jedinice zatim koriste za opisivanje mnogih različitih zvučnih zapisa govora i čine wav2vec robusnijim. Ova je značajka pomogla istraživačima da izgrade sustave za prepoznavanje govora koji mogu nadmašiti najbolje polunadzirane metode, čak i sa 100 puta manje označenih podataka o obuci.

Završavati

Prema postu na blogu, sa samo 10 minuta transkribiranog govora zajedno s 53 tisuće sati neoznačenog govora, ovaj novi model omogućuje modele prepoznavanja govora uz stopu pogreške riječi (WER) od 8.6 posto na bučan govor i 5.2 posto na čisti govor na standardnoj mjeri LibriSpeech.

U ovom istraživanju istraživači su pokazali da se modeli prepoznavanja govora mogu izgraditi s vrlo malim količinama označenih podataka uz vrlo dobru točnost. Prema istraživačima, ovaj je model otvorio vrata za modele prepoznavanja govora u mnogo više jezika, dijalekata i domena koji su prethodno zahtijevali hrpu transkribiranih audio podataka kako bi se osigurala prihvatljiva točnost.

Programeri su u postu na blogu izjavili: “Wav2vec 2.0 dio je naše vizije za modele strojnog učenja koji se manje oslanjaju na označene podatke, zahvaljujući samonadzornom učenju.” Dodali su: “Nadamo se da će algoritam omogućiti poboljšanu govornu tehnologiju za mnogo više jezika, dijalekata i domena te dovesti do poboljšanja za postojeće sustave.”

Kôd i unaprijed obučene modele stavili su na raspolaganje istraživači na GitHubu.

Pročitajte rad ovdje.