▷ Ovaj novi AI model može tihe riječi pretvoriti u zvučni govor

Napomena: Sljedeći članak će vam pomoći: Ovaj novi AI model može tihe riječi pretvoriti u zvučni govor

Nedavno su istraživači s UC Berkeley predstavili novi model umjetne inteligencije koji može pretvoriti tiho izgovorene riječi u zvučni govor. Zadatak digitalnog izgovaranja tihog govora temelji se na mjerenjima senzora elektromiografije (EMG) koja hvataju mišićne impulse. Istraživači su tvrdili da su oni prvi koji su trenirali iz EMG-a prikupljenog tijekom tiho artikuliranog govora.

Prema istraživačima, digitalno izgovaranje tihog govora ima široku lepezu potencijalnih primjena. Uveli su metodu obuke na tihom EMG-u prijenosom audio ciljeva iz vokaliziranih u tihe signale. Korištenjem mišićnih senzorskih mjerenja pokreta govornog artikulatora, istraživači su imali za cilj uhvatiti tihi govor – izgovore koji su artikulirani bez stvaranja zvuka.

Kako je ovo istraživanje drugačije

Prethodno je nekoliko istraživača pokušalo pretvoriti EMG signale u govor. Međutim, one su bile usredotočene na umjetni zadatak oporavka zvuka iz EMG-a koji je snimljen tijekom vokaliziranog govora, a ne na zadatak krajnjeg cilja generiranja iz tihog govora. Ovo novo istraživanje razlikuje se od prethodnih jer su istraživači pokušali generirati zvučni govor iz tihog govora. Izjavili su: “Posebno se usredotočujemo na zadatak koji nazivamo digitalno izražavanje ili generiranje sintetičkog govora za prijenos ili reprodukciju.”

Mehanizam iza

Prema istraživačima, tihi govori se otkrivaju pomoću elektromiografije (EMG). Prikupili su EMG mjerenja tijekom vokaliziranog govora, što je normalna proizvodnja govora koja ima vokalizaciju, trenje i druge govorne zvukove, kao i tihog govora, što je artikulacija slična govoru koja ne proizvodi nikakav zvuk.

Kako bi snimili informacijski pokret artikulatora, istraživači su koristili površinsku elektromiografiju (EMG). Površinski EMG koristi elektrode postavljene na vrh kože za mjerenje električnih potencijala uzrokovanih aktivnošću mišića u blizini. Postavljanjem elektroda oko lica i vrata, istraživači su uspjeli uhvatiti signale iz mišića u govornim artikulatorima.

Istraživači su stvorili novi skup podataka tihih i vokaliziranih EMG mjerenja lica za ovaj konkretni projekt. Prikupili su skup podataka EMG signala i vremenski usklađenog zvuka iz jednog zvučnika tijekom tihog i vokaliziranog govora. Skup podataka sadrži gotovo 20 sati EMG signala lica iz jednog zvučnika.

Izjavili su: “Koliko znamo, najveći javni EMG-govorni skup podataka koji je dosad bio dostupan sadrži samo dva sata podataka, a mnogi radovi i dalje koriste privatne skupove podataka.” Dodali su: “Nadamo se da će ova javna objava potaknuti razvoj zadatka i omogućiti poštene usporedbe između metoda.”

Tehnologija iza

Prema istraživačima, metoda je izgrađena oko ponavljajućeg modela neuralne transdukcije od EMG značajki do vremenski usklađenih značajki govora. Kako bi generirali zvuk iz predviđenih govornih značajki, koristili su WaveNet dekoder, koji generira audio uzorak po uzorak uvjetovan govornim značajkama Mel-frekventnih kestralnih koeficijenata (MFCC).

Početni korak za pretvaranje EMG ulaznih signala u audio izlaze je korištenje dvosmjernog LSTM-a za pretvaranje između istaknutih verzija signala. LSTM model sastoji se od tri dvosmjerna LSTM sloja s 1024 skrivene jedinice, nakon čega slijedi linearna projekcija na dimenziju značajke govora.

Primjene ovog modela

Istraživači su izjavili da je model umjetne inteligencije pokazao poboljšanu razumljivost zvuka generiranog tihim EMG-om u usporedbi s osnovnom linijom koja trenira samo s vokaliziranim podacima.

Ovaj AI model ima nekoliko važnih primjena, kao što su:

Model može omogućiti govornu komunikaciju bez ikakvog proizvedenog zvuka. Može se upotrijebiti za izradu uređaja analognog Bluetooth slušalicama koji omogućuje ljudima da vode telefonske razgovore bez ometanja onih oko sebe. Može biti koristan u postavkama gdje je okruženje preglasno za snimanje govora ili gdje je važno održati tišinu. Također, ovaj AI alat mogu koristiti ljudi koji više nisu u stanju proizvesti zvučni govor, kao što su pojedinci kojima je grkljan uklonjen zbog traume ili bolesti. Digitalno izražavanje za tihi govor može biti korisno kao komponenta tehnologije za stvaranje tihog govora -tekstualni sustavi, čineći tihi govor dostupnim uređajima i digitalnim pomoćnicima iskorištavanjem postojećih visokokvalitetnih sustava govora u tekst temeljenih na zvuku.

Pročitajte rad ovdje.

Table of Contents

Ovaj novi AI model može tihe riječi pretvoriti u zvučni govor

Kako je ovo istraživanje drugačije

Mehanizam iza

Tehnologija iza

Primjene ovog modela

Preporučeno: