Vijesti o Tehnologiji, Recenzije i Savjeti!

Intervju: Znanost o podacima iza nove analize raspoloženja tvrtke Brandwatch

Napomena: Sljedeći članak će vam pomoći: Intervju: Znanost o podacima iza nove analize raspoloženja tvrtke Brandwatch

Ovog mjeseca Brandwatch je izbacio potpuno novi model osjećaja u više od 100 milijuna online izvora koje pokrivamo u Brandwatch Consumer Research, kao i u aplikacijama koje pokreće Brandwatch kao što su Cision Social Listening i Falcon Listen.

To je velika nadogradnja postojeće Brandwatchove analize osjećaja svjetske klase, pružajući oko 18% bolju točnost u prosjeku na prethodno podržanim jezicima.

Ovaj novi model također je višejezičan, što znači:

  • Dodana je službena podrška za 16 novih procijenjenih jezika, s još više (dovodeći trenutni ukupan broj službeno podržanih jezika na 44)
  • Model će također pokušati dodijeliti osjećaje objavama na bilo kojem drugom jeziku (i objavama bez identificiranog jezika, poput objava samo s emotikonima) kada je dovoljno siguran

Osjećaj je jedan od ključnih pokazatelja na koji se klijenti Brandwatcha oslanjaju za niz važnih zadataka kao što su:

  • Procjena zdravlja marke
  • Identificiranje zagovornika ili klevetnika
  • Otkrivanje novonastalih kriza
  • Razumijevanje pozitivnih i negativnih tema povezanih s robnom markom ili temom razgovora

Sjeo sam s jednim od podatkovnih znanstvenika koji predvodi tim koji je razvio naš novi model osjećaja, Colinom Sullivanom, da ga pitam kako funkcionira i kako će koristiti korisnicima Brandwatcha.

Bok Colin! Zaista smo uzbuđeni što možemo vidjeti plodove vašeg rada sada dostupne u Brandwatchovoj analizi raspoloženja. Prije nego što razgovaramo o ovom novom modelu osjećaja, recite nam nešto o sebi i svojoj pozadini.

Hvala Nick, i mi smo uzbuđeni! Ja sam voditelj znanosti o podacima koji vodi nekoliko različitih projekata ovdje u Brandwatchu, a moje iskustvo je u lingvistici i računalnoj lingvistici.

Lingvistika je u biti društvena znanost uključena u otkrivanje obrazaca i pravila koji upravljaju načinom na koji jezik funkcionira gledajući teorijsku pozadinu, sintaksu i semantiku jezika.

Računalna lingvistika proučava kako računala mogu modelirati te iste strukture i primijeniti te modele na stvari poput obrade prirodnog jezika, identifikacije jezika i kako se stvari indeksiraju. Također se koristi za analizu stvari poput osjećaja i tema unutar velikih količina tekstualnih podataka.

Ovo ažuriranje osjećaja koristi potpuno novi model. Zašto izgraditi novi način analize osjećaja?

Dva ključna razloga.

1. Htjeli smo skočiti na neke od najsuvremenijih metoda koje se pojavljuju u svijetu istraživanja. Posljednjih godina došlo je do stvarno uzbudljivih novih dostignuća koja nam mogu pomoći da postignemo još bolje rezultate.

2. Također smo vidjeli priliku da pojednostavimo način na koji izražavamo osjećaje u Brandwatchu. Koristili smo istu proceduru za svaki jezik koji smo podržavali, što je uključivalo prikupljanje cijele hrpe podataka o obuci za svaki jezik, njegovo označavanje, učenje o njegovim jezičnim obrascima i zatim izgradnju nadziranog modela učenja za svaki od njih. Prelaskom na ovu novu postavku imamo jednu metodologiju koja radi za više jezika odjednom.

Ovaj novi model koristi ‘transferno učenje’. Što je to točno?

Tijekom posljednjih nekoliko godina, polje umjetne inteligencije postiglo je uzbudljiv napredak s prijenosnim učenjem koje u osnovi uključuje prvo obuku modela za općenitije razumijevanje, a zatim prijenos tog učenja i traženje od njega da ga primijeni na drugačiji zadatak. Ovo je vrlo različito od osposobljavanja modela samo za rješavanje jednog, specifičnog problema, što je način na koji smo koristili analizu sentimenta.

Tako je naš novi model najprije obučen da ima opći osjećaj o tome kako se jezik koristi. Zatim poduzimamo sekundarni korak kako bismo taj model usmjerili na zadatak kao što je analiza raspoloženja.

Prvi korak vrlo je sličan načinu na koji funkcionira automatsko predlaganje sljedeće riječi. Model s dovoljno iskustva u jeziku koji koriste ljudi može početi predviđati koje će sljedeće riječi vjerojatno biti ako mu date neki tekst. Zatim tražimo od njega da ‘predvidi’ temu koja sažima značenje cijele rečenice ili objave na društvenim mrežama, u ovom slučaju teme su ‘pozitivne’, ‘negativne’ ili ‘neutralne’ – ponovno koristi sve iste informacije od prvog koraka.

To je zapravo način na koji vaš mozak radi kada slušate nekoga kako govori. Podsvjesno stalno pokušavate predvidjeti što će sljedeće reći kako biste ih bolje čuli i razumjeli.

Kako to pomaže Brandwatchu da bolje definira osjećaje nego prije?

Jedna od ključnih prednosti ovog novog pristupa je to što ga čini robusnijim kada se radi o složenijem ili nijansiranijem jeziku. Novi model može vidjeti stvari poput pravopisnih pogrešaka ili slenga.

Prethodno bi modeli učenja pod nadzorom bili ograničeni na fiksni skup poznatih obrazaca tijekom obuke, koji nisu bili ni blizu iscrpnom hvatanju svih lingvistički prihvatljivih načina izražavanja koncepta. Novi najsuvremeniji modeli bolje mogu ponovno koristiti ono što već znaju kada se suoče s novim ili rijetkim uzorcima.

Pristup prijenosnog učenja znači da će model uzeti ono što zna da popuni praznine. Na primjer, može rastaviti riječi koje ne zna na dijelove koji bi mu mogli dati tragove (baš kao što biste i vi!).

I funkcionira na gotovo svim jezicima jer se ne obučavamo svaki put za novi jezik. To također znači da može obraditi širi raspon regionalnih dijalekata i postova u kojima se netko prebacuje s jednog jezika na drugi.

Zbog čega će post biti označen pozitivnim ili negativnim? Traži li model ‘dobre’ ili ‘loše’ riječi ili fraze?

Model uzima u obzir kompletan kontekst dokumenta. Ono što je važno bit će red riječi – ne samo pozitivne ili negativne riječi. Na primjer, ako nešto ‘nije dobro’, negacija se lako razumije. Također će razumjeti stvari kao što su emojiji, sintaksa i osjetljivost na velika i mala slova.

Kada pogledate rezultate, čini se kao znanje iz stvarnog svijeta. Može početi zanemarivati ​​nazive tih izraza koji bi inače prenosili osjećaje u uobičajenoj upotrebi (npr. ljubazni barovi). Ako je vidio dovoljno primjera korištenja jezika na određeni način, moći će vidjeti čak i prošlost dvostruke negativnosti ili povremeno sarkazam, iako je to teže jer nema uvijek potrebno dodatno znanje o stvarnom svijetu.

Ipak, ako provedete neko vrijeme na Twitteru, mogli biste zaključiti da sami ljudi nisu baš vješti u otkrivanju sarkazma!

Ovaj novi model je višejezičan. Kako to funkcionira?

Predosposobljavanje je obavljeno s ogromnom količinom podataka na 104 jezika. Naš prvi korak bio je uzeti unaprijed uvježbani model i dodati mu mnogo više primjera teksta izvučenog iz društvenih medija. Ovaj je korak potreban kako bi se poboljšala njegova sposobnost modeliranja vrsta jezičnih obrazaca koji se pojavljuju na društvenim mrežama u usporedbi sa standardnim vijestima ili formalnim kontekstima.

Zatim smo izvršili nadzirani korak, gdje smo mu dali podatke o raspoloženju i usmjerili ga na problem otkrivanja pozitivnih ili negativnih objava. Upotrijebili smo samo 12 jezika odjednom, ali smo procijenili rezultate za 44 jezika i otkrili da je model naučio rukovati njima sa stvarno dobrom razinom točnosti. Budući da je model imao primjere osjećaja na dovoljno jezika, mogao se usredotočiti na ono što se od njega traži kod drugih koristeći ono što je već znao.

Sada možemo službeno podržati 44 jezika, ali model će klasificirati osjećaje na bilo kojem jeziku ako je dovoljno pouzdan. U budućnosti ćemo moći dodati službenu podršku za više jezika mnogo brže nego prije.

Koliko je precizan ovaj novi model? A kako mjerite točnost?

Osjećaj je inherentno subjektivan zadatak i ljudi različito tumače definiciju ovog zadatka. Pokazalo se, na primjer, da se dvoje ljudi slaže oko osjećaja nečega samo oko 80% vremena – i to o tweetovima koje je relativno lako procijeniti.

Korisnici Brandwatcha obično mogu očekivati ​​prosječnu točnost od oko 60-75%, ali to će uvijek varirati s vrstom podataka koji se gledaju. Mogli bismo vidjeti puno veću točnost ako bismo procijenili samo na temelju niza IMDB filmskih recenzija, na primjer. Moj tim ima zadatak izračunati sentiment za objave iz više od 100 milijuna izvora podataka, tako da pokušavamo procijeniti pomoću širokog spektra skupova podataka. (Drugim riječima, pokušavamo si otežati!).

Način na koji procjenjujete imat će veliki utjecaj na rezultate. Uspjeli smo usporediti svoje modele na nekoliko javnih skupova podataka za koje su neka od najvećih imena u AI i NLP-u također dala predviđanja. U ovoj međusobnoj usporedbi ukupne izvedbe, Brandwatch Consumer Research dosljedno je lider među ovim visoko cijenjenim tvrtkama za podatkovnu znanost.

Kao podatkovni znanstvenik, koje biste savjete dali ljudima koji koriste analizu sentimenta u svom radu?

Prije svega, rekao bih da svakako jasno definirate što pokušavate učiniti. Ono što ljudi smatraju pozitivnim ili negativnim često dolazi kroz leću onoga o čemu pokušavaju steći uvid.

Analiza sentimenta više je alat nego jedna neupitna ‘istina’. Ako procjenjujete zdravlje robne marke, svoje ćete podatke htjeti podijeliti na kategorije, publiku i teme kako biste pomoću osjećaja identificirali što točno pokreće javno mnijenje i kako to možete poboljšati. Ako pokušavate predvidjeti potencijalne krize, morate biti više usredotočeni na promjene trendova ili skokove u podacima kako biste mogli brže djelovati.

Sentiment je najkorisniji u agregatu – kako se distribucija mijenja tijekom vremena. Ako postoje vrhovi i doline, oni su značajni. Uvijek je važno postaviti mjerila i zatim pomnije istražiti kada podaci odstupe od norme.

Coline, hvala ti što si odvojio vrijeme za razgovor i za naporan rad tvog tima da korisnicima Brandwatcha dovede ovaj uzbudljivi novi razvoj na platformu!

Ako želite vidjeti Brandwatchovu analizu raspoloženja na djelu, kliknite ovdje da rezervirate sastanak. Ako ste postojeći klijent Brandwatcha, već danas ćete imati koristi od novog modela osjećaja u svojim projektima.