imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

Laurel sau Yanny? – Problema rochiei albastre: Reloaded 


Internetul tocmai a explodat, din nou. De data asta întrebarea nu mai e legată de o rochie albastră sau aurie, ci de un software care spune Laurel sau Yanny. Lumea a fost împărțită în două tabere. Haideți să refacem unitatea omenirii făcând uz de uneltele științei.

În doar câteva secunde, fenomenul Laurel sau Yanny – a împărțit internetul în două. Dacă nu ești la curent cu situația din prezent: pe Internet există o înregistrare de câteva secunde unde se poate auzi un singur cuvânt, rostit de un sintetizator de vorbire. Misterul constă în identificarea acestui cuvânt. O parte a lumii spune că aude Laurel, cealaltă spune că aude Yanny.

E posibil să îți amintești de cazul rochiei albastre sau aurii, însă, în loc de ochi, de data asta urechile sunt cele care ne joacă feste.

Presa internațională a apelat la diferiți experți pentru a lămuri acest fenomen. Aceștia au venit cu diferite răspunsuri care, parțial, pot repune lumea în echilibru. În loc să găsești de unul singur soluția, în acest articol vom prezenta motivele, precum și diferitele puncte de vedere pe care ar trebui să le luăm în considerare.

Amorsarea

În psihologie și în diferite teste de examinare a percepției, cercetătorii au descoperit un efect de amorsare. Dacă ești pe cale să iei o decizie în legătură cu o întrebare al cărei răspuns îl intuiai dinainte, e foarte probabil că vei opta pentru acea soluție.

Dacă problema nu ține doar de examinarea amorsării și dacă cercetătorii vor să ocolească acest efect, atunci trebuie să evităm orice fel de impresii negative ce ar putea influența rezultatul. Iată un exemplu extraordinar:

A: Alb, alb, alb, alb, alb, alb, etc.

A: Ce bea vaca?

B: Lapte!

Asta spun de obicei persoanele care răspund instinctiv. Asta pentru că asociază culoarea alb (și însăși vaca) cu laptele, iar atunci când trebuie să răspundă imediat, procesul de accesare mentală livrează mai rapid soluția lapte, în loc de răspunsul corect, care e apă.

Amorsarea poate fi realizată și subconștient. Așa cum sunt reclamele de un cadru inserate în filmele de la cinema. Acesta e un tip aparte de amorsare, când stimulul nu îți atinge limitările, ci îl percepi la nivel subconștient, realizându-se astfel amorsarea celui care a primit mesajul.

În cazul Laurel-Yanny, contează foarte mult cât de „fresh” erai când ai început să asculți înregistrarea. Dacă ai primit informația de la un prieten care a spus „Frate, ia fii atent aici, eu pot sa aud doar Laurel, tu ce auzi?” atunci e posibil să fii afectat de amorsare și să auzi Laurel, chiar dacă atunci când ai fi ascultat de unul singur ai fi auzit Yanny.

În mijlocul frecvențelor

Nu pot decât să sper că îți aduci aminte de articolul nostru despre auz. Iată aici o recapitulare.

În cazul auzului, percepem fluctuația presiunii aerului. Aceasta se răspândește prin aer sub formă de unde, prin urmare conține diferite componente de frecvență.

Când vorbim, datorită biologiei organelor noastre de vorbit și altor elemente specifice, fiecare are propriile caracteristici de rezonanță. De parcă am fi chitare diferite, realizate diferit, din diferite materiale și în forme diferite. Așa cum poți recunoaște cu ușurință sunetul unei chitre, poți recunoaște de asemenea și vorbirea umană.

Uneori, propria noastră rezonanță intensifică, alteori reduce, sunetul pentru diferite frecvențe pe care le emitem prin corzile noastre vocale sau prin gură (și/sau nas). Asta se numește formant. Formanții dețin informații pe cont propriu dar și atunci când sunt comparați unii cu alții. De exemplu consoanele pot fi descrise foarte bine de primii doi formanți din care sunt alcătuite (F1 și F2). Valorile lor specifice (consoane cardinale) creează un așa numit spațiu consonant în formă de trapez unde sunt incluși formanții consoanelor.

Ca motiv pentru acest fenomen, presa de peste hotare a afirmat că oamenii care nu aud prea bine frecvențele înalte vor auzi Laurel, în timp ce restul vor auzi Yanny. Intervalul exact al auzului uman e între 20 și 20 000 Hz. Intervalul informativ al vorbirii se ridică până undeva la 8 000 de Hz. Ce depășește această limită reprezintă doar diferențe insignifiante.

Înainte de lungimea largă de bandă, telefoanele mobile își limitau intervalul între 300 și 3 000 de Hz, și ne puteam înțelege foarte bine unii cu alții. Pentru că frecvențele acelor două formate de vorbire menționate mai sus sunt mai joase de 3 000 e Hz, puteam identifica foarte simplu consoanele fără nicio problemă.

Aici s-ar putea afla cheia rezolvării acestui caz. Pentru a avea astfel de limitări, auzul trebuie să fie foarte grav afectat. Însă dacă frecvența sunetului se află chiar la limită, ne putem aștepta la astfel de rezultate. În cazul de față abia dacă se pune problema, pentru că cele două cuvinte sunt foarte diferite: [jæni] (= Yanny) și [lɔrəl] (=Laurel).

Analiza vocală

Putem vedea că ne putem păcăli destul de ușor urechile și creierul folosind diferite frecvențe și tehnica amorsării, și e foarte dificil să determinăm cine și în ce circumstanțe a ascultat această înregistrare, și cum a fost afectată decizia. Asta necesită un punct de vedere obiectiv, și aici intervine analiza vocală.

Fără să cercetăm prea în amănunt detaliile analizei vocale pe care le puteți vede în capturile de ecran, iată ce spun acestea.

E important să evidențiem faptul că, pentru a livra cele mai bune rezultate, analiza software are nevoie de o calitate foarte bună a înregistrării vocii pe care trebuie să o analizeze. Înregistrarea despre care vorbim are o calitate îndoielnică, iar asta poate afecta rezultatul.

În primul rând am descărcat înregistrarea de pe internet și am transformat-o în formatul potrivit. Am introdus-o în Praat, softwareul de analiză vocală, iar acesta mi-a oferit următoarele rezultate.

Se poate vedea că înregistrarea are destul de mult zgomot. Conține un zgomot de fundal, dar și câteva click-uri de mouse. Software-ul are o opțiune de eliminare a zgomotului, dar asta ar modifica frecvențele și ar anula tot rostul acestei cercetări. Așa că a trebuit să sar peste acest pas.

Dacă dai zoom pe un anumit segment, poți începe să cauți diferite sunete de vorbire. Atât Yanny, cât și Laurel pornesc cu un așa numit ton aproximativ, singura diferență fiind aceea că [j] este un aproximativ medial, în timp ce [l] e alveolar și lateral. Din cauza acestei diferențe minimale tonul celor două e foarte asemănător, iar cu o astfel de calitate a înregistrării, ne este foarte greu să oferim un verdict.

Mult mai evident e faptul că, dacă se face zoom out, în mijlocul scalei se vede un crater uriaș. Se poate vedea cum formanții (linia roșie punctată) gravitează înspre un anumit punct. Așadar, tonurile de vorbire „drenează” formanții. Aceasta e o caracteristică proprie sunetului [r]. Sunetul [n] abia dacă ar putea fi distins de vocale.

Un punct pentru Laurel. Și iată-l și pe următorul: la sfârșitul lui Yanny avem un [i]. Dacă avem o vocală, trebuie să ne așteptăm să apară anumite semnale periodice, iar în cazul lui [i], valori ridicate pentru F2 și scăzute pentru F1. Însă programul nu a putut recunoaște niciun fel de periodicitate. Deși distanța dintre formanți e destul de mare, programul a calculat valoarea lui F1 la 500 de Hz, valoare mult prea mare pentru un sunet de [i]. Cu toate astea, e posibil ca rezultatul să fi fost influențat de zgomot.

Nu pot face și alte estimări în baza acestei înregistrări, pentru că are prea mult zgomot de fond. După umila mea părere, zgomotul reprezintă problema principală. Pentru că acesta creează un efect de mascare, zgomotul poate estompa anumite elemente acustice cheie care ne pot ajuta să distingem cele două cuvinte.

Bazându-mă pe ce-mi spun urechile și pe analiza vocală, eu aș vota pentru Laurel. Însă în birou mulți oameni au auzit și Yanny. Cu toate astea, la urma urmei adevărul constă în ce poți auzi, nu în rezultatele analizei vocale.

iPhoneX
Apple Inc. (AAPL)

Ai citit asta?

„Fiecare Mac pe care îl cumpărăm permite IBM să economisească bani.”

Computerele care funcționează sub Windows ajung să fie, în final, de trei ori mai scumpe decât Mac-urile. ... - Apasă aici!