Cum Google BERT vs. Algoritmii Smith funcționează împreună - Prezentare generală Semalt




Google a lansat recent o lucrare de cercetare privind noul lor algoritm NLP SMITH. Această lucrare a explicat mulți profesioniști din SEO cu privire la modificările care ar justifica creșteri sau scăderi în clasamentul SERP. Cu toate acestea, îngrijorarea noastră aici este cum se compară acest nou algoritm SMITH cu BERT?

În lucrarea publicată de Google, ei susțineau că SMITH depășește BERT în înțelegerea interogărilor de căutare lungi și a documentelor lungi. Ceea ce îl face pe SMITH atât de interesant este că poate înțelege pasaje dintr-un document similar cu ceea ce face BERT cu cuvinte și propoziții. Această caracteristică îmbunătățită a SMITH îi permite să înțeleagă cu ușurință documente mai lungi.

Dar înainte de a merge mai departe, trebuie să vă informăm că, deocamdată, SMITH nu se află în direct în algoritmii Google. Dar dacă speculațiile noastre sunt corecte, va fi lansat alături de indexarea pasajelor sau va preceda. Dacă sunteți cu adevărat interesați să aflați cum să vă clasați pe SEP, învățarea automată ar merge inevitabil cot la cot la acest interes.

Revenind la subiect, BERT urmează să fie înlocuit? Majoritatea documentelor de pe web care sunt vaste, robuste și, prin urmare, nu vor avea o performanță mai bună cu SMITH?

Să sărim în continuare și să vedem ce am concluzionat. SMITH poate face atât sarcina de a citi documente robuste, cât și subțiri. Gândiți-vă la asta ca la o Bazooka. Poate provoca daune mari prin deschiderea ușilor.

Pentru început, de ce BERT sau SMITH?

Adevărata întrebare aici este de ce un motor de căutare va necesita Procesarea învățării naturale pentru a furniza rezultatele căutării. Răspunsul este simplu. Motoarele de căutare necesită NLP în tranziția lor de la șirurile sau cuvintele cheie care înțeleg motorul de căutare la lucruri sau pagini web.

În cazul în care Google nu are o idee, ce altceva poate fi pe pagină, în afară de cuvintele cheie sau dacă conținutul indexat are chiar sens în legătură cu interogarea de căutare. Datorită NLP, Google poate înțelege contextul caracterelor introduse în interogarea sa de căutare.
Datorită NLP, Google poate distinge intențiile unui utilizator atunci când spune „râu” și „cont bancar”. Poate, de asemenea, să înțeleagă afirmații precum „Caroline s-a întâlnit cu prietenii ei pentru o băutură, băuturi, halbă, bere, bere…” ca fiind nenaturale.

În calitate de experți în SEO, trebuie să spunem că înțelegerea interogării de căutare a parcurs un drum lung. Cei mai buni cred că a fost excesiv de dificil să găsești în trecut articolele potrivite pe internet.

Înțelegerea BERT

BERT funcționează în prezent ca cel mai bun model NLP pe care îl avem pentru multe, dacă nu chiar pentru majoritatea aplicațiilor, mai ales atunci când vine vorba de înțelegerea structurilor complexe de limbaj. Mulți consideră primul caracter bidirectian ca fiind cel mai mare salt înainte în acest algoritm. În loc să aibă un algoritm care citește de la stânga la dreapta, BERT poate înțelege cuvintele în raport cu contextul lor. În acest fel, nu ar da rezultate pentru cuvintele individuale introduse în interogare, ci indexează paginile web pe baza sensului colectiv al cuvintelor din interogarea de căutare.

Iată un exemplu pentru a vă facilita înțelegerea:

O CAMIONĂ ESTE LUMINĂ.

Dacă ar fi să interpretați această afirmație de la stânga la dreapta, la atingerea cuvântului „lumină”, ați clasifica camionul drept ceva cu lumină. Asta pentru că camionul a venit în fața luminii din declarație.

Dar dacă vrem să clasificăm lucrurile pe camioane, s-ar putea să lăsăm „ușoare” pentru că nu le întâlnim înainte de „camion”.

Este greu să luăm în considerare afirmația într-o singură direcție.

În plus, BERT are, de asemenea, un alt avantaj secret de a fi atât de remarcabil și permite procesarea eficientă a limbajului cu costuri mai mici de resurse în comparație cu modelele anterioare. Acesta este într-adevăr un factor important de luat în considerare atunci când se dorește aplicarea acestuia pe întregul web.

Aplicarea jetoanelor este încă o altă evoluție care a însoțit BERT. Există 30.000 de jetoane în BERT și fiecare dintre acestea reprezintă un cuvânt obișnuit, cu câteva jetoane suplimentare pentru caractere și fragmente în cazul în care există un cuvânt în afara celor 30.000.

Prin capacitatea sa de a procesa jetoane și transformatoare, BERT a înțeles conținutul, ceea ce i-a oferit și capacitatea de a înțelege propozițiile în mod adecvat.

Deci, dacă spunem, "domnișoara s-a dus la mal. Mai târziu, a stat pe malul râului și a privit cursul râului".

BERT va atribui valori diferite acelor propoziții deoarece se referă la două lucruri diferite.

Înțelegerea SMITH

Apoi vine SMITH, un algoritm cu resurse și numere mai bune de utilizat pentru procesarea documentelor mai mari. BERT folosește aproximativ 256 de jetoane pe document și, atunci când depășește acest prag, costul de calcul devine prea mare pentru o funcționare optimă. În schimb, SMITH poate gestiona până la 2.248 jetoane per document. Acesta este de aproximativ 8 ori numărul de simboluri utilizate de BERT.

Pentru a înțelege de ce cresc costurile de calcul într-un singur model NLP, trebuie mai întâi să luăm în considerare ceea ce este necesar pentru a înțelege o propoziție și un paragraf. Când aveți de-a face cu o propoziție, există un singur concept general de înțeles. Există mai puține cuvinte legate unul de celălalt, deci mai puține conexiuni între cuvinte și ideile pe care le dețin în memorie.

Prin transformarea frazelor în paragrafe, legătura dintre aceste cuvinte se înmulțește foarte mult. Procesele de 8 ori textul vor necesita de multe ori mai multe viteze și capacități de optimizare a memoriei folosind același model. Acesta este locul în care SMITH face toată diferența prin practicarea în serie și procesarea offline. Interesant este că SMITH depinde în continuare de BERT pentru a funcționa corect.

Iată o descriere a modului în care SMITH ia un document în centrul său:
  1. Mai întâi împarte documentul în dimensiuni de grupare mai ușor de gestionat.
  2. Apoi procesează fiecare bloc de propoziții individual.
  3. Un transformator învață apoi o reprezentare contextuală a fiecărui bloc, după care le transformă într-o reprezentare a documentului.

Cum funcționează SMITH?

Pentru a instrui modelul SMITH, învățăm de la BERT în două moduri:

Pentru a instrui BERT, un cuvânt este scos dintr-o propoziție și vor fi furnizate opțiuni alternative

BERT, care este mai bine instruit, este cel care va avea mai mult succes în alegerea opțiunii potrivite dintre alternativele oferite. De exemplu, dacă BERT primește propoziția:

Maroul fericit ------ a sărit peste gardul de pichete.
  • Opțiunea unu - roșii.
  • Opțiunea a doua - câine.
Cu cât BERT este mai bine pregătit, cu atât sunt mai mari șansele de a alege opțiunea potrivită, care este opțiunea a doua.

Această metodă de instruire este aplicată și în SMITH.

SMITH este instruit pentru documente mari

Cu cât SMITH este mai bine pregătit, cu atât sunt mai mari șansele sale de a recunoaște propozițiile omise. Este aceeași idee cu BERT, dar o aplicație diferită. Această parte este deosebit de interesantă, deoarece pictează o lume cu conținut generat de Google împărțit în pagini cu rezultate ale motorului de căutare. Desigur, utilizatorii pot pleca, dar nu vor, deoarece Google poate compune conținut scurt și lung din toate cele mai bune surse de pe pagina sa de rezultate.

Dacă aveți îndoieli cu privire la acest lucru, ar trebui să știți că a început deja să se întâmple și, chiar dacă nu l-au stăpânit încă, este un început.

SMITH este mai bun decât BERT?

Cu tot ce ați citit, este complet natural să presupuneți că SMITH este mai bun și, în multe sarcini, este cu adevărat mai bun. Dar ia în considerare modul în care folosești internetul pentru o clipă; ce întrebări introduceți în mod regulat în interogările de căutare?
  • "Care este prognoza meteo pentru astăzi?"
  • „Indicații către un restaurant”.
Răspunsul la astfel de interogări de căutare necesită de obicei conținut scurt, adesea cu date limitate și necomplicate. SMITH este mai implicat în înțelegerea documentelor mai lungi și mai complexe și a interogărilor de căutare lungi și complexe.

Aceasta va include strângerea mai multor documente și subiecte pentru a-și crea răspunsurile. Determină modul în care conținutul poate fi defalcat, permițând Google să știe ce trebuie să afișeze. Acesta îl va ajuta pe Google să înțeleagă modul în care paginile de conținut sunt legate între ele și oferă o scară pe care linkurile pot fi evaluate, printre alte beneficii.

Acestea fiind spuse, încheiem spunând că atât BERT cât și SMITH sunt importante și ambele își îndeplinesc scopul unic.

Concluzie

În timp ce SMITH este bazooka, avem nevoie de ea pentru a face o imagine clară a modului în care lucrurile sunt în mod colectiv. În resurse, costă mai mult pentru că face o treabă mai mare, dar costă mult mai puțin decât BERT atunci când faceți aceeași treabă.

BERT îl ajută pe SMITH să ajute la înțelegerea interogărilor scurte și a bucăților de conținut minuscul. Totuși, acest lucru se întâmplă până când Google dezvoltă un alt algoritm NLP care să le înlocuiască pe amândouă și apoi vom trece la curent cu un alt progres în SEO.

Vă interesează SEO? Consultați celelalte articole despre Semalt blog.