Che cos’è l’aggiornamento dell’algoritmo di ricerca Google BERT?

Google BERT è l’acronimo di Bidirectional Encoder Representations from Transformers ed è un aggiornamento dell’algoritmo di ricerca principale volto a migliorare le capacità di comprensione della lingua di Google.

BERT è uno dei più grandi aggiornamenti che Google ha apportato da RankBrain nel 2015 e si è dimostrato efficace nel comprendere l’intento del ricercatore dietro una query di ricerca.

Come funziona Google BERT?

Comprendiamo cosa può fare BERT con l’aiuto di una query di esempio :

Capture.1

Qui, l’intento del ricercatore è scoprire se un membro della famiglia di un paziente può ritirare una prescrizione per suo conto.

Ecco cosa ha restituito Google prima di BERT:

Capture.2

Come puoi vedere, Google ha restituito un risultato di ricerca insoddisfacente perché non è stato in grado di elaborare il significato della parola “qualcuno” nella query.

Ecco cosa ha restituito Google dopo che i sistemi BERT sono stati integrati nell’algoritmo core:

Dopo

Questo risultato di ricerca risponde esattamente alla domanda del ricercatore. Google ha ora compreso il significato della parola “qualcuno” nel contesto corretto dopo aver elaborato l’intera query.

Invece di elaborare una parola alla volta e non assegnare un peso sostanziale a parole come “qualcuno” in un contesto specifico, BERT aiuta Google a elaborare ogni singola parola nella query e assegna loro un token. Ciò si traduce in risultati di ricerca molto più accurati.

In un altro esempio, la query è “libro di matematica per adulti” in cui il ricercatore sta cercando di acquistare libri di matematica per adulti:

Pratica matematica

Prima di BERT, Google ha restituito risultati suggerendo libri per i gradi 6-8, che non è corretto. Google ha fornito questa risposta perché la descrizione contiene la frase “giovane adulto”, ma nel nostro contesto “giovane adulto” è irrilevante per la domanda:

Fai pratica prima

Dopo BERT, Google è in grado di discernere correttamente la differenza tra “giovane adulto” e “adulto” ed esclude i risultati con corrispondenze fuori contesto:

Dopo 2

Dive Deeper: come capire l’intento del ricercatore e utilizzarlo per migliorare le classifiche SEO

Che cos’è Google NLP e come funziona?

La PNL sta per Natural Language Processing, che è un sottoinsieme dell’intelligenza artificiale e consiste nell’apprendimento automatico e nella linguistica (studio della lingua). È ciò che rende possibile la comunicazione tra computer e umani in un linguaggio dal suono naturale.

La PNL è la tecnologia alla base di tali applicazioni linguistiche popolari come:

  • Google Traduttore
  • Microsoft Word
  • Grammarly
  • OK Google, Siri, Cortana e Alexa

La PNL è il framework che alimenta Google BERT. L’ API di linguaggio naturale di Google comprende i seguenti cinque servizi.

1) Analisi della sintassi

Google suddivide una query in singole parole ed estrae informazioni linguistiche per ciascuna di esse.

Ad esempio, la query “chi è il padre della scienza?” viene suddiviso tramite l’ analisi della sintassi in singole parti come:

  • Chi tag = pronome
  • È tag (numero presente singolare) = singolare
  • Il tag = determinante
  • Tag padre (numero del sostantivo) = singolare
  • Of tag = preposizione
  • Tag Science = sostantivo

2) Analisi del sentimento

Il sistema di analisi del sentiment di Google assegna un punteggio emotivo alla query. Ecco alcuni esempi di analisi del sentiment:

Analisi del sentimento

Nota: i valori e gli esempi sopra riportati sono tutti presi in modo casuale. Questo viene fatto per farti comprendere il concetto di analisi dei sentimenti fatta da Google. L’attuale algoritmo utilizzato da Google è diverso e riservato.

3) Analisi delle entità

In questo processo, Google raccoglie “entità” da una query e generalmente utilizza Wikipedia come database per trovare le entità nella query.

Ad esempio, nella query “Qual è l’età di selena gomez?”, Google rileva “Selena Gomez” come entità e restituisce una risposta diretta al ricercatore da Wikipedia:

Selena Gomez

4) Analisi del sentimento di entità

Google fa un ulteriore passo avanti e identifica il sentimento nel documento complessivo contenente le entità. Durante l’elaborazione delle pagine Web, Google assegna un punteggio di sentimento a ciascuna entità in base al modo in cui vengono utilizzate nel documento. Il punteggio è simile al punteggio eseguito durante l’analisi del sentiment.

5) Classificazione del testo

Immagina di avere un ampio database di categorie e sottocategorie come DMOZ (una directory multilingue a contenuto aperto di collegamenti al World Wide Web). Quando DMOZ era attivo, classificava un sito Web in categorie e sottocategorie e ancora più sottocategorie.

Questo è ciò che fa la classificazione del testo. Google corrisponde alla sottocategoria più vicina di pagine Web in base alla query immessa dall’utente.

Ad esempio, per una query come “progettazione di una farfalla”, Google potrebbe identificare diverse sottocategorie come “arte moderna”, “arte digitale”, “disegno artistico”, “illustrazione”, “architettura”, ecc., Quindi scegliere il sottocategoria corrispondente più vicina.

Nelle parole di Google:

“Una delle maggiori sfide nell’elaborazione del linguaggio naturale (PNL) è la carenza di dati di formazione. Poiché la PNL è un campo diversificato con molte attività distinte, la maggior parte dei set di dati specifici per attività contengono solo alcune migliaia o alcune centinaia di migliaia di esempi di formazione con etichetta umana “.

Per risolvere il problema della carenza di dati di formazione, Google ha fatto un ulteriore passo avanti e ha progettato Google AutoML Natural Language che consente agli utenti di creare modelli di apprendimento automatico personalizzati. Il modello BERT di Google è un’estensione del linguaggio naturale AutoML di Google .

Nota: il modello Google BERT comprende il contesto di una pagina Web e presenta i migliori documenti al ricercatore. Non pensare a BERT come a un metodo per affinare le query di ricerca; piuttosto, è anche un modo per comprendere il contesto del testo contenuto nelle pagine web.

Dive Deeper: gli effetti dell’elaborazione del linguaggio naturale (PNL) sul marketing digitale

Clicca qui per scaricarlo gratuitamente adesso!

Che cos’è NLP BERT?

BERT è un modello open source ed è un’estensione del linguaggio naturale AutoML di Google, come spiegato sopra. BERT è il metodo che verrà utilizzato per ottimizzare la PNL negli anni a venire.

Come suggerisce Google :

“Abbiamo aperto  una nuova tecnica per il pre-training NLP chiamato Bidirectional Encoder Representations from Transformers , o BERT. Con questa versione, chiunque nel mondo può addestrare il proprio sistema di risposta alle domande (o una varietà di altri modelli) all’avanguardia in circa 30 minuti su un singolo TPU Cloud o in poche ore utilizzando una singola GPU. 

BERT rappresenta la nuova era della PNL e probabilmente il migliore che è stato creato finora.

Thang Luong, ricercatore senior presso Google Brain, lo ha twittato prima del lancio di BERT:

BERT aiuta Google Process Query conversazionali

L’aggiornamento Google BERT (un componente dell’elaborazione del linguaggio naturale) è finalizzato all’elaborazione di query conversazionali e, come afferma il colosso dei motori di ricerca :

“In particolare per query più lunghe e più conversazionali o ricerche in cui preposizioni come” per “e” importare “contano molto sul significato, la ricerca sarà in grado di comprendere il contesto delle parole nella query. Puoi cercare in un modo che ti sembra naturale. “

Strategie di formazione linguistica pre-addestrate come “basate sulle funzionalità”  e “perfezionamento” hanno dimostrato di migliorare molte attività di elaborazione del linguaggio naturale:

immagine incollata 0 37

BERT migliora la strategia di rappresentazione del linguaggio “fine-tuning”. Allevia il vincolo di unidirezionalità usato in precedenza utilizzando un nuovo “modello di linguaggio mascherato” (MLM) che maschera casualmente alcune delle parole dalla frase e predice il vocabolario originale delle parole basato solo sul suo contesto.

Come suggerito in questo documento di ricerca di Google intitolato “BERT: Pre-training di trasformatori bidirezionali profondi per la comprensione del linguaggio”:

“BERT è il primo modello di rappresentazione basato sulla messa a punto che raggiunge prestazioni all’avanguardia su una vasta gamma di attività a livello di frase e token, superando molte architetture specifiche per attività…. [It]  è concettualmente semplice ed empiricamente potente. Ottiene nuovi risultati allo stato dell’arte su undici compiti di elaborazione del linguaggio naturale, incluso spingendo il punteggio GLUE all’80,5% (miglioramento assoluto del 7,7%), accuratezza MultiNLI all’86,7% (miglioramento assoluto del 4,6%), SQuAD v1.1 domanda che risponde ai test da F1 a 93.2 (miglioramento assoluto di 1,5 punti) e SQuAD v2.0 da F1 a 83.1). ”

È un sacco di linguaggio tecnico, ma l’essenza è questa:

BERT è un potente aggiornamento degli algoritmi NLP esistenti che Google attualmente utilizza per elaborare query di ricerca al fine di presentare all’utente i migliori risultati possibili.CLICCA PER TWEETBERT esegue 11 attività NLP e migliora il punteggio di accuratezza di ciascuna di esse, ottenendo risultati di ricerca accurati.

Dive Deeper:

Transformers: il vero potere dietro Google BERT

Il nucleo del funzionamento di BERT risiede in un Transformer, che è una nuova architettura di rete neurale per la comprensione del linguaggio. Supera tutti gli altri precedenti processi di modellizzazione del linguaggio e traduzione automatica.

Google può ora elaborare le parole in una query utilizzando Transformers e secondo  Pandu Nayak , Google Fellow e Vice President of Search:

“[I trasformatori sono] modelli che elaborano le parole in relazione a tutte le altre parole in una frase, anziché una per una in ordine. I modelli BERT possono quindi considerare l’intero contesto di una parola osservando le parole che precedono e seguono, particolarmente utili per comprendere l’intento alla base delle query di ricerca. “

In un documento di ricerca intitolato ” L’attenzione è tutto ciò di cui hai bisogno “, è dimostrato che i trasformatori superano i modelli ricorrenti e convoluzionali sui benchmark accademici di traduzione dall’inglese al tedesco e dall’inglese al francese:

immagine incollata 0 38

fonte

immagine incollata 0 39

fonte

BERT è un modo per comprendere le relazioni tra le frasi

Il modello BERT ha lo scopo di comprendere le relazioni tra le frasi pre-training su un compito molto semplice generato utilizzando qualsiasi corpus di testo (una raccolta di materiale scritto in forma leggibile meccanicamente, assemblata ai fini della ricerca linguistica).

Come suggerito da Google , date due frasi – A e B – B è la frase successiva effettiva che segue A nel corpus o solo una frase casuale? Per esempio:

f2

BERT aggiunge un ulteriore livello di cervello artificiale all’architettura di Google ed è quindi in grado di identificare la relazione tra frasi. Ora è addestrato a pensare come un essere umano e comprende sia il significato che la relazione tra le parole in una frase o una combinazione di frasi.

Clicca qui per scaricarlo gratuitamente adesso!

Dive Deeper: come l’apprendimento automatico sta trasformando il Content Marketing

Domande frequenti su Google BERT

Ecco alcune delle domande più frequenti circa BERT ( B idirectional E ncoder R epresentations da T ransformers).

Quando è uscito il BERT?

BERT è stato lanciato il 24 ottobre 2019  come confermato da Pandu Nayak (VP, Ricerca Google) in questo post del blog . Questo lancio è stato solo per domande in lingua inglese. Tuttavia, la distribuzione è ancora in corso per altre lingue come il coreano, l’hindi e il portoghese.

Che effetto ha Google BERT sul mio sito Web?

Google ha applicato BERT sia al posizionamento che agli snippet  in primo piano nella ricerca. Ha un impatto su una ricerca su dieci negli Stati Uniti in inglese. Pertanto, se il tuo sito Web è in inglese e stai indirizzando query in lingua inglese, BERT influenzerà sicuramente la presenza organica del tuo sito Web.

BERT influisce su query più lunghe e conversazionali in cui il contesto delle parole nella query è difficile da capire. Se stai acquisendo traffico organico sul tuo sito Web tramite ricerche a coda lunga , devi seguirli più da vicino. Eventuali modifiche al traffico da parole chiave a coda lunga potrebbero essere dovute all’algoritmo BERT.

Suppongo che tutti i siti Web abbiano una certa percentuale di traffico che viene acquisita tramite ricerche a coda lunga, quindi questo traffico potrebbe essere influenzato dall’aggiornamento BERT. Tuttavia, BERT non influirà sulle tue classifiche per parole chiave più brevi e più importanti.

(Nota: i cambiamenti nel traffico organico possono essere causati da una serie di motivi e BERT è solo uno di questi fattori. È necessario un controllo completo dei contenuti per identificare i motivi reali alla base del calo del traffico organico. Non dare per scontato che un cambiamento nel traffico organico è solo a causa di BERT.)

Tieni d’occhio Google Analytics e analizza la percentuale di traffico organico tramite pagine. Se il traffico verso determinate pagine è diminuito dopo la terza settimana di ottobre, BERT potrebbe influire su quelle pagine.

Tutto quello che devi fare è assicurarti che la tua pagina corrisponda esattamente all’intento di ricerca delle parole chiave che stai cercando di classificare. Se lo fai nel modo giusto, il traffico organico del tuo sito web rimarrà al sicuro dagli effetti di BERT.

Dive Deeper: perché dovresti usare parole chiave a coda lunga nella tua campagna SEO

BERT è un’estensione di RankBrain?

No. BERT e RankBrain sono diversi. Google applica una combinazione di algoritmi per comprendere il contesto di una query. Per alcune query, RankBrain potrebbe essere applicato, mentre per altri BERT avrebbe la priorità. Potrebbero esserci alcune ricerche in cui sia RankBrain che BERT verrebbero applicati insieme per presentare all’utente i migliori risultati.

BERT è un modello linguistico?

BERT è un metodo di pre-formazione delle rappresentazioni linguistiche. Sotto BERT, un modello di linguaggio di uso generale viene utilizzato su un corpus di testo di grandi dimensioni (come il Knowledge Graph) per trovare le risposte alle domande dell’utente.

Come funziona esattamente BERT?

BERT è tutto sulla comprensione dell’intento alla base della ricerca. Applicando BERT, Google è in grado di comprendere la relazione tra le parole in una query e presentare il risultato di corrispondenza più vicino al ricercatore. La principale innovazione di BERT risiede nell’applicazione di un trasformatore, che è un modello di attenzione popolare alla modellizzazione del linguaggio.

Prima di BERT , Google osservava la sequenza di parole nella query da sinistra a destra o da destra a sinistra.

Dopo l’applicazione di BERT , Google ha addestrato i suoi sistemi a esaminare la query in modo bidirezionale. Ciò significa che Google può ora esaminare la query in entrambi i modi (da destra o sinistra in una singola elaborazione). Ecco un esempio di elaborazione delle query bidirezionale :

immagine incollata 0 40

Nell’esempio sopra, il contesto della parola “banca” è diverso in entrambe le frasi. Nella prima frase si riferisce a una sponda del fiume, mentre nella seconda si riferisce a un istituto finanziario. Per comprendere il vero significato della parola “banca” qui, Google deve elaborare il contesto delle parole prima della parola “banca” nella prima query e dopo la parola “banca” nella seconda query. Questo è l’elaborazione delle query bidirezionale. Google può elaborare una query in entrambi i modi a seconda del contesto.

BERT offre a Google un senso più profondo del contesto linguistico e del flusso bidirezionale rispetto ai modelli linguistici monodirezionali. Questo documento di ricerca discute una nuova tecnica chiamata Masked LM (MLM), che è il nucleo di BERT. Il LM mascherato consente l’addestramento bidirezionale nei modelli, cosa finora impossibile.

Ti consiglierei di guardare il video qui sotto per capire meglio come funziona BERT. Questo video è presentato da Danny Luo, ingegnere di machine learning presso Dessa :

BERT si applica alle query in altre lingue (tranne l’inglese)?

Sì, si applica ad altre lingue come hindi, coreano, portoghese e altre. Google ha applicato BERT in dodici paesi diversi ma l’implementazione è stata completata solo per le ricerche in inglese. Nei prossimi mesi, BERT continuerà a incidere sulle query in altre lingue.

BERT elabora le parole “Stop”?

Certamente! In precedenza, Google rimuoveva tutte le parole “stop” da una query prima di elaborarla, ma ora considera attentamente tutte le parole stop per comprendere il contesto della query.

Le parole di arresto sono brevi parole funzione che un tempo venivano ignorate dai motori di ricerca perché non aggiungevano alcun valore semantico alla ricerca. Alcuni esempi di parole di arresto sono  la , il, a ,  che , che , ecc .

Ma con aggiornamenti come RankBrain e BERT, Google ha fatto un ulteriore passo avanti nella comprensione degli umani nella lingua con cui sono più a loro agio, non con cui le macchine sono più a loro agio. Il motto di Google di diventare il motore di risposta più accurato è più vicino che mai con il lancio di BERT.

Come posso ottimizzare per BERT?

L’unica cosa che puoi fare è assicurarti che il contenuto delle tue pagine corrisponda all’intento del ricercatore. Non c’è niente di speciale che puoi fare per ottimizzare per BERT. Questo è ciò che Danny Sullivan , responsabile della ricerca pubblica di Google , ha twittato:

Google ha sempre posto particolare enfasi sui GRANDI contenuti, e BERT ne è un’estensione. Prepara ottimi contenuti per il tuo pubblico e il tuo sito farà bene nelle ricerche.

Ecco alcuni modi per preparare GRANDI contenuti:

  • Scrivi un testo di facile lettura. Puoi misurare i punteggi di leggibilità dei tuoi contenuti utilizzando strumenti come Leggibile . Questo strumento calcola anche i punteggi di leggibilità di Flesch-Kincaid. Devi puntare a un punteggio di 8.

immagine incollata 0 36

fonte

  • Crea contenuti originali e senza errori.
  • Organizza il tuo argomento in modo chiaro.
  • Aggiungi i titoli, i sottotitoli e dividi il contenuto in paragrafi appropriati.
  • Mantieni il contenuto accessibile e fruibile.
  • Evita i contenuti di Zombie , in quanto possono ostacolare la qualità della tua pagina web.
  • Sbarazzati di contenuti duplicati e mantieni aggiornati i tuoi contenuti.
  • Evitare il cloaking in tutte le forme.
  • Mostra chiaramente le informazioni sull’autore sul tuo sito perché l’ esperienza è un ottimo modo per migliorare il punteggio di fiducia del tuo sito web.
  • Usa i link con saggezza e ottimizza le tue immagini.
  • Mantieni il tuo sito ottimizzato per i dispositivi mobili.
  • Analizza il comportamento degli utenti sul tuo sito e intraprendi continuamente azioni per migliorare i tuoi contenuti.

Dive Deeper:

In che modo BERT è diverso dai modelli precedenti?

BERT è un metodo di pre-training che viene applicato su vasti set di dati per affinare la query di ricerca. La figura seguente mostra il confronto tra il modello BERT e i precedenti modelli di architettura pre-training:

immagine incollata 0 35

Le frecce rappresentano il flusso di informazioni da uno strato all’altro. Le caselle verdi in alto rappresentano l’output finale di ogni parola di input. Come puoi vedere dalla figura sopra, BERT è profondamente bidirezionale mentre OpenAI GPT è unidirezionale e ELMo è leggermente bidirezionale.

BERT è accurato al 100%?

No, BERT non è preciso al 100%. Ad esempio, se cerchi “quale stato è a sud del Nebraska”, BERT indovinerà che è “Nebraska meridionale” che non è preciso.

Google sta ancora imparando e Rankbrain e BERT sono esempi di algoritmi che consentono a Google di pensare come un essere umano. Possiamo aspettarci presto versioni più recenti e migliorate di questo algoritmo.

Open

info.ibdi.it@gmail.com

Close