Google smetterà di supportare Robots.txt Noindex: cosa significa per te

A partire dal 1 ° settembre 2019 , Google non supporterà più la direttiva robots.txt relativa all’indicizzazione. Ciò significa che Google inizierà a indicizzare le tue pagine web se hai fatto affidamento sulla direttiva noindex robots.txt per rimuovere quelle pagine dai SERP. Hai tempo fino al primo settembre per rimuoverlo e utilizzare un altro metodo.

Cos’è un robots.txt noindex? È un tag (di solito in HTML) nel file robots.txt che impedisce ai motori di ricerca di includere quella pagina nei SERP.

Perché Google non lo supporta più? Perché la direttiva noindex robots.txt non è una direttiva ufficiale. E, come dice Google :

“Nell’interesse di mantenere un ecosistema sano e prepararsi per potenziali future versioni open source, stiamo ritirando tutto il codice che gestisce le regole non supportate e non pubblicate (come noindex) il 1 settembre 2019.”

Aggiornamenti recenti di Google

Google è stata impegnata a fare molti aggiornamenti nel 2019. Come aggiornamento, i più importanti sono:

Aggiornamento principale di giugno 2019 . Google ha rilasciato una dichiarazione ufficiale in cui si afferma che ” Domani rilasceremo un ampio aggiornamento dell’algoritmo core, come facciamo più volte all’anno. Si chiama aggiornamento principale di giugno 2019. La nostra guida su tali aggiornamenti rimane quella che abbiamo trattato in precedenza. “

Aggiornamento sulla diversità. Questo aggiornamento più piccolo di giugno influisce maggiormente sulle ricerche transazionali. Come per l’aggiornamento, Google ora mira a restituire risultati da domini univoci e non visualizzerà più più di due risultati dallo stesso dominio.
Aggiornamento principale di marzo 2019. Questa è un’altra grande modifica al suo algoritmo. Google ha confermato questo aggiornamento, ma non ha fornito un nome, quindi è stato indicato come aggiornamento Florida 2 o aggiornamento principale di Google 3/12 . Non sono state fornite nuove indicazioni per questo aggiornamento.

Contenuto relativo:

Addio alla direttiva Noindex di Google Robots.txt

Ora, nel luglio 2019, Google ha detto addio alle regole non documentate e non supportate nel file robots.txt. Questo è ciò che Google ha twittato il 2 luglio 2019:

Se il tuo sito Web utilizza la direttiva noindex nel file robots.txt, dovrai utilizzare altre opzioni. Secondo la dichiarazione pubblicata sul blog ufficiale di Google Webmaster Central :

Il motivo della cancellazione del supporto per nootsex robots.txt è stato discusso anche nel blog di Google :

“In particolare, ci siamo concentrati su regole non supportate dalla bozza Internet, come crawl-delay, nofollow e noindex. Poiché queste regole non sono mai state documentate da Google, naturalmente, il loro utilizzo in relazione a Googlebot è molto basso. Scavando ulteriormente, abbiamo visto che il loro utilizzo era contraddetto da altre regole in tutto tranne lo 0,001% di tutti i file robots.txt su Internet. Questi errori danneggiano la presenza dei siti web nei risultati di ricerca di Google in modi che non pensiamo intendessero i webmaster “.

Robots.txt – Il protocollo di esclusione dei robot (REP)

Il Robots Exclusion Protocol (REP), meglio noto come Robots.txt, è in uso dal 1994 ma non è mai stato trasformato in uno standard Internet ufficiale. Ma senza uno standard adeguato, sia i webmaster che i crawler erano confusi riguardo a ciò che viene sottoposto a scansione. Inoltre, il REP non è mai stato aggiornato per coprire i casi d’angolo di oggi.

Secondo il blog ufficiale di Google :

“ REP non è mai stato trasformato in uno standard Internet ufficiale , il che significa che gli sviluppatori hanno interpretato il protocollo in modo leggermente diverso nel corso degli anni. E sin dal suo inizio, il REP non è stato aggiornato per coprire i casi d’angolo di oggi. Questo è un problema difficile per i proprietari di siti Web perché l’ambiguo standard di fatto ha reso difficile scrivere le regole in modo corretto. “

Per porre fine a questa confusione, Google ha documentato come viene utilizzato il REP sul Web e lo ha inviato all’IETF (Internet Engineering Task Force), che è un’organizzazione Open Standards per far funzionare meglio Internet.

Google ha dichiarato in una dichiarazione ufficiale:

“Volevamo aiutare i proprietari di siti Web e gli sviluppatori a creare esperienze straordinarie su Internet invece di preoccuparsi di come controllare i crawler. Insieme all’autore originale del protocollo, ai webmaster e ad altri motori di ricerca, abbiamo documentato come il REP viene utilizzato sul Web moderno e lo abbiamo inviato all’IETF. “

Cosa significa per te

Se usi noindex nel tuo file robots.txt, Google non lo onorerà più. Hanno onorato alcune di queste implementazioni, anche se John Mueller ci ricorda:

Vedrai una notifica in Google Search Console se continui a utilizzare noindex nei tuoi file robots.txt.

Contenuto relativo:

Alternative all’utilizzo della direttiva sull’indicizzazione di Robots.txt

Se il tuo sito Web si basa ancora sulla direttiva noindex robots.txt, è necessario modificarlo perché Googlebots non seguirà le regole della direttiva a partire dal 1 ° settembre 2019. Ma cosa dovresti utilizzare invece? Ecco alcune alternative:

1) Blocca l’indicizzazione della ricerca con il meta tag “noindex”

Per impedire ai crawler dei motori di ricerca di indicizzare una pagina, puoi utilizzare il metatag “noindex” e aggiungerlo nella sezione <head> della tua pagina.

<meta name = “robots” content = “noindex”>

In alternativa, puoi utilizzare le intestazioni di risposta HTTP con un tag X-Robots per indicare ai crawler di non indicizzare una pagina:

HTTP / 1.1 200 OK

(…)

Tag X-Robots: noindex

2) Utilizzare i codici di stato HTTP 404 e 410

410 è il codice di stato restituito quando la risorsa di destinazione non è più disponibile sul server di origine.

Come sottolinea HTTPstatuses:

” La risposta 410 ha principalmente lo scopo di assistere l’attività di manutenzione del web notificando al destinatario che la risorsa è intenzionalmente non disponibile e che i proprietari del server desiderano che vengano rimossi i collegamenti remoti a quella risorsa.”

404 è simile al codice di stato 410. Nelle parole di John Mueller :

“ Dal nostro punto di vista, nel medio / lungo termine, un 404 è per noi uguale a un 410. Quindi, in entrambi questi casi, eliminiamo tali URL dal nostro indice.

Generalmente riduciamo la scansione di questi URL in modo da non perdere troppo tempo a eseguire la scansione di cose che sappiamo non esistono.

La sottile differenza qui è che un 410 a volte cadrà un po ‘più velocemente di un 404. Ma di solito, stiamo parlando nell’ordine di un paio di giorni circa.

Quindi, se stai solo rimuovendo i contenuti in modo naturale, allora va benissimo usare uno dei due. Se hai già rimosso questo contenuto molto tempo fa, allora non è già indicizzato, quindi non importa se usi un 404 o 410. “

3) Utilizzare la protezione con password

Puoi nascondere una pagina dietro gli accessi perché Google non indicizza le pagine nascoste dietro contenuti o accessi con paywall.

4) Non consentire robot usando Robots.txt

Puoi utilizzare la direttiva disallow nel file robots.txt per indirizzare i motori di ricerca a non consentire l’indicizzazione delle pagine scelte, il che significa semplicemente che stai dicendo ai motori di ricerca di non eseguire la scansione di una pagina specifica.

Nelle parole di Google :

“Sebbene il motore di ricerca possa anche indicizzare un URL basato sui collegamenti di altre pagine, senza vedere il contenuto stesso, miriamo a rendere tali pagine meno visibili in futuro.”

5) Utilizza lo strumento di rimozione URL di Search Console

Puoi utilizzare lo strumento Rimuovi URL di Search Console per rimuovere temporaneamente un URL dai risultati della ricerca. Questo blocco durerà 90 giorni. Se si desidera rendere permanente il blocco, è possibile utilizzare uno dei quattro metodi suggeriti sopra.

Clicca qui per scaricarlo gratuitamente adesso!

Ultima parola

Se desideri saperne di più su come rimuovere i tuoi contenuti dai risultati di ricerca di Google, vai al Centro assistenza di Google .

ibdi.it