Cos’è un robots.txt noindex? È un tag (di solito in HTML) nel file robots.txt che impedisce ai motori di ricerca di includere quella pagina nei SERP.
Perché Google non lo supporta più? Perché la direttiva noindex robots.txt non è una direttiva ufficiale. E, come dice Google :
“Nell’interesse di mantenere un ecosistema sano e prepararsi per potenziali future versioni open source, stiamo ritirando tutto il codice che gestisce le regole non supportate e non pubblicate (come noindex) il 1 settembre 2019.”
Aggiornamenti recenti di Google
Google è stata impegnata a fare molti aggiornamenti nel 2019. Come aggiornamento, i più importanti sono:
- Aggiornamento principale di giugno 2019 . Google ha rilasciato una dichiarazione ufficiale in cui si afferma che ” Domani rilasceremo un ampio aggiornamento dell’algoritmo core, come facciamo più volte all’anno. Si chiama aggiornamento principale di giugno 2019. La nostra guida su tali aggiornamenti rimane quella che abbiamo trattato in precedenza. “
- Aggiornamento sulla diversità. Questo aggiornamento più piccolo di giugno influisce maggiormente sulle ricerche transazionali. Come per l’aggiornamento, Google ora mira a restituire risultati da domini univoci e non visualizzerà più più di due risultati dallo stesso dominio.
- Aggiornamento principale di marzo 2019. Questa è un’altra grande modifica al suo algoritmo. Google ha confermato questo aggiornamento, ma non ha fornito un nome, quindi è stato indicato come aggiornamento Florida 2 o aggiornamento principale di Google 3/12 . Non sono state fornite nuove indicazioni per questo aggiornamento.
Contenuto relativo:
- Gli aggiornamenti dell’algoritmo di ricerca più grande di Google che incidono sul tuo traffico nel 2019 [Infografica]
- La guida del Marketer per l’identificazione e la correzione di Google Index gonfia
- Guida per principianti all’uso corretto dei tag rel per migliorare le classifiche del tuo sito
- Come recuperare da qualsiasi pena di Google
Addio alla direttiva Noindex di Google Robots.txt
Ora, nel luglio 2019, Google ha detto addio alle regole non documentate e non supportate nel file robots.txt. Questo è ciò che Google ha twittato il 2 luglio 2019:
Se il tuo sito Web utilizza la direttiva noindex nel file robots.txt, dovrai utilizzare altre opzioni. Secondo la dichiarazione pubblicata sul blog ufficiale di Google Webmaster Central :
“Nell’interesse di mantenere un ecosistema sano e prepararsi per potenziali future versioni open source, stiamo ritirando tutto il codice che gestisce le regole non supportate e non pubblicate (come noindex) il 1 settembre 2019.”
Il motivo della cancellazione del supporto per nootsex robots.txt è stato discusso anche nel blog di Google :
“In particolare, ci siamo concentrati su regole non supportate dalla bozza Internet, come crawl-delay, nofollow e noindex. Poiché queste regole non sono mai state documentate da Google, naturalmente, il loro utilizzo in relazione a Googlebot è molto basso. Scavando ulteriormente, abbiamo visto che il loro utilizzo era contraddetto da altre regole in tutto tranne lo 0,001% di tutti i file robots.txt su Internet. Questi errori danneggiano la presenza dei siti web nei risultati di ricerca di Google in modi che non pensiamo intendessero i webmaster “.
Robots.txt – Il protocollo di esclusione dei robot (REP)
Il Robots Exclusion Protocol (REP), meglio noto come Robots.txt, è in uso dal 1994 ma non è mai stato trasformato in uno standard Internet ufficiale. Ma senza uno standard adeguato, sia i webmaster che i crawler erano confusi riguardo a ciò che viene sottoposto a scansione. Inoltre, il REP non è mai stato aggiornato per coprire i casi d’angolo di oggi.
Secondo il blog ufficiale di Google :
“ REP non è mai stato trasformato in uno standard Internet ufficiale , il che significa che gli sviluppatori hanno interpretato il protocollo in modo leggermente diverso nel corso degli anni. E sin dal suo inizio, il REP non è stato aggiornato per coprire i casi d’angolo di oggi. Questo è un problema difficile per i proprietari di siti Web perché l’ambiguo standard di fatto ha reso difficile scrivere le regole in modo corretto. “
Per porre fine a questa confusione, Google ha documentato come viene utilizzato il REP sul Web e lo ha inviato all’IETF (Internet Engineering Task Force), che è un’organizzazione Open Standards per far funzionare meglio Internet.
Google ha dichiarato in una dichiarazione ufficiale:
“Volevamo aiutare i proprietari di siti Web e gli sviluppatori a creare esperienze straordinarie su Internet invece di preoccuparsi di come controllare i crawler. Insieme all’autore originale del protocollo, ai webmaster e ad altri motori di ricerca, abbiamo documentato come il REP viene utilizzato sul Web moderno e lo abbiamo inviato all’IETF. “
Cosa significa per te
Se usi noindex nel tuo file robots.txt, Google non lo onorerà più. Hanno onorato alcune di queste implementazioni, anche se John Mueller ci ricorda:
Vedrai una notifica in Google Search Console se continui a utilizzare noindex nei tuoi file robots.txt.
Contenuto relativo:
- Come scrivere contenuti per le persone e ottimizzarli per Google
- Quali sono i più grandi errori del sito Web che stanno abbassando il mio ranking SEO?
- Come risolvere 15 problemi SEO tecnici comuni in loco
Alternative all’utilizzo della direttiva sull’indicizzazione di Robots.txt
Se il tuo sito Web si basa ancora sulla direttiva noindex robots.txt, è necessario modificarlo perché Googlebots non seguirà le regole della direttiva a partire dal 1 ° settembre 2019. Ma cosa dovresti utilizzare invece? Ecco alcune alternative:
1) Blocca l’indicizzazione della ricerca con il meta tag “noindex”
Per impedire ai crawler dei motori di ricerca di indicizzare una pagina, puoi utilizzare il metatag “noindex” e aggiungerlo nella sezione <head> della tua pagina.
<meta name = “robots” content = “noindex”>
In alternativa, puoi utilizzare le intestazioni di risposta HTTP con un tag X-Robots per indicare ai crawler di non indicizzare una pagina:
HTTP / 1.1 200 OK
(…)
Tag X-Robots: noindex
2) Utilizzare i codici di stato HTTP 404 e 410
410 è il codice di stato restituito quando la risorsa di destinazione non è più disponibile sul server di origine.
” La risposta 410 ha principalmente lo scopo di assistere l’attività di manutenzione del web notificando al destinatario che la risorsa è intenzionalmente non disponibile e che i proprietari del server desiderano che vengano rimossi i collegamenti remoti a quella risorsa.”
404 è simile al codice di stato 410. Nelle parole di John Mueller :
“ Dal nostro punto di vista, nel medio / lungo termine, un 404 è per noi uguale a un 410. Quindi, in entrambi questi casi, eliminiamo tali URL dal nostro indice.
Generalmente riduciamo la scansione di questi URL in modo da non perdere troppo tempo a eseguire la scansione di cose che sappiamo non esistono.
La sottile differenza qui è che un 410 a volte cadrà un po ‘più velocemente di un 404. Ma di solito, stiamo parlando nell’ordine di un paio di giorni circa.
Quindi, se stai solo rimuovendo i contenuti in modo naturale, allora va benissimo usare uno dei due. Se hai già rimosso questo contenuto molto tempo fa, allora non è già indicizzato, quindi non importa se usi un 404 o 410. “
3) Utilizzare la protezione con password
Puoi nascondere una pagina dietro gli accessi perché Google non indicizza le pagine nascoste dietro contenuti o accessi con paywall.
4) Non consentire robot usando Robots.txt
Puoi utilizzare la direttiva disallow nel file robots.txt per indirizzare i motori di ricerca a non consentire l’indicizzazione delle pagine scelte, il che significa semplicemente che stai dicendo ai motori di ricerca di non eseguire la scansione di una pagina specifica.
Nelle parole di Google :
“Sebbene il motore di ricerca possa anche indicizzare un URL basato sui collegamenti di altre pagine, senza vedere il contenuto stesso, miriamo a rendere tali pagine meno visibili in futuro.”
5) Utilizza lo strumento di rimozione URL di Search Console
Puoi utilizzare lo strumento Rimuovi URL di Search Console per rimuovere temporaneamente un URL dai risultati della ricerca. Questo blocco durerà 90 giorni. Se si desidera rendere permanente il blocco, è possibile utilizzare uno dei quattro metodi suggeriti sopra.
Ultima parola
Se desideri saperne di più su come rimuovere i tuoi contenuti dai risultati di ricerca di Google, vai al Centro assistenza di Google .