Pagina rilevata ma attualmente non indicizzata?

Perché Google non mi indicizza il sito?

Secondo alcuni tool SEO la ricerca su Google “rilevata ma attualmente non indicizzata” ha un volume di ricerca di circa 170 vol/mese, ciò significa che tante persone hanno difficoltà ad indicizzare le pagine web del loro sito o blog e non sanno come venirne fuori.

La prima domanda che in genere uno si pone è “perché non vedo il mio sito su Google?“, pensando che dopo aver messo online un sito nel giro di poche setttimane (o giorni…) si arriva in prima pagina perché si è più bravi.

Niente di più sbagliato, perché prima di posizionarsi bisogna essere indicizzati, cioè essere presenti nell’indice di quell’enorme biblioteca che è Google.
ne ho già parlato in un altro articolo di questa enorme differenza e di come indicizzare un sito, qui invece vediamo uno dei più classici problemi di indicizzazione:

Google mi ha visto, ma non mi bada neanche di striscio, perché?

In poche parole è passato il bot di Google sul tuo sito, ha letto la sitemap ma ha indicizzato solo alcune pagine, mentre altre le ha lasciate in un limbo non ben preciso, quello delle pagine rilevate ma non indicizzate (tranquillo, sei in buona compagnia).

Cosa dice lo stesso Google su questa problematica? In realtà esistono due situazioni simili ma distinte

  • Pagina rilevata ma attualmente non indicizzata: “Google ha rilevato l’URL della pagina ma non l’ha ancora sottoposta a scansione. ”
  • Pagina scansionata, ma attualmente non indicizzata: “La pagina è stata sottoposta a scansione da Google, ma non indicizzata. In futuro la pagina potrebbe essere indicizzata o meno, ma non è necessario inviare di nuovo l’URL per la scansione.”

Tutto questo però significa tutto e niente, come spesso funziona con Google, la cui comunicazione è sempre un po’ sul fumoso. Cos’altro ci dice però Google?

Cosa dice Google

John Mueller, Webmaster Trends Analyst di Google ha risposto su Reddit ad un utente che gli chiedeva come mai succedeva ciò, e come sempre il buon John ha dato una sua versione dei fatti:

Non esiste un modo oggettivo per effettuare una corretta scansione del web.

È teoricamente impossibile effettuare il crawling di tutto, poiché il numero di URL reali è di fatto infinito. Poiché nessuno può permettersi di conservare un numero infinito di URL in un database, tutti i crawler web fanno ipotesi, semplificazioni e supposizioni su ciò che vale realisticamente la pena di essere crawlato.

E anche in questo caso, per scopi pratici, non è possibile effettuare il crawling di tutto questo per tutto il tempo, Internet non ha connettività e larghezza di banda sufficienti per farlo e costa molto denaro se si vuole accedere regolarmente a molte pagine (per il crawler e per il proprietario del sito).

Inoltre, alcune pagine cambiano rapidamente, altre non cambiano da 10 anni, quindi i crawler cercano di risparmiare fatica concentrandosi maggiormente sulle pagine che si aspettano di cambiare, piuttosto che su quelle che si aspettano di non cambiare.

E poi, si tratta della parte in cui i crawler cercano di capire quali pagine sono effettivamente utili. Il web è pieno di spazzatura che non interessa a nessuno, pagine che sono state spammate fino a diventare inutili. Queste pagine possono ancora cambiare regolarmente, possono avere URL ragionevoli, ma sono destinate alla discarica e qualsiasi motore di ricerca che si preoccupi dei propri utenti le ignorerà. A volte non si tratta solo di spazzatura evidente. Sono sempre di più i siti tecnicamente validi, ma che non raggiungono la “soglia” di qualità per meritare un maggiore crawling.

Pertanto, tutti i crawler (compresi gli strumenti SEO) lavorano su un insieme molto semplificato di URL, devono stabilire la frequenza di crawling, quali URL crawlare più spesso e quali parti del web ignorare. Non esistono regole fisse per tutto questo, quindi ogni strumento dovrà prendere le proprie decisioni lungo il percorso. Ecco perché i motori di ricerca indicizzano contenuti diversi, perché gli strumenti SEO elencano link diversi e perché le metriche costruite sulla base di questi dati sono così diverse.

John Mueller

Ho voluto sottolineare con il grassetto alcuni brevi passaggi che dovrebbero farti intuire qual’è oggi il vero problema di molti siti web: la qualità!
Quello che proponi tu lo fanno allo stesso modo o addirittura migliore già decine o centinaia di siti web, perché tu dovresti essere li davanti a tutti? Sei realmente migliore o lo pensi solo tu?

Indicizzazione e qualità dei contenuti

Google non ha interesse ad indicizzare tutto quel che i suoi bot incontrano per strada, le pagine “spazzatura” andrebbero ad ingolfare il su Database e rischierebbe di dare risposte agli utenti di scarsa qualità o non pertinenti, perdendo così di fatto il suo obiettivo: essere il numero uno dei motori di ricerca, in tal modo da essere più appetibile per le inserzioni pubblicitarie (ads).

Ma come decide cosa indicizzare e cosa meno? A fare da discriminante è la qualità dei contenuti, o presunta tale.

Per qualità si intende sia rispettare gli standard che Google chiede a livello tecnico (title di pagina, H1, nomi immagini, titoli di sezioni e paragrafi, ecc.) sia dare risposte concrete ed esaustive a domande (query) ben precise degli utenti.

Tra l’altro, se ne avete voglia, esiste un vero e proprio manuale che Google mette a disposizione dei web master.

Inoltre, se citate delle fonti autorevoli o siete voi stessi una fonte autorevole, è più o meno facile essere indicizzati, soprattutto per particolari temi che possono riguardare la salute o l’economia (concetto di E.A.T)

Crawl Budget: essere indicizzati non è per tutti

Google stesso tende a far capire come non scansiona e non indicizza tutte le pagine sia per questioni qualitative ma anche per questioni puramente economiche.
Scansionare e indicizzare pagine richiede uno sforzo non da poco per i suoi server, che se pur tra i più performanti al mondo non possono perdere tempo con tutta l’immondizia del web.

Google quindi dedica ad ogni sito web un tempo limitato per la scansione, finito il quale il suo bot chiude e se ne va, per cui è meglio che il sito sia performante a livello tecnico, strutturalmente ben concepito (menu e link interni) e con contenuti veramente di qualità.

L’importanza dei collegamenti interni

Google, attraverso il suo spider analizza un sito web seguendo la sitemap e/o i link interni, per cui se vuoi che riesca a scoprire tutte le pagine del sito cerca di strutturarlo in maniera tale che anche le ultime pagine in ordine di importanza siano collegate alla home, magari con al massimo i famosi “tre click di distanza” (cioè che dalla home devo cliccare al massimo su tre link/cta per arrivare al risultato che cerco).

Se la struttura è studiata male, con pagine link ridondanti verso determinate pagine ed altre pagine invece orfane di link, allora potrebbe essere che Google valuti sin da subito il sito come scadente e non lo consideri molto utile.

Un altro modo per valorizzare al meglio i link interni è quello di usare anchor text (le parole cliccabili) il più pertinenti possibili, che abbiano un senso logico e facciano capire dove si arriva seguendo quel link, anche attraverso il contesto (semantica).