Indicizzazione su Google: regole base

Per poter indicizzare una pagina web su Google bisogna prima assicurarsi di aver seguito alcune regole basilari

Ho già trattato in altri articoli il tema dell’indicizzazione sui motori di ricerca, in particolare:

Però in questo articolo voglio fare un preambolo, cioè spiegare meglio cosa dovete fare PRIMA di indicizzare una pagina, e questo per due motivi principali:

  1. Per non indicizzare pagine inutili e dannose per il vostro sito (pagine vuote, di test, ecc.)
  2. Perché il web è già abbastanza pieno di spazzatura, non ti ci mettere anche tu.

L’indicizzazione sui motori di ricerca può sembrare una cosa banale, molti proprietari di siti web manco sanno cosa sia, altri la confondono con il posizionamento, la quale è ben altra cosa e lo spiego qua.
Poi ci sono quelli che per non sbagliare propongono a Google qualsiasi cosa, dalle pagine di test a pagine vuote, passando per pagine di categoria, tag, archivi per nome e per data, ecc.

Diciamo più che altro che non sanno cosa sia la SEO, cosa significhi indicizzare una pagina, quali sono le implicazioni di una errata indicizzazione e cosa è bene controllare PRIMA di chiederne l’indicizzazione.

URL Seo friendly

L’URL di una pagina deve essere al contempo sintetico e sufficientemente descrittivo, così come lo devono essere il titolo H1 ed il tag title di pagina. A volte capita di trovare siti web con URL simili a questi:

  • https://www.nomesito.it/wp-content/uploads/2017/12/nomesito.it_Menu_2015.pdf
  • https://www.bibione.com/it/vendita/35443-condominio-xyz/
  • https://www.nomesito.com/it/article/v7m83j/pizzerie-al-trancio-città
  • http://www.nomesito.it/index.php/ct-menu-item-15/ct-menu-item-39

Ne ho presi 3 a caso dal web, ho cambiato i riferimenti reali ma lasciando gli errori palesi che vedete.
Quali errori?

Allora, il primo URL è un upload diretto di un PDF, con un po’ di sforzo si poteva renderlo un link più parlante, cioè più chiaro e semplice in modo che chi legge (Google e gli utenti)capisce subito su che pagina arriverà, ma soprattutto è un PDF, difficilmente posizionabile per vari motivi.

Ad esempio i PDF non sono mobile friendly, non sono pagine navigabili con menu e sono pagine che verrano scansionate dai motori di ricerca molto raramente perché si sa già in partenza che non verranno mai modificate.

Se poi guardate bene gli altri URL di esempio, capirete da soli che non sono “ben leggibili”.
Insomma, per capire se un URL può funziona basta solo usare il buon senso.

Pagine simili? Canonical!

Landing page, pagine di servizio simili, versioni AMP, tutto questo può portare a produrre pagine dai contenuti duplicati o molto simili, il che rende pericolosa l’indicizzazione.
Sia chiaro, ormai Google non “penalizza” nessuno per cose come questa, ma rischi seriamente che una delle pagine venga segnata come duplicata e quindi non indicizzata.

INDICIZZAZIONE SEO-pagina-duplicata-o-canonica

In questi casi, cioè di pagine simili ma che necessitano entrambe di essere indicizzate (landing per le Google Ads e pagine del sito, ad esempio), è utile e necessario rendere canonica (rel=canonical) la pagina che secondo voi è quella “ufficiale” per quell’argomento.

Se invece una delle due o più pagine non ha più senso di esistere (una vecchia landing, ad esempio), potete fare un bel redirect 301 alla pagina già dichiarata precedentemente come canonica.

Come dichiarare una pagina canonica?
per dichiarare la pagina web canonica a cui ci si riferisce, basta inserire una semplice riga di codice HTML nell’head della pagina

<link rel=”canonical” href=”URL-pagina-canonica/” />

Se poi avete WordPress un qualsiasi plugin SEO vi può aiutare.
Nel caso di Yoast andate in modifica pagina e in fondo, nella parte dedicata alla SEO on page trovate il menu avanzate dove poter impostare l’URL canonical:

Yoast-impostare-pagina-canonica
impostazione del rel=canonical con Yoast SEO

Usare correttamente il file robots.txt

Il file robots.txt è un semplicissimo file di testo che serve a dare alcune indicazioni ai bot dei motori di ricerca. In particolare è utile per indicare a Google il disallow (non ammettere) di determinate pagine ma anche per indicare la sitemap del sito (conviene indicarlo anche e soprattutto in Search Console).

Attenzione a come si usa il disallow, perché mi è capitato di trovare un sito web di un cliente con tutta la lingua inglese non indicizzata a causa di un errore sul file robots. Fortunatamente il sito andava totalmente rifatto.

Attenzione anche al fatto che il file robots è di dominio pubblico, quindi dovete sapere che chiunque potrebbe leggerlo. Se intendete usarlo per nascondere a Google e agli utenti delle pagine (es. l’area riservata ai clienti con login), sappiate che in realtà chiunque potrebbe arrivarci leggendo le vostre indicazioni.

indicazioni-mappa-cartelli

Sitemap

la Sitemap è un file in formato XML dove vengono inserite alcune info basilari sulle pagine, sui video e le immagini del sito, come ad esempio la data dell’ultima modifica, lingua, title, ecc., ma questo dipende dal metodo con cui viene costruita.

Più sitenticamente, la Sitemap serve per indicare a Google le pagine principali e più importanti del tuo sito, che non necessariamente devono essere tutte.

La Sitemap è sempre necessaria?
No, necessaria no, ma molto utile sicuramente si, perché se il sito ha un menu ben strutturato, la navigazione permette di raggiungere in profondità il sito, e tutte le pagine sono interconnesse tra loro tramite i link interni, allora i motori di ricerca riescono lo stesso a trovare le tue pagine e ad indicizzare i relativi contenuti.

la sitemap, però,come dice anche il nome riassume più velocemente la “mappa del sito”, permettendo una migliore e più semplice scansione del sito web da parte dei bot.
È un po’ come andare a Gardaland con o senza mappa del parco, sicuramente nell’arco della giornata lo esplori tutto, ma con la mappa fai molto prima e senza camminare a caso. Ecco, forse questo è proprio lo scopo principale della sitemap, cioè non far consumare inutilmente risorse a Google.

Inoltre, con la Sitemap dai una certa priorità (e periodicità) di scansione alla pagine in essa presenti.

Redirect 301 contro gli errori 404

Questo articolo è vecchio di 4 anni, sarebbe da aggiornare e porta pochi utenti, cancelliamolo”, ecco una tipica frase di un “manager” che non capisce molto di SEO, e questo per due motivi.

  1. Se l’articolo tratta un argomento evergreen ma necessita di aggiornamento, aggiornalo! Ti spiego meglio il concetto in questo altro mio articolo.
  2. Se cancelli un articolo o una pagina, crei in automatico un errore 404, cioè una pagina indicizzata ma inesistente.

A volte è utile e necessario potare un sito web da vecchie pagine o articoli inutili, ma in tal caso ricorda di fare sempre un redirect 301 (reindirizzamento definitivo) verso una pagina similare o al massimo verso l’home page.

Poi, dal momento che qualche disattenzione può sempre capitare, sarebbe il caso di creare anche una bella pagina 404 personalizzata, tipo questa di brandcrowd.com, ad esempio

pagina-404-divertente

Contenuti di qualità e tecnicamente curati

Google non indicizza tutto, questo perché anche “lui” non ha risorse infinite e vuole cercare di proporre solo contenuti validi, di qualità, non duplicati.

Cosa significa contenuti di qualità? semplice, che devi scrivere bene!
Una pagina ha senso di esistere (per Google) quando esprime un concetto e lo tratta in maniera completa, senza andare fuori tema, senza scrivere troppo solo per allungare il brodo, senza fare keyword stuffing (scrivere la keyword principale millemilavolte come 20 anni fa).

Insomma, argomenta bene il servizio che proponi, cerca di essere esaustivo nell’articolo che stai scrivendo, crea contenuti che diano risposte agli utenti (mettiti nei loro panni, cosa vorresti trovare in pagina?)

Per approfondire meglio questo tema, se vuoi capire come o cosa scrivere, leggiti questo mio articolo “come scrivere per il web“.

Una volta che hai preparato i contenuti li devi anche sistemare in maniera leggibile, con un layout ben studiato, e devi impostare bene:

  • Il titolo (H1)
  • Il title di pagina
  • la metadescription
  • l’URL (vedi inizio articolo)
  • Le immagini con nomi SEO friendly e ALT tag impostati
  • Una Table Of Content (TOC) se hai tante sezioni di pagina o paragrafi di articolo.

Conclusione

Spero con questo articolo di aiutarvi a comprendere cosa significa in realtà indicizzare un articolo e perché a volte alcune pagine non vengono indicizzate, ma soprattutto cosa vuole Google da noi “editori”.

Google non indicizza tutto, pretende un minimo di standard (anche se a volte in SERP trovate lo stesso dei risultati orrendi), e per accontentarlo bisogna seguire alcune regole basilari.
Cominciate a seguire i consigli di questo articolo, studiate le SERP, guardate cosa fanno i vostri competitor, prendete spunto da altri siti, e se avete bisogno di un aiuto professionale, chiamate un consulente SEO, che sarei io.