Crawl Budget Optimization: come agevolare la scansione e l’indicizzazione
Oggi ci occupiamo di uno degli argomenti SEO più sottovalutati in assoluto. Molti lo conoscono, tanti altri ne hanno solo sentito parlare ma probabilmente c’è una buona fetta di appassionati del web che non sanno di cosa si tratti. Stiamo parlando della Crawl Budget Optimization. Vediamo di fare un po’ di chiarezza intorno a quest’argomento, cominciando dalla definizione di Crawl Budget. Il Crawl Budget è l’insieme delle risorse che Google dedica alla scansione di un sito. Google sostiene che non si tratti di un fattore di ranking, in realtà disponiamo di dati empirici che dimostrano ampiamente il contrario. Il crawl budget incide sulla scansione del sito, la scansione del sito incide sull’indicizzazione, l’indicizzazione incide sul posizionamento. Ci permettiamo quindi di aggiungere una piccola precisazione alle dichiarazioni di Google e affermiamo che il Crawl Budget non è un fattore di ranking diretto ma può incidere pesantemente sulla visibilità di un sito nelle SERP.
Aumento del Crawl Budget
Probabilmente ora vi starete chiedendo quale sia il crawl budget destinato al vostro sito e soprattutto da cosa dipenda il suo valore. Cominciamo col dire che il Crawl Budget è diverso per ogni sito e la sua assegnazione risponde a criteri tutt’altro che democratici. Come si fa quindi a fare in modo che Googlebot dedichi più tempo ed energie al proprio sito? L’entità del Crawl Budget dipende essenzialmente da due fattori, il Crawl Rate Limit e la Crawl Demand. Il Crawl Rate Limit è il numero massimo di connessioni simultanee che Google può effettuare per scansionare il sito. Esso può essere influenzato in due modi:
- Attraverso le impostazioni del server;
- Attraverso le impostazioni di Search Console.
Nel momento in cui il crawl limit viene raggiunto, Googlebot smette di scansionare il sito. Se invece il limite non viene raggiunto, Googlebot può proseguire nella scansione, a patto però che sussista una sufficiente domanda di indicizzazione. La Crawl Demand dipende dai seguenti fattori:
- Popolarità del sito (link ricevuti);
- Qualità dei contenuti del sito.
Riassumendo, quindi, per aumentare il Crawl Budget occorre impostare il proprio Server in modo da non limitare in alcun modo la scansione di Googlebot; la funzione di Search Console relativa ai limiti di scansione non dovrebbe essere utilizzata se non in casi straordinari. Per il resto si tratta di pubblicare contenuti di qualità e di incrementare la link popularity del sito.
Ottimizzazione del Crawl Budget
Abbiamo appena parlato di come aumentare il budget di scansione, ora vediamo invece come consentire a Google di utilizzare al meglio il budget che ha a disposizione. All’interno delle attività di Crawl Budget Optimization è possibile distinguere tra due tipologie di interventi:
- Interventi server side;
- Interventi on-site;
Interventi Server Side
Probabilmente a molti sembrerà strano ma una buona parte dell’ottimizzazione del Crawl Budget non ha niente a che fare con i contenuti né con il codice del sito. La capacità di scansione dello spider dipende innanzitutto dalle performance dell’hosting e del web server. Ecco i principali interventi di ottimizzazione server side.
Riduzione dei tempi di risposta del server
Il tempo che il server impiega per restituire le risorse richieste è un fattore fondamentale per l’ottimizzazione del budget di scansione. Se le risposte del server sono lente, il crawler avrà una maggiore difficoltà e andrà ad esaurire prima il budget a disposizione. Da questo punto di vista il raggio d’azione non è molto ampio, se il proprio server non è abbastanza performante occorre optare per un pacchetto hosting differente. Questo è quello che può accadere effettuando un cambio di server:
Compressione delle risorse HTML, CSS e JS
La compressione con gzip o deflate riduce il numero di byte inviati tramite la rete. Questo tipo di compressione è facilmente implementabile attraverso l’utilizzo del modulo mod_deflate (per server Apache) o del modulo HttpGzipModule (per server Nginx); su server IIS è invece necessario agire sulla configurazione della Compressione http.
Corretta gestione della cache
Le impostazioni relative alla cache non hanno soltanto lo scopo di velocizzare la navigazione degli utenti. Esse vengono infatti considerate anche da Googlebot, che le segue esattamente come se fosse un browser. Tramite le apposite intestazioni http (Expires e Cache-Control) è possibile impostare i tempi di memorizzazione nella cache per tutte le risorse del sito. Ecco le impostazioni ideali:
- Risorse HTML: nessuna memorizzazione in cache;
- Immagini e video: memorizzazione in cache per minimo una settimana, massimo un mese;
- Risorse CSS: memorizzazione in cache per una settimana;
- Risorse JS: memorizzazione in cache per una settimana;
Interventi On Site
Dopo aver ottimizzato il server è possibile procedere alle ottimizzazioni on site. Esistono una serie di accorgimenti che possono rivelarsi molto importanti ai fini dell’ottimizzazione dell’attività di crawling di Googlebot. Di seguito i principali.
Minimizzazione delle risorse HTML, CSS e JS
Minimizzare il codice vuol dire eliminare tutti i byte non necessari, quindi rimuovere gli spazi superflui, i rientri e le righe vuote. Si tratta di un operazione molto semplice che quasi sempre è possibile effettuare direttamente dall’interfaccia del CMS, magari installando plugin dedicati.
Ottimizzazione delle immagini
L’ottimizzazione delle immagini consente di risparmiare molti byte velocizzando il processo di scansione e migliorando l’esperienza di navigazione degli utenti. Oltre all’ottimizzazione di base, effettuabile attraverso qualunque software per la modifica delle immagini (come Photoshop o GIMP) è bene effettuare un’ulteriore compressione delle immagini JPEG e PNG attraverso strumenti che consentano di mantenere integra la qualità. Strumenti validi per il formato JPEG Jpegtran o Jpegoptim, mentre per le immagini in formato PNG si può optare per OptiPNG o PNGOUT.
Corretta gestione dei Redirect
I Redirect, oltre a determinare una perdita di trust, appesantiscono il processo di scansione. In caso di migrazioni o riscrittura delle URL, è quindi importante correggere tutti i link interni al sito in modo che lo spider non sia costretto ad effettuare richieste inutili relative a pagine ormai definitivamente spostate. Sono inoltre assolutamente da evitare le catene di Redirect.
Corretta gestione dei link interni
Il modo in cui le pagine del sito sono linkate tra loro è determinante per una buona scansione e una corretta indicizzazione. Occorre aiutare Googlebot a raggiungere facilmente le pagine più importanti del sito, a scapito di quelle irrilevanti ai fini SEO. Risultano quindi fondamentali la corretta gestione del menu e delle paginazioni, nonché la strategia di interlinking. Importantissimo è anche il numero di link presenti all’interno delle singole pagine: ogni volta che una URL viene linkata, il budget di scansione si riduce. È bene inoltre precisare che Googlebot segue anche le URL che trova nella sezione <head> della pagina come quelle relative al Canonical e all’Hreflang.
Eliminazione dei contenuti duplicati e delle pagine inutili
La maggior parte dei siti che ha problemi con il crawl budget è caratterizzata dalla presenza di contenuti duplicati e pagine spazzatura che potrebbero essere tranquillamente ignorate dagli spider. Il caso più tipico è quello dei filtri di navigazione presenti negli e-commerce, veri e propri divoratori di crawl budget in grado di generare decine di migliaia di URL privi di valore aggiunto. È quindi necessario fare in modo che Googlebot non scansioni tali URL o, meglio ancora, che tali URL non vengano generate.
Riassumiamo di seguito gli interventi effettuabili ai fini dell’ottimizzazione dell’aumento del Crawl Budget:
Attività | Obiettivo | Impatto (1-5) |
corretta impostazione dei limiti scansione | aumento del crawl limit | 4 |
creazione di contenuti di qualità | aumento della crawl demand | 4 |
link building | aumento della crawl demand | 4 |
riduzione dei tempi di risposta del server | ottimizzazione del crawl budget | 5 |
compressione delle risorse | ottimizzazione del crawl budget | 3 |
minimizzazione delle risorse | ottimizzazione del crawl budget | 4 |
ottimizzazione delle immagini | ottimizzazione del crawl budget | 3 |
corretta gestione dei redirect | ottimizzazione del crawl budget | 2 |
corretta gestione dei link interni | ottimizzazione del crawl budget | 4 |
eliminazione dei contenuti duplicati | ottimizzazione del crawl budget | 4 |