L'analisi dei log server e una delle tecniche SEO piu avanzate e sottoutilizzate. Mentre Search Console mostra cosa Google ha indicizzato, i log rivelano cosa Google sta effettivamente facendo: quali pagine visita, con quale frequenza, e quali errori incontra.
Cosa sono i log del server
Ogni volta che qualcuno (o un bot) visita il tuo sito, il server registra la richiesta in un file di log. Questi file contengono informazioni preziose:
- IP: Indirizzo del visitatore
- Timestamp: Data e ora della richiesta
- URL: Pagina richiesta
- Status code: Risposta del server (200, 404, 500, etc.)
- User agent: Identificativo del browser o bot
- Referrer: Pagina di provenienza
- Dimensione: Byte trasferiti
"I log del server sono la fonte di verita definitiva su come i bot interagiscono con il tuo sito."
Come accedere ai log
Hosting condiviso
Cerca nella sezione "Statistiche" o "Log" del pannello di controllo (cPanel, Plesk). I log sono spesso in /var/log o accessibili tramite interfaccia.
VPS e server dedicati
Accedi via SSH. I log sono tipicamente in:
- Apache: /var/log/apache2/access.log
- Nginx: /var/log/nginx/access.log
CDN e hosting moderni
Cloudflare, AWS CloudFront, Vercel e simili offrono log tramite dashboard o API.
Identificare Googlebot
Googlebot si identifica tramite lo user agent:
User agent comuni di Google
- Googlebot/2.1: Crawler principale
- Googlebot-Image: Crawler immagini
- Googlebot-Video: Crawler video
- Googlebot-News: Crawler notizie
- Mediapartners-Google: AdSense
- AdsBot-Google: Verifica annunci
Verificare l'autenticita
Chiunque puo falsificare lo user agent. Per verificare che sia davvero Google:
- Esegui un reverse DNS sull'IP
- Il hostname deve terminare con googlebot.com o google.com
- Esegui un forward DNS per confermare
| Range IP | Tipo di bot |
|---|---|
| 66.249.x.x | Googlebot principale |
| 66.102.x.x | Altri servizi Google |
Metriche chiave da analizzare
1. Frequenza di crawl
Quante richieste fa Googlebot al giorno? Un calo improvviso puo indicare problemi.
2. Distribuzione delle pagine
Googlebot sta visitando le pagine giuste? Se spreca tempo su pagine inutili, hai un problema di crawl budget.
3. Codici di risposta
- 200: OK, pagina servita
- 301/302: Redirect
- 304: Non modificato (cache)
- 404: Non trovato
- 500: Errore server
4. Tempo di risposta
Quanto impiega il server a rispondere? Tempi lunghi rallentano il crawl.
5. Pagine orfane
Googlebot visita pagine che non sono linkate internamente? Potrebbero essere vecchi URL ancora nell'indice.
Ottimizza l'indicizzazione automaticamente
RSS AutoIndex aiuta a dirigere l'attenzione di Google verso i contenuti nuovi e importanti.
Prova gratisStrumenti di analisi
Strumenti dedicati
- Screaming Frog Log Analyzer: Analisi visuale completa
- Oncrawl: Cloud-based con insight avanzati
- Botify: Enterprise, molto potente
- JetOctopus: Cloud con buon rapporto qualita/prezzo
Strumenti generici
- ELK Stack: Elasticsearch, Logstash, Kibana
- AWStats: Open source, basico
- GoAccess: Real-time, terminale
Script custom
Per analisi specifiche, puoi usare script Python, grep, awk per filtrare e aggregare dati.
Ottimizzare il crawl budget
Usa i dati dei log per ottimizzare come Google spende tempo sul tuo sito:
Blocca pagine inutili
Se Googlebot spreca tempo su URL di filtro, ricerca interna, o parametri, bloccali con robots.txt.
Riduci le catene di redirect
Ogni redirect consuma crawl budget. Aggiorna i link alla destinazione finale.
Correggi gli errori 5xx
Gli errori server rallentano il crawl. Identificali e correggili rapidamente.
Migliora la velocita
Server piu veloci permettono a Google di scansionare piu pagine nello stesso tempo.
Prioritizza i contenuti importanti
Usa link interni per guidare Googlebot verso le pagine che contano di piu.
Identificare problemi
Calo improvviso del crawl
Possibili cause:
- Errori server frequenti
- Blocco accidentale in robots.txt
- Problemi di DNS o certificato SSL
- Penalizzazione manuale (raro)
Crawl di pagine indesiderate
Googlebot visita pagine che non dovrebbe? Verifica:
- Link interni verso quelle pagine
- Backlink esterni
- Presenza in sitemap
Errori 404 frequenti
Molti 404 indicano link rotti. Trova la fonte e correggi o implementa redirect.
Per automatizzare questo processo, scopri il nostro strumento di indicizzazione automatica che invia le tue nuove pagine a Google non appena vengono pubblicate.
Conclusione
L'analisi dei log server e una tecnica avanzata che offre insight unici:
- Capisci esattamente cosa fa Googlebot sul tuo sito
- Identifica sprechi di crawl budget
- Trova errori invisibili in Search Console
- Ottimizza la velocita e l'efficienza del crawl
Combinata con i dati di Search Console, l'analisi dei log ti da una visione completa della salute SEO tecnica del tuo sito.
Semplifica l'indicizzazione dei nuovi contenuti
Mentre ottimizzi il crawl budget, usa RSS AutoIndex per assicurarti che i nuovi contenuti vengano scoperti rapidamente.
Crea il tuo account gratuito