Domare l'ira di Google e uscire fuori dalla penalizzazione per contenuti duplicati

Non molto tempo fa Enrico mi scrive in privato per chiedermi consiglio (Grazie, apprezzo quando qualcuno lo fa, perchè in un certo senso vuol dire riconoscere la professionalità e l'esperienza).Ban contenuti duplicati La richiesta non era facilissima, doveva posizionare un sito con il menù in Flash sui motori di ricerca, con alcune antipatiche aggravanti: - il sito era hostato su un Server Windows, che come sappiamo non è case sensitive; - files e cartelle erano nominati con un mix di maiuscole e minuscole - Era stata fatto dall'incauto backlinking (interno ed esterno)

Il disastro

Google aveva visto coppie, triplette, in un caso addirittura quaduple della stessa pagina e il ban per contenuti duplicati fu inevitabile.

Enrico aveva scoperto già tutto da solo, ovvero sapeva che il suo sito era stato penalizzato per contenuti**duplicati perchè la ditta che aveva operato in precedenza aveva rinominato una cartella arbitrariamente, per fare non si sà bene cosa. Purtroppo, senza adottare appositi accorgimenti, questa rinomina aveva portato Google a vedere tutto "doppio".

Enrico sapeva in parte come uscirne, ma ha preferito confrontarsi con me (cosa che male non mi ha fatto).

La soluzione

Come ho detto, il sito in questione girava su un server Windows 2003 con IIS 6, che di default non ha alcun componente per l'URL rewriting. A questo va inoltre aggiunto che - nel bene o nel male - Windows non fa alcuna differenza tra maiuscolo o minuscolo.

La cartella che esisteva prima quindi, tal "CNC", rinominata poi in "cnc" era per Windows la stessa cosa, ma per il World Wide Web tutt'altra faccenda. E proprio perchè il sito era hostato su un server Windows, non si poteva far ricorso nemmeno al redirect 301 a disposizione di IIS 6 perchè di fatto sorgente e destinazione combaciavano.

Il primo suggerimento che ho potuto dare è stato quello di pensare all'acquisto di un componente per l'URL rewriting per Windows. Ce ne sono diversi in commercio, ma questa soluzione non era praticabile.

Contemporaneamente avevo suggerito di rimuovere e/o rinominare in tutto il sito eventuali riferimenti alla vecchia cartella e cambiarli con il nuovo nome, operazione che peraltro era già stata fatta. Idem verificare e cercare di ottenere la correzione dei backlink esterni.

Rimaneva una sola alternativa, sulla quale sia io che Enrico nutrivamo un dubbio, ovvero il fatto che trattasse le regole in modalità sensitive. Qualche veloce ricerca, io sul sito del protocollo, ed Enrico mediante il webmaster tools, e siamo giunti alla conclusione che bloccare la vecchia cartella (tramite il robots.txt) in maiuscolo avrebbe comunicato a Google che l'aver rinominato la cartella era stato un errore piuttosto che un tentativo di fregare il suo crawler.

Di li a qualche giorno il sito, stante a quando Enrico mi ha detto, è stato depenalizzato e ora, con qualche rara eccezione, le pagine sono di nuovo tutte in SERP.

 4 Commenti

 Commento di Davide  13 April 2010

Ciao e grazie per aver condiviso le vostre esperienze!
Una domanda: perché non avete considerato l'idea di usare il metatag canonical?

Rispondi

 Commento di Dandandin  13 April 2010

Mi sembra assurdo che google sia così stupido da intendere due pagine differenti, dal contenuto identico che differiscano solamente dal nome case-sensitive, soprattutto perché i contenuti sono uguali al 100%, non si tratta di un plagio, o altro

Uno di Google dice che temporaneamente li vedono separati, ma poi li vedono come la solita pagina

http://groups.google.com/group/google_webmaster_help-indexing/msg/83d9d7fdcc061d3c

Altrimenti un competitor potrebbe spammare il web con milioni di varianti pagina.html Pagina.html PAgina.html PAGina.html e penalizzarti
Oppure che fai, chiedi per favore ai visitatori di stare attenti a pubblicare il link con la giusta capitalizzazione?

E chi si dimentica di mettere il www? Tecnicamente www. dominio. it e dominio.it possono essere due siti diversi...

E poi da un punto di vista userfriendly, il case-sensitive sul web è assolutamente da evitare, da rimuovere assolutamente anche su apache. Chi inserisce un URL a mano, al 99% ignorerà totalmente la capitalizzazione originale, ritrovandosi con un bel 404, che magari è implementato male e fa il redirect su dominio/pagina_non_trovata - a tal punto l'utente non ha la possibilità di correggere l'errore, e se ne va.

Rispondi

 Lascia un commento