Il soft 404, un nuovo brevetto per Yahoo

Recentemente (due anni fa) Yahoo ha depositato un nuovo brevetto con il quale intende legiferare circa l’errore server 404 soft.

Dell’errore 404 ne ho parlato anche in passato, e quando ho letto di questo brevetto, onestamente ho fatto un peletto di fatica a stargli dietro, ma con una seconda - più attenta - lettura, alla fine ho compreso (spero) dove il motore antagonista di Google volesse arrivare.

Il brevetto in questione è:

Unsupervised Detection of Web Pages Corresponding to a Similarity Class US Patent Application 20090157607 Published June 18, 2009 Filed December 12, 2007

Se mi avete seguito nell’articolo precedente o comunque sapete cosa sia un errore 404, non vi suonerà nuovo che ad una pagina inesistente, il server web quando interpellato, invece di restituire un codice di errore 200 (Tutto ok) deve restituire un codice di errore 404 (Pagina non trovata) per indicare per l’appunto che il contenuto richiesto non esiste. Alla vista di tale codice i motori di ricerca sono così intelligenti da capire che l’eventuale pagina indicizzata e presente negli archivi può anche essere rimossa proprio perchè non più esistente.

Cosa succede quanto il motore di ricerca incontra il 404

Una volta che il motore di ricerca riceve questo codice, parte normalmente dal presupposto di abbandonare il sito web; questo con gravi conseguenze. Infatti una navigazione interrotta, equivale ad una scansione a metà (nel migliore dei casi), e comunque a dover attendere nuovamente che lo spider decida di passare per il nostro sito.

In una condizione come questa, artifici come la modifica del file delle pagine di errore con relativo codice d’errore ha preso via via sempre più piede. Questo di fatto ha innescato una nuova condizione dove il server pur restituendo visivamente una pagina d’errore - per far capire all’utente che il contenuto richiesto non esiste - al contempo rimanda indietro un errore http con codice 200, di fatto falsando il normale processo d’esecuzione. Infatti, il motore vedendosi arrivare uno status di ok, prosegue nell’interpretazione della pagina e solamente inserendo qualche link all’interno della stessa, si può far si che il motore continui il suo giro di turno.

In uno scenario ideale, questi artifici non dovrebbero esistere …

ma dato che ci sono e che vengono usati, con il brevetto in questione, Yahoo si prefigge di combatterli.

Il brevetto che per l’appunto verte a scovare pagine web per classe di similarità, immagino prevederà la creazione di una sorta di indice alternativo interrogato in date circostanze per scovare pagine che sono molto simili tra loro.

Ma cosa se ne farà Yahoo di questa nuova forma di identificazione?

La prima e più ovvia risposta è: ennesima pagina identica, se non è già presente non la indicizzo, se è presente e supera magari una certa soglia limite, il motore inizia con il pensare di rimuoverle tutte. Questo varrà quindi anche per tutte quelle landing pages per domini parcheggiati, o pagine fatte con il solo scopo di pubblicare bannerini pubblicitari o collegamenti sponsorizzati.

La seconda possibilità è quella di ridurre il trust di una pagina che linka una risorsa non più presente. Questa cosa, se lontanamente fosse vera, creerà non pochi problemi a quei siti lasciati all’abbandono.

La terza ipotesi che mi viene in mente è quella di creare un più moderno ed efficiente sistema tipo CopyScape, con il quale mostrare chi copia chi e dove.

Quanto al fattore identificazione, il documento denominato Syntactic Clustering of the Web viene indicato come uno dei possibili sistemi atti a scovare pagine simili.

E tu che tipo di 404 sei?

Personalmente ritengo opportuno rispettare il web e restituire sempre il codice d’errore corretto. Se del resto una pagina non esiste, è perché durante le attività di modifica del sito ho ritenuto opportuno cancellarla. E, fermo restando condizioni particolari, è giusto che a risorsa non trovata informi il motore e l’utente in modo opportuno. Questo non significa non poter non personalizzare la pagina d’errore, ma semplicemente farlo ritornando il giusto codice.

Esiste tuttavia una condizione dove si può venir meno a questo concetto, ed è quando la pagina in questione genera discreto traffico per qualsiasi motivi o ha un discreto numero di link in ingresso. In questo caso, posso cancellare la pagina e magari preoccuparmi di recuperare quel traffico reindirizzandolo verso una nuova risorsa grazie al redirect 301. Il motore sarà comunque informato del cambiamento e il sito web non perderà nulla.

E’ solo questione di saper usare lo strumento giusto al posto giusto nel momento giusto.