Cuil al nastro di partenza

Cuil è un nuovo motore di ricerca sviluppato da ex dipendenti Google, da ieri disponibile a tutti gli utenti della Rete. Dopo mesi di crawling selvaggio, un nuovo mega motore con qualcosa come 120 miliardi di pagine è a disposizione di tutti i navigatori.

Alcuni mesi fa avevo già scritto in merito a questo interessante progetto ed oggi possiamo finalmente vedere il frutto di tanto lavoro condotto dal team guidato da Tom Costello, Anna Patterson e Russell Power.

Il motore, nel corso degli ultimi 10 mesi ha subito anche una piccola sforbiciatina al nome. Ad ottobre scorso, infatti, il nome era CuiLL con due L, mentre oggi è solo Cuil, con una L sola. A detta degli autori, questa nuova denominazione è di più facile memorizzazione; come dargli torto. Tuttavia, esistono entrambe i domini .com, e addirittura un terzo, cuiling.com al quale il motore si appoggia per tutta una serie di operazioni che andrò ad analizzare nei prossimi giorni.

Cuil, a prima vista - dato l’alto numero di pagine - si presenta come l’indice più completo di tutto il Web; tuttavia ad un primo esame sembra che molte siano le aree - specie per noi italiani - non coperte da Twiceler, il motore di Cuil. Da quanto apprendo dalle release notes, questo motore ha scansionato qualcosa come 180 miliardi di pagine, e grazie al loro algoritmo, Cuil ha deciso di pubblicare i 120 sopra menzionati, tutti scremati - nel limite del possibile - grazie al Safe Search che individua pagine con contenuti porno e spam (non ho verificato ancora la reale efficacia.).

 Immagine 1 La prima cosa che colpisce del motore è senza dubbio la proposizione dei risultati. Non più semplici astratti della meta tag description o della pagina, ma micro paragrafi, per di più disposti in un layout a tre colonne (modiicabile in due). Perchè? Gli autori sostengono che la visione a colonne semplifica la lettura, ragion per la quale gli stessi giornali la adottano. Visione condivisibile o meno. Certo è che essendo una novità, per un pò potrà destare interesse … poi, non sò. A mio avvisio dovrebbero prevedere anche il classico formato Google-like.

Altra cosa che balza subito all’occhio è la presenza di una immagine all’interno di quasi tutti i risultati. Anche qui gli autori spiegano come la scelta decisionale dell’utente, in presenza di una immagine, spesso ricada sui risultati che presentano le immagini. Ci posso anche credere. Sulle FAQ dicono che i siti web spesso sono pieni di immagini, e che il loro algoritmo farà di tutto per selezionare le migliori. Però non dicono che il loro algoritmo piglia anche le immagini a casaccio per la rete e le propone per altri siti.

Infatti, testando il motore, ho provato a chiedere tutti i contenti per la keyword Abruzzo. Il motore prontamente mi ha suggerito le keyword rilevanti, tra le quali c’era “Hotel Abruzzo”. E’ interessante il terzo risultato (sarà il terzo o il settimo), dove viene mostrata l’immagine di un Hotel in Abruzzo che nulla a che vedere con il sito che predominava la SERP.

La prima spiegazione logica che mi viene in mente è che l’immagine chiamandosi hotel_camera_matrimoniale.jpg, ha destato l’interesse del crawler. Però non capisco perchè abbiano fatto questo accoppiamento errato. Roba da diritty di copyright e annessi e connessi.

Tra i risultati proposti, Cuil mostra anche le possibili ricerche correlate in cima (a differenza di Google che le mostra a fondo pagina), immediatamente sotto la textbox per l’immissione del testo da cercare. Un link navigabile per le pertinenze a maggior rilevanza; il resto dentro una combo attiva al click.

 Immagine 2 Il motore fa uso di Ajax, quindi il Javascript è d’obbligo. Tutto in piena regola web 2.0. Nei prossimi giorni mi riservo - anche visto il periodo di agosto piuttosto morto che sta per arrivare - qualche giorno di test per riportare qualsiasi cosa di utile.

Nel frattempo, invece, se siete alla ricerca di lavoro, potete mandare una e-mail a Cuil. Non dicono chi cercano, che esperienza deve avere, nè in che parte del globo stanno cercando, ma se siete appassionati di informatica o accaniti e indefessi scienziati del web, tentar non nuoce.

Cosa va approfondito al momento: dove e come segnalare nuove URL e dove e come segnalare le pagine contententi spam o pagine che non c’azzeccano un fico secco con la SERP. Devo capire infatti cosa ci fa una ditta di Frosinone in una SERP per una pagina che appena una volta dice “Frosinone confina a Nord con l’Abruzzo”.