25 anni di motori di ricerca, rivoluzione silenziosa ma epocale

0 0

Chi oggi ha tra i 20 e i 30 anni non riesce a immaginare un modo diverso di fare ricerca che non sia usare il web, scrivere delle parole-chiave e aspettare le risposte. Eppure tutto questo comincia appena venticinque anni fa, e in modo pionieristico: il vero cambiamento è quello di una quindicina di anni fa, con l’avvento di Google. Il giornalismo per primo, ma ancor più la ricerca scientifica, hanno dovuto profondamente modificare il loro metodo di lavoro: in un quarto di secolo si è visto che i vantaggi sono superiori agli svantaggi, ma bisogna saper usare questi mezzi al meglio e per questo occorre ancora, almeno in Italia, una sorta di nuova alfabetizzazione.

Come sempre in queste storie di tecnologia tutto cominciò in una università nordamericana. Il primo embrione di un motore di ricerca risale al 1990 – in questi giorni è l’anniversario –  e fu creato da uno studente canadese della McGill University of Montreal, Alan Emtage. Archie, così fu chiamato, era più propriamente una directory con indicizzati una quantità significativa di documenti, circa 2,6 milioni. Archie rispondeva alla richiesta dell’utente con il relativo risultato solo se l’utente conosceva perfettamente il nome del file che stava cercando. Era un sistema specialistico, complicato e  faticoso, ma era un “motore di ricerca”. Uno dei grandi meriti di Archie  fu quello di attirare su di sé le attenzioni di molti studiosi, così da avviare numerosissimi gruppi di ricerca sul document retrieval  in internet. Ovviamente le start-up nate all’ombra delle università circondate dalla Silicon Valley, in particolare la Stanford University, dimostrarono tutta la loro autorevolezza nel reperire investitori e nell’avviare progetti di grande forza innovatrice.

Uno dei pionieri del concetto di on-line storage e hypertext fu Vannevar Bush che nel suo testo As we may think risalente allal fine della guerra, nel 1945, in cui si legge una straordinaria immagine del futuro pensato come un sistema in cui una grande mole di informazioni, «continuamente estesa, conservata ma soprattutto consultabile», sarebbe potuta essere d’aiuto al genere umano.

La svolta del web ha fatto il resto molti anni dopo. Una volta compresa l’importanza di questo potenziale archivio senza fine, che cominciava a raccogliere milioni e milioni di documenti, nei centri di ricerca delle più innovative università si cominciò a lavorare all’unica cosa che risultava naturalmente conseguente ad una tale creazione: un potente metodo di consultazione. Il punto nodale era l’indicizzazione, trovare un sistema di documentazione dei dati che rendesse facile per più utenti reperire quell’informazione. In una sorta di magma composto da pacchetti di informazioni che viaggiavano attraverso la rete, cominciarono a nascere i primi archivi. Sin dalla nascita delle prime teorizzazioni di ipertesto e di sapere condiviso, si era posto l’accento sull’importanza di registrare e mantenere vivo un magazzino di dati che fosse consultabile da tutti e in qualsiasi momento. Per noi che lavoravamo in università era la realizzazione di un sogno: tutti, da tutto il mondo, abbiamo dato in quel periodo il nostro più o meno piccolo e importante contributo.

Per capire l’evoluzione di questo sistema è utile qualche breve dettaglio sull’argomento. Innanzitutto una distinzione tra directory  e motore di ricerca (o search engine).Le directory sono dei veri e propri cataloghi dove le pagine web non sono indicizzate, né vengono misurate con strumenti robotizzati. I search engines sono invece dei programmi che in brevissimo tempo scandagliano milioni di documenti, facenti parte del loro index, offrendo risultati alla ricerca effettuata da un utente – la query. I documenti vengono trovati e analizzati da spiders o crawlers, software dedicati all’analisi delle pagine, che ottengono risultati da un database  all’interno del quale vengono indicizzate tutte le pagine web precedentemente memorizzate.

Ben presto (1991) nacque Gopher, creato da Mark MacHill dell’Università del Minnesota. Pur essendo molto simile al suo predecessore, Gopher poté godere di due ulteriori sistemi usati per l’invio di file, Veronica e Jughead, creati dal gruppo di System Computing Services dell’Università del Nevada. Fino a questo momento, ovvero i primi anni ’90, lo scambio di file sulla rete avveniva tramite FTP (files transfer protocol), un metodo funzionale all’interno di piccoli gruppi di persone ma piuttosto scomodo se ampliato all’intera audience di internet, allora in vertiginosa crescita. Era il 1991 quando Tim Berners-Lee, al tempo impiegato al CERN di Ginevra, propose il concetto di hypertext alla base di quello che diventò presto il World Wide Web.  Il primo sito web creato fu http://info.cern.ch, on-line nell’Agosto del 1991. La grande novità fu la creazione del protocollo HTTP (HyperText Transfer Protocol) che da lì a qualche anno diventò lo standard mondiale. Già da qualche anno Berners-Lee collezionava le URL di molti siti web, inserendoli in una sua lista personale e d’uso privato. Così facendo, Berners-Lee poneva le basi per la prima e più antica directory del web: il W3Catalog, sviluppato successivamente da Oscar Nierstrasz dell’Università di Ginevra. Nell’Ottobre del 1993 fu creato un nuovo web index da Martij Koster, chiamato Aliweb, che sulla scia di Archie aveva come obiettivo la raccolta di tutti i siti presenti sul web. La grande novità era rappresentata dalla possibilità per ogni singolo utente di inviare il proprio sito, con URL e relativa descrizione, per includerlo nell’indicizzazione, così da permettere a Koster di non avere bisogno di un bot. Nel Dicembre del 1993 nascono le prime forme di web search engines simili a quelli da noi oggi conosciuti, come JumpStation e i relativi bot World Wide Web Worm e Repository-Based Software Engineering Spider (RBSE). Sempre nel 1993 sei studenti non ancora laureati di Stanford diedero avvio ad un progetto chiamato Architext  che puntava  a rendere più efficiente la ricerca sul web attraverso l’analisi statistica della relazione tra le parole. Inizialmente nata come una raccolta delle loro pagine preferite, Yahoo! vinse la concorrenza grazie ad un’importante novità. Ogni sito web indicizzato era provvisto di una descrizione scritta da un editore, con il relativo URL. Nel ’94, grazie all’impegno di  Brian Pinkerton dell’Università di Washington, fece la sua apparizione Web Crawler, il primo bot ad indicizzare intere pagine web. A poco più di un anno dalla sua comparsa si vide l’ingresso sul mercato di Lycos, Infoseek e OpenText. Lycos divenne pubblico nel Luglio del 1994 con un catalogo di circa  54,000 documenti. Oltre ad un innovativo sistema di  ricerca basato sulla rilevanza delle altre ricerche, sull’identificazione dei prefissi delle parole e su un’approssimazione delle parole nella ricerca, Lycos dimostrò in poco tempo la sua grande potenza nell’ispezionare il web. Ad Agosto, solo dopo un mese dalla sua nascita, il suo index  era di 394.000 documenti che divennero 1,5 milioni nel Gennaio del 1995 e più di 60 milioni nel Novembre del 1996.  Lycos superò ogni record e diventò in meno di un anno il motore di ricerca con il più ampio index al mondo. Tutt’altra storia per Infoseek, la cui grande ricchezza fu essenzialmente l’aver convinto Netscape a utilizzarlo come motore di ricerca predefinito.

Furono molte le innovazioni portate dal motore di ricerca AltaVista che mostrò di avere tutte le carte in regola per diventare il miglior sistema di document retrieval. Anche nelle aziende italiane si faceva formazione su come usare i motori di ricerca e si utilizzava come modello proprio Alta Vista, che aveva una larghezza di banda quasi illimitata per i tempi e fu il primo a offrire le query in un linguaggio naturale. Inoltre permetteva ai più esperti metodi di ricerca avanzati e consentiva a tutti i webmasters di aggiungere o cancellare la propria URL in sole ventiquattro ore.  Nell’Aprile del 1997 venne invece reso pubblico Ask Jeeves, promosso come “il primo motore di ricerca a linguaggio naturale”. Molti webmasters trovarono ben presto numerosi trucchi per “ingannare” questa tecnologia e falsarne i risultati, così ben presto fu soppiantata dalla tecnologia alla base di un nuovo motore di ricerca, Teoma.

Ma è il 1998 l’anno della svolta che dura ancora oggi: Larry Page e Sergey Brin mettono sul mercato Google. E qui serve il ragionamento sull’utilità dei motori di ricerca.
Prima di tutto è necessario distinguere fra due opzioni di ricerca. Non mi interessa sapere quante occorrenze soddisfano la mia ricerca (query), ma è importante individuare quelle che soddisfano le mie esigenze, eliminando come “rumore” quelle che soddisfano la ricerca ma non sono interessanti per il mio profilo. A questo punto entra in scena l’idea vincente,  il “page ranking”, introdotto da Google. Non mi interessa sapere quante possibili risposte posso ottenere ma voglio in risposta le poche che mi interessano davvero. E’ quello che fa il ranking, una soluzione che individua le risposte per me, e bypassa tutto il resto…la mia ricerca, non è la generica ”quante su internet” ma la specifica “quelle per me”.

Da quel momento, come si suol dire, non ce n’è più per nessuno. Dagli anni 2000 gli utenti abbandonano progressivamente gli altri motori, i blog dilagano, arrivano i social e tutti cercano solo con Google. Nel 2003 arriva Google Florida Update, importante aggiornamento dell’algoritmo del motore di ricerca, che manda in subbuglio il mondo SEO; con questo aggiornamento viene sottolineato che i fattori più importanti per il posizionamento sono i contenuti e il codice HTML.

Oggi Google è il sito più visitato al mondo: affrontare i temi della riservatezza, della cultura, della correttezza, del tracciamento, della censura, dei diritti è una specie di “tema dei temi”, un bel dibattito anche per Articolo21.

 

* ricercatore emerito Università di Firenze


Iscriviti alla Newsletter di Articolo21