I sistemi di IR finora usati dai più grandi motori di ricerca si sono sempre basati sull'acquisizione di contenuti e documenti di testo tramite algoritmi in grado di riconoscere i temi trattati da un documento usando le singole parole contenute: da un documento, eliminate le stopwords, si acquisiscono le parole che formano il documento e si classifica qust'ultimo in base alla rilevanza delle parole all'interno del testo.
Il processo non è assolutamente così semplice come l'ho descritto sopra, ma rende l'idea degli attuali processi per la ricerca e il recupero delle informazioni di un documento di testo in una grande collezione di documenti come il web.
Il gigante californiano di Mountain View, ultimamente, ha rilasciato una serie di 5 brevetti che potrebbero cambiare l'attuale sistema di information retrieval, cambiando così non solo il sistema di indicizzazione dei documenti, ma anche il sistema
|