Tutto WebMaster
HOME BLOG STRUMENTI SEO GUIDE SEO NEWS GLOSSARIO FAQ CONTATTI CERCA
Categorie
WebMaster Point
Notizie Hi-Tech
Web Marketing
New Economy
Archivio
Cerca

 »  Home  »  News  »   Web Marketing  »  Tecniche conosciute per scoprire documenti duplicati e simili

Tecniche conosciute per scoprire documenti duplicati e simili


Alcune precedenti tecniche per scoprire documenti duplicati e simili implicano la generazione di alcuni elementi dei documenti chiamati “fingerprints” (impronte digitali) (esempio paragrafi, sentenze, parole o targhette, insegne (per esempio l'accavvallamento stirato di parole consecutive)).

Guardiamo per esempio gli articoli:

Z. Broder, "On the Resemblance and Containment of Documents," Proceedings of Compression and Complexity of Sequences 1997, pp. 21-27, IEEE Computer Society (1988); S. Brin et al., "Copy Detection Mechanisms for Digital Documents," Proceedings of the ACM SIGMOD Annual Conference, San Jose 1995 (May 1995)

Alcuni o tutti i “fingerprints” possono essere usati per determinare documenti duplicati o simili. In maniera più specifica, due documenti potrebbero essere considerati simili se condividono più di un predeterminato numero (minimo due, generalmente piu' alto) di “fingerprints”.

Per un grande insieme di documenti (per esempio i miliardi di documenti che vengono indicizzati dai



Articolo pubblicato da Motori e Ricerca
Articoli correlati:

    Filtro antiduplicazione: indice dellinvezione
    Convegno GT: il primo Convegno del Forum GT
    Phrase identification in an information retrieval system
Top Articoli WebMarketing

 

[ Home | Blog | Strumenti SEO | Guide SEO | News | Glossario | SiteMap ]

© Tutto WebMaster
P.iva 02002750483