Uno dei problemi principali che i motori di ricerca si trovano ad affrontare riguarda la duplicazione dei contenuti.
La duplicazione di un documento, inteso come pagina web, file di testo o multimediale, può derivare da diverse situazioni che si possono riassumere in 2 macro categorie: la duplicazione di contenuti come tecnica black hat seo, al solo fine di ingannare il motore ed aumentare la propria posizione nelle serp, e la legittima ridistribuzione delle informazioni: basta pensare alle citazioni, ad una hot news, o alle licenze creative commons.
Google, in particolar modo, ha sviluppato un algoritmo per la determinazione di contenuti duplicati e simili, che sentiamo spesso nominare come "filtro antiduplicazione": di seguito vengono riportate le traduzioni del brevetto di Google sulla duplicazione dei contenuti.
STORIA DELL'INVENZIONE
La presente invenzione concerne il recupero e il management delle informazioniin generale.
|