Il brevetto sul filtro anti duplicazione che vi presentiamo può determinare documenti simili da:
1) per ogni documento, generando i “fingerprints”
2) determinando documenti simili basandosi sui “fingerprints”
In una incorporazione, i “fingerprints” possono essere pre-processati per eliminare quelli che occorrono solamente in un documento.
In un'altra, soltanto i rimanenti “fingerprints” potrebbero essere usati nella determinazione di documenti duplicati.
L'atto della generazione dei “fingerprints” per ogni documento può essere compiuto:
1) estraendo parti (come le parole) dai documenti,
2) hashing, ognuna di queste parti estratte per determinare quali da un pre-determinato numero di liste
3) per ognuna di queste liste, generando dei “fingerprints”
In risposta alla determinazione di documenti duplicati, la presente invenzione può funzionare anche per eliminare i
|