Sign in to follow this  
pollu

riconoscere file uguali ma con nome diverso

Recommended Posts

Ciao a tutti

c'è un modo per trovare, al di la del nome che è diverso, due file uguali?

E successo questo: ho salvato su un hd esterno le foto che avevo su diversi mac. Per evitare che non mi copiasse file che avevano lo stesso nome (la numerazione di canon per due macchine diverse rimane la stessa) li ho rinominati tutti con un prefisso del computer da cui provenivano.

Ora ho una cartella foto con dei doppioni.

Come fare a scovarli e cancellarli?

Automator? Ma come?

Grazie

Share this post


Link to post
Share on other sites

Usi md5 e sei a posto.

Evidentemente no:

Questi tre file, ad esempio, hanno nome differente, contenuto differente ed md5 identico:

http://www.isidoroghezzi.net/md5_collision/Barack_Obama.pdf

http://www.isidoroghezzi.net/md5_collision/Al_Gore.pdf

http://www.isidoroghezzi.net/md5_collision/Paris_Hilton.pdf

$ md5 -r Barack_Obama.pdf 3d515dead7aa16560aba3e9df05cbc80 Barack_Obama.pdf$ md5 -r Paris_Hilton.pdf 3d515dead7aa16560aba3e9df05cbc80 Paris_Hilton.pdf$ md5 -r Al_Gore.pdf      3d515dead7aa16560aba3e9df05cbc80 Al_Gore.pdf
Per chiarimenti cerca "md5 collision" o "3d515dead7aa16560aba3e9df05cbc80" con un qualunque motore di ricerca

;-)

Share this post


Link to post
Share on other sites

Lo so bene, ma se fai anche un controllo con la dimensione del file riduci le probabilità, che comunque sono 1 ogni 2^128.

Puoi anche fare un controllo incrociato CRC32 e md5, volendo. Il tempo richiesto aumenta poco e la sicurezza abbastanza (ad occhio).

E alla fin fine, dopo aver fatto una sciocchezza come quella che ha fatto, anche se perdesse una immagine ogni 1000 probabilmente sarebbe già un ottimo risultato.

Share this post


Link to post
Share on other sites

Intanto grazie.

La necessità di cambiare nome era evidente: due macchine canon nominano i file allo stesso modo e se avessi sostituito tutti i file con lo stesso nome, avrei perso molti più file rispetto alla vostra soluzione.

ho fatto confusione (va bene, chiamiamola sciocchezza! :-), ma forse ora vedo la via d'uscita.

Una cosa banale.

Praticamente, come si utilizza il md5? Cioè, cosa devo fare? i file sono circa 15000. Perderne 15 o anche 20 non mi importa nulla. Ma come devo muovermi?

Lo so bene, ma se fai anche un controllo con la dimensione del file riduci le probabilità, che comunque sono 1 ogni 2^128.

Puoi anche fare un controllo incrociato CRC32 e md5, volendo. Il tempo richiesto aumenta poco e la sicurezza abbastanza (ad occhio).

E alla fin fine, dopo aver fatto una sciocchezza come quella che ha fatto, anche se perdesse una immagine ogni 1000 probabilmente sarebbe già un ottimo risultato.

Share this post


Link to post
Share on other sites

Ti servirebbe uno script che calcola l'md5 di ogni file (metti in conto che vada a 20 MB/s e ottieni il tempo necessario) e sputa fuori in un file di testo 3 valori per ogni file: dimensione, md5, indirizzo completo del tipo:

1234567 3d515dead7aa16560aba3e9df05cbc80 /Volumes/Disco fisso/Users/me/Pictures/Secret/Vecchio_computer-me_naked.jpg

A quel punto ordini i file prima per dimensione e poi per md5. Salvi il file e con un altro script fai quello che vuoi fare, ad esempio tenere solo un file per ogni gruppo di linee in cui appaiono lo stesso md5 e la stessa dimensione (ergo sono probabilmente lo stesso file).

Share this post


Link to post
Share on other sites

si è a pagamento... ma temo che se voglio realmente risolvere il problema dovrò affidarmi a strumenti del genere...

perché io "uno script che calcola l'md5", purtroppo per me, non so neanche da dove partire... :-(

brutta la mia ignoranza!!!!!

p.s. invece dello script posso usare automator?

Share this post


Link to post
Share on other sites

Lo so bene, ma se fai anche un controllo con la dimensione del file riduci le probabilità, che comunque sono 1 ogni 2^128.

La dimensione dei tre file d'esempio è la stessa: 104331 byte;

lo md5 è lo stesso: "3d515dead7aa16560aba3e9df05cbc80"

il contenuto è diverso.

In ogni modo quei tre file d'esempio, via md5 e dimensioni in byte, sono indistinguibili.

E non sono file dal contenuto banale: in uno si "certifica" che il presidente degli USA sarà Barack Obama, in un altro Al Gore, e nell'ultimo Paris Hilton!

;-)

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this