n개 파일의 퍼지 비교

n개 파일의 퍼지 비교

n개 파일 간의 개별적인 차이를 알고 싶습니다. 다음과 같습니다.

parallel --tag 'diff {1} {2} | wc -l' ::: * ::: *

여기서 큰 문제는 바이너리 파일의 경우 하나의 거대한 줄이 짧은 줄과 동일하게 계산된다는 것입니다.

n개 파일의 퍼지 diff를 생성하는 방법은 무엇입니까?

답변1

ssdeep해시 파일 생성 의 경우 :

ssdeep `find .  -type f` > hash

그러면 90% <= 유사성 < 100%인 쌍이 제공됩니다.

ssdeep -m hash `find .  -type f` | grep -E '9[0-9].$'

이는 긴 세그먼트(파일 크기의 약 1% 블록)가 동일한 경우에만 작동합니다.

관련 정보