n개 파일 간의 개별적인 차이를 알고 싶습니다. 다음과 같습니다.
parallel --tag 'diff {1} {2} | wc -l' ::: * ::: *
여기서 큰 문제는 바이너리 파일의 경우 하나의 거대한 줄이 짧은 줄과 동일하게 계산된다는 것입니다.
n개 파일의 퍼지 diff를 생성하는 방법은 무엇입니까?
답변1
ssdeep
해시 파일 생성 의 경우 :
ssdeep `find . -type f` > hash
그러면 90% <= 유사성 < 100%인 쌍이 제공됩니다.
ssdeep -m hash `find . -type f` | grep -E '9[0-9].$'
이는 긴 세그먼트(파일 크기의 약 1% 블록)가 동일한 경우에만 작동합니다.