중복 파일을 찾는 가장 효율적인 방법은 무엇입니까?

Question 1

FS 린트백엔드는 findup여러분에게 꼭 필요한 것일 수도 있습니다.

FSlint는 파일을 검사하고 다양한 크기의 파일을 필터링합니다. 그런 다음 정확히 동일한 크기의 나머지 파일을 확인하여 하드 링크가 아닌지 확인하십시오. 사용자가 결과를 "병합"하도록 선택하면 이전 검색에서 하드 링크 파일이 생성될 수 있습니다. FSlint는 파일이 하드 링크가 아니라고 판단하면 md5sum을 사용하여 파일에 다양한 서명이 있는지 확인합니다. md5sum 충돌을 방지하기 위해 FSlint는 sha1sum 검사를 사용하여 나머지 파일의 서명을 다시 검사합니다.

https://booki.flossmanuals.net/fslint/ch004_duplicates.html

Answer

FS 린트백엔드는 findup여러분에게 꼭 필요한 것일 수도 있습니다.

FSlint는 파일을 검사하고 다양한 크기의 파일을 필터링합니다. 그런 다음 정확히 동일한 크기의 나머지 파일을 확인하여 하드 링크가 아닌지 확인하십시오. 사용자가 결과를 "병합"하도록 선택하면 이전 검색에서 하드 링크 파일이 생성될 수 있습니다. FSlint는 파일이 하드 링크가 아니라고 판단하면 md5sum을 사용하여 파일에 다양한 서명이 있는지 확인합니다. md5sum 충돌을 방지하기 위해 FSlint는 sha1sum 검사를 사용하여 나머지 파일의 서명을 다시 검사합니다.

https://booki.flossmanuals.net/fslint/ch004_duplicates.html

Question 2

린트파일 시스템에서 중복 제거와 같은 작업을 수행하고, 후속 실행 속도를 높이기 위해 필요한 경우 xattrs를 통해 정보를 캐시하고, 사용자 정의 방식으로 사용할 수 있도록 메타데이터를 json 형식으로 제공할 수 있는 매우 효과적인 도구입니다.

rmlint finds space waste and other broken things on your filesystem and offers to remove it. It is able to find:

Duplicate files & directories.
Nonstripped Binaries
Broken symlinks.
Empty files.
Recursive empty directories.
Files with broken user or group id.

~에서사용자 설명서—rmlint

Answer

린트파일 시스템에서 중복 제거와 같은 작업을 수행하고, 후속 실행 속도를 높이기 위해 필요한 경우 xattrs를 통해 정보를 캐시하고, 사용자 정의 방식으로 사용할 수 있도록 메타데이터를 json 형식으로 제공할 수 있는 매우 효과적인 도구입니다.

rmlint finds space waste and other broken things on your filesystem and offers to remove it. It is able to find:

Duplicate files & directories.
Nonstripped Binaries
Broken symlinks.
Empty files.
Recursive empty directories.
Files with broken user or group id.

~에서사용자 설명서—rmlint

Question 3

예, 크기가 다른 파일과 일치하면 전체 md5가 생성될 것 같습니다. 이는 낭비로 이어질 수 있습니다. 대용량 파일의 경우 더 효율적인 접근 방식은 첫 번째 청크를 md5하고 일치하는 경우에만 자세히 살펴보는 것입니다.

즉, 크기를 확인하고, 일치하면 첫 번째 블록(512k)의 md5를 확인하고, 일치하면 다음 2개 블록(1024k)의 md5를 확인합니다.

Answer

예, 크기가 다른 파일과 일치하면 전체 md5가 생성될 것 같습니다. 이는 낭비로 이어질 수 있습니다. 대용량 파일의 경우 더 효율적인 접근 방식은 첫 번째 청크를 md5하고 일치하는 경우에만 자세히 살펴보는 것입니다.

즉, 크기를 확인하고, 일치하면 첫 번째 블록(512k)의 md5를 확인하고, 일치하면 다음 2개 블록(1024k)의 md5를 확인합니다.

중복 파일을 찾는 가장 효율적인 방법은 무엇입니까?

답변1

답변2

답변3

관련 정보