디렉토리 내용의 MD5 합계를 합계로 얻는 방법은 무엇입니까?

Question 1

올바른 접근 방식은 질문하는 정확한 이유에 따라 다릅니다.

옵션 1: 데이터만 비교

트리 파일 내용의 해시만 필요한 경우 다음을 수행할 수 있습니다.

$ find -s somedir -type f -exec md5sum {} \; | md5sum

먼저 모든 파일 콘텐츠를 예측 가능한 순서로 개별적으로 집계한 다음 파일 이름 목록과 MD5 해시를 전달하여 해시하고 트리 변경 시 파일 콘텐츠가 변경될 때만 변경되는 값을 제공합니다.

불행히도 find -sBSD find(1)는 macOS, FreeBSD, NetBSD 및 OpenBSD에서만 작동합니다. GNU 또는 SUS find(1) 시스템에서 비슷한 것을 얻으려면 더 추악한 것이 필요합니다.

$ find somedir -type f -exec md5sum {} \; | sort -k 2 | md5sum

이 비트 는 find -sMD5 해시를 건너뛰도록 지시하므로 계산에서 필드 2에 있는 파일 이름만 줄 끝까지 정렬합니다 .sort-k 2sort

이 명령 버전의 한 가지 약점은 개행 문자가 포함된 파일 이름이 있으면 여러 줄 호출처럼 보이기 때문에 쉽게 혼란스러울 수 있다는 것입니다 sort. 이 find -s변형은 트리 순회와 정렬이 동일한 프로그램에서 발생하기 때문에 이 문제가 없습니다 find.

두 경우 모두 잘못된 긍정을 피하기 위해 순서가 필요합니다. 대부분의 일반적인 Unix/Linux 파일 시스템은 디렉터리 목록을 안정적이고 예측 가능한 순서로 유지하지 않습니다. ls등을 사용하여 이를 인식 하지 못할 수도 있습니다 . 디렉터리 내용을 자동으로 정렬합니다. 어떤 방식으로든 출력의 순서를 지정하지 않는 호출은 find출력의 줄 순서가 기본 파일 시스템이 반환하는 순서와 일치하게 하며, 이로 인해 파일의 순서가 다음과 같이 지정된 경우 명령이 제공됩니다. 입력이 변경됩니다. 데이터가 동일하더라도 해시 값이 변경되었습니다.

-k 2GNU sort명령에서 위의 비트가 필요한지 물어볼 수 있습니다 . 파일 이름은 내용이 변경되지 않는 한 파일 데이터의 해시로 적절하게 표시되므로 이 옵션을 제거하면 거짓 긍정이 발생하지 않으므로 GNU 및 BSD에서 동일한 명령을 사용할 수 있습니다 sort. 그러나 해시 충돌이 있는 경우 파일 이름의 정확한 순서가 이 작업을 수행하지 않을 경우 제공되는 부분 순서와 일치하지 않을 가능성이 적습니다(MD5는 1:2 ¹²⁸-k 2 ). 그러나 이렇게 작은 불일치 가능성이 애플리케이션에 중요한 경우 전체 접근 방식이 불가능할 수도 있다는 점을 명심하세요.

md5sum명령을 md5다른 해시 함수 로 변경 해야 할 수도 있습니다 . 다른 해시 함수를 선택하고 시스템에 명령의 두 번째 형식이 필요한 경우 sort이에 따라 명령을 조정 해야 할 수도 있습니다 . 또 다른 함정은 일부 데이터 요약 프로그램이 파일 이름을 전혀 작성하지 않는다는 것입니다. 전형적인 예는 오래된 Unix sum프로그램입니다.

이 방법은 md5sumN+1 호출이 필요하므로 다소 비효율적입니다. 여기서 N은 트리의 파일 수이지만 이는 파일 및 디렉터리 메타데이터 해싱을 방지하는 데 필요한 비용입니다.

옵션 2: 데이터 비교그리고메타데이터

이를 감지할 수 있어야 하는 경우아무것파일 내용뿐만 아니라 트리의 내용도 변경되었습니다. tar디렉터리 내용을 압축하여 다음 주소로 보내달라고 요청하세요 md5sum.

$ tar -cf - somedir | md5sum

파일 권한, 소유권 등도 볼 수 있으므로 tar파일 내용의 변경뿐만 아니라 이러한 변경 사항도 감지합니다.

이 방법은 트리를 한 번만 탐색하고 해싱 프로그램을 한 번만 실행하기 때문에 훨씬 빠릅니다.

find위의 기반 방법 과 마찬가지로 tar파일 이름은 기본 파일 시스템에서 반환된 순서대로 처리됩니다. 아마도 애플리케이션에는 이런 일이 발생하지 않을 것이라고 확신할 수 있는 내용이 있을 것입니다. 이 경우에는 적어도 세 가지 다른 사용 패턴을 생각할 수 있습니다. (지정되지 않은 동작 영역에 들어가기 때문에 나열하지 않겠습니다. 여기에 있는 모든 파일 시스템은 운영 체제 버전마다 다를 수 있습니다.)

오탐지가 발생하는 경우 다음 find | cpio옵션을 권장합니다.자일스의 대답.

Answer

올바른 접근 방식은 질문하는 정확한 이유에 따라 다릅니다.

옵션 1: 데이터만 비교

트리 파일 내용의 해시만 필요한 경우 다음을 수행할 수 있습니다.

$ find -s somedir -type f -exec md5sum {} \; | md5sum

먼저 모든 파일 콘텐츠를 예측 가능한 순서로 개별적으로 집계한 다음 파일 이름 목록과 MD5 해시를 전달하여 해시하고 트리 변경 시 파일 콘텐츠가 변경될 때만 변경되는 값을 제공합니다.

불행히도 find -sBSD find(1)는 macOS, FreeBSD, NetBSD 및 OpenBSD에서만 작동합니다. GNU 또는 SUS find(1) 시스템에서 비슷한 것을 얻으려면 더 추악한 것이 필요합니다.

$ find somedir -type f -exec md5sum {} \; | sort -k 2 | md5sum

이 비트 는 find -sMD5 해시를 건너뛰도록 지시하므로 계산에서 필드 2에 있는 파일 이름만 줄 끝까지 정렬합니다 .sort-k 2sort

이 명령 버전의 한 가지 약점은 개행 문자가 포함된 파일 이름이 있으면 여러 줄 호출처럼 보이기 때문에 쉽게 혼란스러울 수 있다는 것입니다 sort. 이 find -s변형은 트리 순회와 정렬이 동일한 프로그램에서 발생하기 때문에 이 문제가 없습니다 find.

두 경우 모두 잘못된 긍정을 피하기 위해 순서가 필요합니다. 대부분의 일반적인 Unix/Linux 파일 시스템은 디렉터리 목록을 안정적이고 예측 가능한 순서로 유지하지 않습니다. ls등을 사용하여 이를 인식 하지 못할 수도 있습니다 . 디렉터리 내용을 자동으로 정렬합니다. 어떤 방식으로든 출력의 순서를 지정하지 않는 호출은 find출력의 줄 순서가 기본 파일 시스템이 반환하는 순서와 일치하게 하며, 이로 인해 파일의 순서가 다음과 같이 지정된 경우 명령이 제공됩니다. 입력이 변경됩니다. 데이터가 동일하더라도 해시 값이 변경되었습니다.

-k 2GNU sort명령에서 위의 비트가 필요한지 물어볼 수 있습니다 . 파일 이름은 내용이 변경되지 않는 한 파일 데이터의 해시로 적절하게 표시되므로 이 옵션을 제거하면 거짓 긍정이 발생하지 않으므로 GNU 및 BSD에서 동일한 명령을 사용할 수 있습니다 sort. 그러나 해시 충돌이 있는 경우 파일 이름의 정확한 순서가 이 작업을 수행하지 않을 경우 제공되는 부분 순서와 일치하지 않을 가능성이 적습니다(MD5는 1:2 ¹²⁸-k 2 ). 그러나 이렇게 작은 불일치 가능성이 애플리케이션에 중요한 경우 전체 접근 방식이 불가능할 수도 있다는 점을 명심하세요.

md5sum명령을 md5다른 해시 함수 로 변경 해야 할 수도 있습니다 . 다른 해시 함수를 선택하고 시스템에 명령의 두 번째 형식이 필요한 경우 sort이에 따라 명령을 조정 해야 할 수도 있습니다 . 또 다른 함정은 일부 데이터 요약 프로그램이 파일 이름을 전혀 작성하지 않는다는 것입니다. 전형적인 예는 오래된 Unix sum프로그램입니다.

이 방법은 md5sumN+1 호출이 필요하므로 다소 비효율적입니다. 여기서 N은 트리의 파일 수이지만 이는 파일 및 디렉터리 메타데이터 해싱을 방지하는 데 필요한 비용입니다.

옵션 2: 데이터 비교그리고메타데이터

이를 감지할 수 있어야 하는 경우아무것파일 내용뿐만 아니라 트리의 내용도 변경되었습니다. tar디렉터리 내용을 압축하여 다음 주소로 보내달라고 요청하세요 md5sum.

$ tar -cf - somedir | md5sum

파일 권한, 소유권 등도 볼 수 있으므로 tar파일 내용의 변경뿐만 아니라 이러한 변경 사항도 감지합니다.

이 방법은 트리를 한 번만 탐색하고 해싱 프로그램을 한 번만 실행하기 때문에 훨씬 빠릅니다.

find위의 기반 방법 과 마찬가지로 tar파일 이름은 기본 파일 시스템에서 반환된 순서대로 처리됩니다. 아마도 애플리케이션에는 이런 일이 발생하지 않을 것이라고 확신할 수 있는 내용이 있을 것입니다. 이 경우에는 적어도 세 가지 다른 사용 패턴을 생각할 수 있습니다. (지정되지 않은 동작 영역에 들어가기 때문에 나열하지 않겠습니다. 여기에 있는 모든 파일 시스템은 운영 체제 버전마다 다를 수 있습니다.)

오탐지가 발생하는 경우 다음 find | cpio옵션을 권장합니다.자일스의 대답.

Question 2

체크섬은 파일에 대한 결정적이고 명확한 문자열 표현이어야 합니다. 결정적이란 동일한 파일을 동일한 위치에 넣으면 동일한 결과를 얻는다는 의미입니다. 명시적이란 표현이 서로 다른 두 개의 서로 다른 파일 세트를 의미합니다.

데이터 및 메타데이터

이러한 파일을 포함하는 아카이브를 만드는 것이 좋은 시작입니다. 이것은 분명한 표시입니다(분명히 아카이브를 추출하여 파일을 복구할 수 있기 때문입니다). 날짜 및 소유권과 같은 파일 메타데이터가 포함될 수 있습니다. 그러나 이는 아직 완전히 옳지 않습니다. 아카이브의 표현은 파일이 저장된 순서와 압축(해당되는 경우)에 따라 달라지기 때문에 아카이브가 모호합니다.

해결책은 보관하기 전에 파일 이름을 정렬하는 것입니다. 파일 이름에 개행 문자가 포함되어 있지 않으면 find | sortList를 실행하고 해당 순서대로 아카이브에 추가할 수 있습니다. 아카이버에게 디렉토리로 재귀하지 않도록 지시한다는 점에 유의하십시오. 다음은 POSIX pax, GNU tar 및 cpio에 대한 예입니다.

find | LC_ALL=C sort | pax -w -d | md5sum
find | LC_ALL=C sort | tar -cf - -T - --no-recursion | md5sum
find | LC_ALL=C sort | cpio -o | md5sum

이름과 내용만, 로우테크 방식으로

메타데이터가 아닌 파일 데이터만 고려하려는 경우 파일 내용만 포함하는 아카이브를 만들 수 있지만 이를 달성하기 위한 표준 도구는 없습니다. 파일 내용을 포함하는 대신 파일의 해시를 포함할 수 있습니다. 파일 이름에 개행 문자가 포함되어 있지 않고 일반 파일과 디렉터리만 있는 경우(심볼릭 링크나 특수 파일 없음) 이는 매우 간단하지만 몇 가지 사항에 주의해야 합니다.

{ export LC_ALL=C;
  find -type f -exec wc -c {} \; | sort; echo;
  find -type f -exec md5sum {} + | sort; echo;
  find . -type d | sort; find . -type d | sort | md5sum;
} | md5sum

체크섬 목록 외에도 디렉터리 목록도 포함합니다. 그렇지 않으면 빈 디렉터리가 표시되지 않습니다. 파일 목록이 정렬되어 있습니다(특정하고 재현 가능한 로케일에서 - 이를 상기시켜 준 Peter.O에게 감사드립니다). echo이 두 부분을 분리하십시오(이 부분이 없으면 md5sum출력이 일반 파일에도 전달될 수 있는 것처럼 보이는 이름으로 빈 디렉터리를 만들 수 있습니다). 또한 피해야 할 파일 크기도 나열되어 있습니다.길이 확장 공격.

그런데 MD5는 더 이상 사용되지 않습니다. 가능한 경우 SHA-2를 사용하거나 최소한 SHA-1을 사용하는 것을 고려하세요.

이름과 데이터, 이름에 줄 바꿈 지원

다음은 GNU 도구를 사용하여 파일 이름을 널 바이트로 구분하는 위 코드의 변형입니다. 이렇게 하면 파일 이름에 개행 문자가 포함될 수 있습니다. GNU 다이제스트 유틸리티는 모호한 줄 바꿈이 발생하지 않도록 출력에서 특수 문자를 인용합니다.

{ export LC_ALL=C;
  du -0ab | sort -z; # file lengths, including directories (with length 0)
  echo | tr '\n' '\000'; # separator
  find -type f -exec sha256sum {} + | sort -z; # file hashes
  echo | tr '\n' '\000'; # separator
  echo "End of hashed data."; # End of input marker
} | sha256sum

보다 강력한 접근 방식

이것은 파일 계층 구조를 설명하는 해시를 구축하는 최소한의 테스트를 거친 Python 스크립트입니다. 디렉터리 및 파일 내용을 설명하고 기호 링크 및 기타 파일을 무시하여 파일을 읽을 수 없는 경우 치명적인 오류를 반환합니다.

#! /usr/bin/env python
import hashlib, hmac, os, stat, sys
## Return the hash of the contents of the specified file, as a hex string
def file_hash(name):
    f = open(name)
    h = hashlib.sha256()
    while True:
        buf = f.read(16384)
        if len(buf) == 0: break
        h.update(buf)
    f.close()
    return h.hexdigest()
## Traverse the specified path and update the hash with a description of its
## name and contents
def traverse(h, path):
    rs = os.lstat(path)
    quoted_name = repr(path)
    if stat.S_ISDIR(rs.st_mode):
        h.update('dir ' + quoted_name + '\n')
        for entry in sorted(os.listdir(path)):
            traverse(h, os.path.join(path, entry))
    elif stat.S_ISREG(rs.st_mode):
        h.update('reg ' + quoted_name + ' ')
        h.update(str(rs.st_size) + ' ')
        h.update(file_hash(path) + '\n')
    else: pass # silently symlinks and other special files
h = hashlib.sha256()
for root in sys.argv[1:]: traverse(h, root)
h.update('end\n')
print h.hexdigest()

Answer

체크섬은 파일에 대한 결정적이고 명확한 문자열 표현이어야 합니다. 결정적이란 동일한 파일을 동일한 위치에 넣으면 동일한 결과를 얻는다는 의미입니다. 명시적이란 표현이 서로 다른 두 개의 서로 다른 파일 세트를 의미합니다.

데이터 및 메타데이터

이러한 파일을 포함하는 아카이브를 만드는 것이 좋은 시작입니다. 이것은 분명한 표시입니다(분명히 아카이브를 추출하여 파일을 복구할 수 있기 때문입니다). 날짜 및 소유권과 같은 파일 메타데이터가 포함될 수 있습니다. 그러나 이는 아직 완전히 옳지 않습니다. 아카이브의 표현은 파일이 저장된 순서와 압축(해당되는 경우)에 따라 달라지기 때문에 아카이브가 모호합니다.

해결책은 보관하기 전에 파일 이름을 정렬하는 것입니다. 파일 이름에 개행 문자가 포함되어 있지 않으면 find | sortList를 실행하고 해당 순서대로 아카이브에 추가할 수 있습니다. 아카이버에게 디렉토리로 재귀하지 않도록 지시한다는 점에 유의하십시오. 다음은 POSIX pax, GNU tar 및 cpio에 대한 예입니다.

find | LC_ALL=C sort | pax -w -d | md5sum
find | LC_ALL=C sort | tar -cf - -T - --no-recursion | md5sum
find | LC_ALL=C sort | cpio -o | md5sum

이름과 내용만, 로우테크 방식으로

메타데이터가 아닌 파일 데이터만 고려하려는 경우 파일 내용만 포함하는 아카이브를 만들 수 있지만 이를 달성하기 위한 표준 도구는 없습니다. 파일 내용을 포함하는 대신 파일의 해시를 포함할 수 있습니다. 파일 이름에 개행 문자가 포함되어 있지 않고 일반 파일과 디렉터리만 있는 경우(심볼릭 링크나 특수 파일 없음) 이는 매우 간단하지만 몇 가지 사항에 주의해야 합니다.

{ export LC_ALL=C;
  find -type f -exec wc -c {} \; | sort; echo;
  find -type f -exec md5sum {} + | sort; echo;
  find . -type d | sort; find . -type d | sort | md5sum;
} | md5sum

체크섬 목록 외에도 디렉터리 목록도 포함합니다. 그렇지 않으면 빈 디렉터리가 표시되지 않습니다. 파일 목록이 정렬되어 있습니다(특정하고 재현 가능한 로케일에서 - 이를 상기시켜 준 Peter.O에게 감사드립니다). echo이 두 부분을 분리하십시오(이 부분이 없으면 md5sum출력이 일반 파일에도 전달될 수 있는 것처럼 보이는 이름으로 빈 디렉터리를 만들 수 있습니다). 또한 피해야 할 파일 크기도 나열되어 있습니다.길이 확장 공격.

그런데 MD5는 더 이상 사용되지 않습니다. 가능한 경우 SHA-2를 사용하거나 최소한 SHA-1을 사용하는 것을 고려하세요.

이름과 데이터, 이름에 줄 바꿈 지원

다음은 GNU 도구를 사용하여 파일 이름을 널 바이트로 구분하는 위 코드의 변형입니다. 이렇게 하면 파일 이름에 개행 문자가 포함될 수 있습니다. GNU 다이제스트 유틸리티는 모호한 줄 바꿈이 발생하지 않도록 출력에서 특수 문자를 인용합니다.

{ export LC_ALL=C;
  du -0ab | sort -z; # file lengths, including directories (with length 0)
  echo | tr '\n' '\000'; # separator
  find -type f -exec sha256sum {} + | sort -z; # file hashes
  echo | tr '\n' '\000'; # separator
  echo "End of hashed data."; # End of input marker
} | sha256sum

보다 강력한 접근 방식

이것은 파일 계층 구조를 설명하는 해시를 구축하는 최소한의 테스트를 거친 Python 스크립트입니다. 디렉터리 및 파일 내용을 설명하고 기호 링크 및 기타 파일을 무시하여 파일을 읽을 수 없는 경우 치명적인 오류를 반환합니다.

#! /usr/bin/env python
import hashlib, hmac, os, stat, sys
## Return the hash of the contents of the specified file, as a hex string
def file_hash(name):
    f = open(name)
    h = hashlib.sha256()
    while True:
        buf = f.read(16384)
        if len(buf) == 0: break
        h.update(buf)
    f.close()
    return h.hexdigest()
## Traverse the specified path and update the hash with a description of its
## name and contents
def traverse(h, path):
    rs = os.lstat(path)
    quoted_name = repr(path)
    if stat.S_ISDIR(rs.st_mode):
        h.update('dir ' + quoted_name + '\n')
        for entry in sorted(os.listdir(path)):
            traverse(h, os.path.join(path, entry))
    elif stat.S_ISREG(rs.st_mode):
        h.update('reg ' + quoted_name + ' ')
        h.update(str(rs.st_size) + ' ')
        h.update(file_hash(path) + '\n')
    else: pass # silently symlinks and other special files
h = hashlib.sha256()
for root in sys.argv[1:]: traverse(h, root)
h.update('end\n')
print h.hexdigest()

Question 3

두 디렉터리 간의 차이점을 찾는 것이 목표라면 diff 사용을 고려해 보세요.

이 시도:

diff -qr dir1 dir2

Answer

두 디렉터리 간의 차이점을 찾는 것이 목표라면 diff 사용을 고려해 보세요.

이 시도:

diff -qr dir1 dir2

Question 4

사용checksumdir:

$ pip install checksumdir
$ checksumdir -a md5 assets/js
981ac0bc890de594a9f2f40e00f13872
$ checksumdir -a sha1 assets/js
88cd20f115e31a1e1ae381f7291d0c8cd3b92fad

서둘러요그리고더 쉽게다른 bash 솔루션보다.

Answer

사용checksumdir:

$ pip install checksumdir
$ checksumdir -a md5 assets/js
981ac0bc890de594a9f2f40e00f13872
$ checksumdir -a sha1 assets/js
88cd20f115e31a1e1ae381f7291d0c8cd3b92fad

서둘러요그리고더 쉽게다른 bash 솔루션보다.

디렉토리 내용의 MD5 합계를 합계로 얻는 방법은 무엇입니까?

답변1

옵션 1: 데이터만 비교

옵션 2: 데이터 비교그리고메타데이터

답변2

데이터 및 메타데이터

이름과 내용만, 로우테크 방식으로

이름과 데이터, 이름에 줄 바꿈 지원

보다 강력한 접근 방식

답변3

답변4

관련 정보