대용량 파일을 분할하기 위해 바이트를 직접 분할하는 것이 안전합니까?

Question

임의의 바이트 지점에서 바이너리 파일을 분할할 수 있습니다.

텍스트 파일을 분할하는 경우 임의의 바이트 지점에서 분할할 수 있지만 멀티바이트 유니코드 문자 중간에서 분할될 가능성이 높습니다. 그러나 내용을 해석하기 전에 파일을 연결하면 문제가 되지 않습니다. (또한 내용을 처리하기 전에 바이너리의 일부를 연결해야 하므로 차이가 없습니다.)

Python 코드에서와 같이 가변 비트 출력 조각을 사용한다는 것은 cat myBigFile.tar.gz.*.part간단한 콘텐츠를 사용하여 원본 콘텐츠를 재구성할 수 없다는 것을 의미합니다. (26개 부품의 경우 1, 10, 11, 12… 19, 2, 20, 21… 26, 3, 4, 5, 6, 7, 8, 9의 순서로 표시됩니다.)

다음은 myBigFile.tar.gz사용자 고유의 명명 규칙을 사용하여 2GB 부분으로 분할하는 방법입니다.

split --bytes=2G --numeric-suffixes=1 --suffix-length=2 --additional-suffix=.part myBigFile.tar.gz myBigFile.tar.gz.

man split명령줄 스위치에 대한 자세한 내용은 리소스를 참조하세요.

출력 파일 예:

myBigFile.tar.gz.01.part
myBigFile.tar.gz.02.part
myBigFile.tar.gz.03.part
…

이러한 파일이 있으면 간단한 명령과 셸 와일드카드를 사용하여 원본 파일을 재구성할 수 있습니다.

cat myBigFile.tar.gz.??.part >myBigFile.tar.gz

Answer 1