Amazon S3를 통해 여러 시스템 간에 대규모 디렉터리(~40GiB 및 약 800만 개 파일)의 일부를 이동하려고 하는데, 심볼릭 링크를 보존해야 하므로 디렉터리를 압축하고 결과 파일을 업로드하는 대신 S3에 직접 동기화합니다. .
대부분의 파일은 이미 압축되어 있으므로 gzip이나 bzip을 사용하여 아카이브를 압축하지 않았습니다. 내 명령은 이렇습니다
tar --create --exclude='*.large-files' --exclude='unimportant-directory-with-many-files' --file /tmp/archive.tar /directory/to/archive
이 프로그램을 실행하는 동안 tar
8코어 시스템에서는 단 하나의 코어만 사용되는 것으로 나타났습니다. 이 코어의 후크, 낮은 로드 평균(~1) 및 내가 보고 있는 통계를 바탕으로 예상한 iostat
대로 작업이 실제로 디스크 바인딩이 아닌 CPU 바인딩이라는 인상을 받았습니다. 느리기 때문에(~90분) 추가 코어를 활용하기 위해 tar를 병렬화하는 데 관심이 있습니다.
이 주제에 대한 다른 질문집중하다존재하다압축또는여러 프로필 만들기(저의 경우 디렉토리 구조 때문에 쉽지 않았습니다.) 대부분의 사람들은 압축 없이도 타르볼을 만들 수 있다는 사실을 잊어버리는 것 같습니다.
답변1
tar
아카이브의 특성은 출력에 파일을 순차적으로 저장하는 것이므로 여러 아카이브를 생성하지 않으면 프로세스를 병렬화할 수 없습니다 .
작업의 병목 현상은 하드 드라이브일 수 있습니다. 따라서 작업을 두 개 이상의 프로세스로 분할하더라도 서로 다른 드라이브에서 실행되지 않는 한 더 빠르게 실행되지 않습니다.