xargs 병렬 모드를 사용하여 출력을 단일 파일로 안전하게 리디렉션

Question

GNU Parallel은 임시 파일을 생성하지만 즉시 링크를 해제합니다.

실제로 이는 데이터 양이 적고 각 작업의 기간이 짧은 경우 이 데이터가 디스크에 도달하지 않는다는 것을 의미합니다(이것을 사용하여 iostat -dkx 1발생 여부를 확인할 수 있습니다).

링크되지 않은 파일은 시스템이 충돌할 경우 복구할 수 없으므로 지능형 파일 시스템은 이 데이터가 일관된 방식으로 디스크에 안전하게 동기화되도록 보장하는 데 시간을 낭비하지 않도록 선택할 수 있습니다. 이것은 또한 더 빠르게 만들 수 있습니다.

--tmpdirRAM이 충분하다면 /dev/shm을 가리킬 수도 있습니다.

parallel "bzcat {} | jq -c '{id,name}'" *.jsonl.bz2 > output.jsonl

CPU는 충분하지만 RAM이 많지 않고 디스크가 느린 경우 임시 파일을 압축하는 것이 더 빠를 수 있습니다.

parallel --compress "bzcat {} | jq -c '{id,name}'" *.jsonl.bz2 > output.jsonl

모든 출력에 임시 공간이 필요하지 않습니다. 현재 실행 중인 작업에 임시 공간만 필요합니다. 따라서 12개의 작업을 병렬로 실행하는 경우 12개의 파일을 위한 공간만 필요합니다.

Answer 1