GNU 병렬성을 효과적으로 사용하는 방법

Question 1

나는 당신이 GNU Parallel을 사용하고 있다는 사실에 정말 놀랐습니다 --pipe. 내 테스트의 최대 속도는 일반적으로 약 100MB/s입니다.

GNU Parallel에서는 병목 현상이 발생할 가능성이 높습니다. --pipe그다지 효율적이지 않습니다. --pipepart그러나 여기서는 CPU 코어당 1GB/s 정도를 얻을 수 있습니다.

안타깝게도 사용에는 몇 가지 제한 사항이 있습니다 --pipepart.

파일은 검색 가능해야 합니다(즉, 파이프가 없음).
--recstart/--recend를 사용하여 레코드의 시작 부분을 찾을 수 있어야 합니다(즉, 압축 파일 없음).
행 번호를 알 수 없습니다(따라서 4행의 레코드가 있을 수 없음).

예:

parallel --pipepart -a bigfile --block 100M grep somepattern

Answer

나는 당신이 GNU Parallel을 사용하고 있다는 사실에 정말 놀랐습니다 --pipe. 내 테스트의 최대 속도는 일반적으로 약 100MB/s입니다.

GNU Parallel에서는 병목 현상이 발생할 가능성이 높습니다. --pipe그다지 효율적이지 않습니다. --pipepart그러나 여기서는 CPU 코어당 1GB/s 정도를 얻을 수 있습니다.

안타깝게도 사용에는 몇 가지 제한 사항이 있습니다 --pipepart.

파일은 검색 가능해야 합니다(즉, 파이프가 없음).
--recstart/--recend를 사용하여 레코드의 시작 부분을 찾을 수 있어야 합니다(즉, 압축 파일 없음).
행 번호를 알 수 없습니다(따라서 4행의 레코드가 있을 수 없음).

예:

parallel --pipepart -a bigfile --block 100M grep somepattern

Question 2

grep은 매우 효율적입니다. 병렬로 실행할 필요가 없습니다. 명령에서 압축 해제에만 더 많은 CPU가 필요하지만 병렬화할 수는 없습니다.

입력을 병렬로 분할하려면 grep을 통해 일치하는 라인을 가져오는 것보다 더 많은 CPU가 필요합니다.

grep보다 라인당 더 많은 CPU가 필요한 것을 사용하려는 경우 상황이 달라집니다. 그러면 병렬화가 더 의미가 있습니다.

속도를 높이려면 병목 현상이 있는 위치를 확인하십시오. 압축을 풀거나(다른 압축 해제 도구나 더 나은 CPU를 사용하는 데 도움이 됨) 디스크에서 읽는 것이 좋습니다(다른 압축 해제 도구나 더 나은 디스크 시스템을 사용하는 데 도움이 됩니다).

내 경험에 따르면 lzma(예: -2)를 사용하여 파일을 압축/압축 해제하는 것이 더 나을 때도 있습니다. gzip보다 압축 비율이 높기 때문에 디스크에서 읽는 데 필요한 데이터가 훨씬 적고 속도도 비슷합니다.

Answer