너무 느린 gzip -d 명령의 대안

Question 1

파이프로 대체할 수 있는 디스크 I/O가 많이 있습니다. func_create_dat_file50개의 압축 파일 목록을 가져와서 각 파일을 읽고 압축되지 않은 데이터를 씁니다 . 그런 다음 압축되지 않은 50개의 데이터 파일을 각각 읽고 파일 이름 앞에 다시 씁니다. 이 모든 작업은 순차적으로 수행되므로 여러 CPU를 완전히 활용할 수 없습니다.

나는 당신이 그것을 시도하는 것이 좋습니다

func_create_dat_file()
{
    cd raw_directory
    while IFS="" read -r f
    do
        zcat -- "$f" | sed "s/^/${f%.gz}|/"
    done < "${raw_file_list}" >> "${data_file}"
}

여기서는 압축된 데이터를 디스크에서 한 번 읽습니다. 압축되지 않은 데이터는 파이프에 한 번 기록되고, 파이프에서 읽힌 후, 디스크에 한 번 기록됩니다. 데이터 변환은 읽기와 병행하여 발생하므로 2CPU를 사용할 수 있습니다.

[편집] 이 섹션에 대한 설명을 요청하는 댓글입니다 sed "s/^/${f%.gz}|/". 다음은 각 줄의 시작 부분에 파일 이름을 새 필드로 추가하는 코드입니다. $f파일 이름입니다. 문자열의 끝에서 제거합니다 ${f%.gz}. 이 경우 .gz특별한 것은 없습니다 |. ${f%.gz}|파일 이름도 마찬가지입니다. 후행을 제거합니다 .gz. |In sed s/old/new/은 교체(replace) 명령이므로 regular expression해당 old부분을 나타내야 합니다. ^정규 표현식이 줄의 시작 부분과 일치하기 때문에 함께 사용하면 OP의 설명이 아닌 OP의 프로그램과 일치하도록 추가 .gz되었습니다 |. |실제로 CSV(쉼표로 구분된 변수) 파일인 경우 파이프가 아닌 쉼표여야 합니다.

Answer

파이프로 대체할 수 있는 디스크 I/O가 많이 있습니다. func_create_dat_file50개의 압축 파일 목록을 가져와서 각 파일을 읽고 압축되지 않은 데이터를 씁니다 . 그런 다음 압축되지 않은 50개의 데이터 파일을 각각 읽고 파일 이름 앞에 다시 씁니다. 이 모든 작업은 순차적으로 수행되므로 여러 CPU를 완전히 활용할 수 없습니다.

나는 당신이 그것을 시도하는 것이 좋습니다

func_create_dat_file()
{
    cd raw_directory
    while IFS="" read -r f
    do
        zcat -- "$f" | sed "s/^/${f%.gz}|/"
    done < "${raw_file_list}" >> "${data_file}"
}

여기서는 압축된 데이터를 디스크에서 한 번 읽습니다. 압축되지 않은 데이터는 파이프에 한 번 기록되고, 파이프에서 읽힌 후, 디스크에 한 번 기록됩니다. 데이터 변환은 읽기와 병행하여 발생하므로 2CPU를 사용할 수 있습니다.

[편집] 이 섹션에 대한 설명을 요청하는 댓글입니다 sed "s/^/${f%.gz}|/". 다음은 각 줄의 시작 부분에 파일 이름을 새 필드로 추가하는 코드입니다. $f파일 이름입니다. 문자열의 끝에서 제거합니다 ${f%.gz}. 이 경우 .gz특별한 것은 없습니다 |. ${f%.gz}|파일 이름도 마찬가지입니다. 후행을 제거합니다 .gz. |In sed s/old/new/은 교체(replace) 명령이므로 regular expression해당 old부분을 나타내야 합니다. ^정규 표현식이 줄의 시작 부분과 일치하기 때문에 함께 사용하면 OP의 설명이 아닌 OP의 프로그램과 일치하도록 추가 .gz되었습니다 |. |실제로 CSV(쉼표로 구분된 변수) 파일인 경우 파이프가 아닌 쉼표여야 합니다.

Question 2

그렇다면 하이브와 하둡은 어떨까요? "원시 파일 목록"을 제공하면 gzip -d불필요하게 분산 파일 시스템을 우회할 수 있습니다.

해당 프로덕션 서버에서 확실히 뭔가가 제대로 작동하지 않습니다. 1시간 안에 20GB가 압축 해제됩니다(자세한 내용은 생략했습니다). 100MB 파일을 11,300개 파일로 나누어 0.8초만에 압축을 풀었습니다. 이는 약 20배 빠른 속도입니다. naiv huge file list gzip 호출 및 ram 디스크를 사용하십시오. 또한 제안된 대로 설치하고 병렬을 시도했습니다. 10% 더 빨라짐: 0.7초. 따라서 이것은 문제가 되지 않습니다.

(저는 8GB RAM을 갖춘 Mini-PC i5만 가지고 있습니다.)

나는 실행중인 전력계를 가지고 있습니다. 14초의 느린 주기에서는 6W가 사용되었습니다.
내 의심스러운 루프에서는 6초 동안 약 17W였습니다. (힌트, X 서버이기도 합니다. 3.5W, Susp-to-RAM은 1.1, 꺼짐은... 0.7W)

내 테스트에서 대규모 매개변수 목록에 대한 14초 루프 대 0.8초의 비율은 내 100MB/0.8초에 대한 전체 25GB/h의 비율과 동일합니다. 20배... 느린 for 루프와 같습니다. hadoop과 hive의 거대한 매개변수 목록이 gzip과 bash를 방해하고 있다고 생각합니다.

Answer