GNU sort --compress-program은 첫 번째 임시 파일만 압축합니다.

Question

여기 재현 안됐나요?

$ shuf -i1-10000000 > t.in
$ sort -S50M -T. t.in --compress-program=lzop  # ^z
$ file sort* | tee >(wc -l) > >(grep -v lzop)
7
$ fg   # ^c
$ sort --version | head -n1
sort (GNU coreutils) 8.25

문제는 큰 메모리 크기로 인해 압축 프로세스를 포크()한 다음 표준 쓰기로 돌아갈 수 없다는 것입니다. IE sort(1)는 이상적으로 압축 프로세스를 보다 효율적으로 분기하기 위해 posix_spawn()을 사용해야 할 때 fork()/exec()를 사용하고 있습니다. 이제 fork()는 CoW이지만 이러한 대규모 프로세스에 대한 관련 회계 구조를 준비하는 데 여전히 오버헤드가 있습니다. sort(1)의 향후 버전에서는 이 오버헤드를 피하기 위해 posix_spawn()을 사용할 것입니다(glibc는 버전 2.23부터 posix_spawn()의 사용 가능한 구현을 얻었습니다).

또한 더 작은 -S를 사용하는 것이 좋습니다. 어쩌면 - S1G 이하.

Answer 1

여기 재현 안됐나요?

$ shuf -i1-10000000 > t.in
$ sort -S50M -T. t.in --compress-program=lzop  # ^z
$ file sort* | tee >(wc -l) > >(grep -v lzop)
7
$ fg   # ^c
$ sort --version | head -n1
sort (GNU coreutils) 8.25

문제는 큰 메모리 크기로 인해 압축 프로세스를 포크()한 다음 표준 쓰기로 돌아갈 수 없다는 것입니다. IE sort(1)는 이상적으로 압축 프로세스를 보다 효율적으로 분기하기 위해 posix_spawn()을 사용해야 할 때 fork()/exec()를 사용하고 있습니다. 이제 fork()는 CoW이지만 이러한 대규모 프로세스에 대한 관련 회계 구조를 준비하는 데 여전히 오버헤드가 있습니다. sort(1)의 향후 버전에서는 이 오버헤드를 피하기 위해 posix_spawn()을 사용할 것입니다(glibc는 버전 2.23부터 posix_spawn()의 사용 가능한 구현을 얻었습니다).

또한 더 작은 -S를 사용하는 것이 좋습니다. 어쩌면 - S1G 이하.

GNU sort --compress-program은 첫 번째 임시 파일만 압축합니다.

답변1

관련 정보