많은 수의 텍스트 파일을 하나의 큰 텍스트 파일로 결합

Question 1

존재하다:

cat */* > bigtextfile.txt

쉘은 */*(숨겨지지 않은) 일치하는 파일의 정렬된 목록으로 확장되고 cat이러한 파일 경로를 인수로 사용하여 실행됩니다.

cat각 파일은 차례로 열리고 파일에서 읽은 내용이 표준 출력에 기록됩니다. cat한 번에 메모리에 보관되는 데이터로 가득 찬 버퍼(몇 킬로바이트 정도)는 두 개 이상 없습니다.

그러나 발생할 수 있는 한 가지 문제는 매개변수 목록이 cat너무 커서 execve()시스템 호출 매개변수 크기 제한에 도달한다는 것입니다. 따라서 파일 목록을 분할하여 cat여러 번 실행해야 할 수도 있습니다 .

이것을 사용할 수 있습니다 xargs(여기에서는 GNU 또는 BSD를 xargs비표준 -r및 -0옵션으로 사용).

printf '%s\0' */* | xargs -r0 cat -- > big-file.txt

( printf셸에 내장되어 있기 때문에 시스템콜을 거치지 않으므로 execve, 제약사항을 거치지 않습니다.)

또는 find파일 목록을 만들고 필요한 만큼 cat 명령을 실행합니다.

find . -mindepth 2 -maxdepth 2 -type f -exec cat {} + > big-file.txt

또는 휴대용:

find . -path './*/*' -prune -type f -exec cat {} + > big-file.txt

*/*( 디렉토리의 심볼릭 링크에서 파일을 찾는 대신 숨겨진 파일(및 숨겨진 디렉터리의 파일)을 포함하며 파일 목록은 정렬되지 않습니다.)

최신 버전의 Linux를 사용하는 경우 다음을 수행하여 매개변수 크기 제한을 제거할 수 있습니다.

ulimit -s unlimited
cat -- */* > big-file.txt

Pass zsh, 다음을 사용할 수도 있습니다 zargs.

autoload zargs
zargs -- */* -- cat > big-file.txt

Pass 다음을 ksh93사용할 수 있습니다 command -x.

command -x cat -- */* > big-file.txt

이들 모두는 동일한 작업을 수행하며 파일 목록을 분할하고 cat필요한 만큼 많은 명령을 실행합니다.

이번에도 내장 명령을 사용하여 ksh93제한 사항을 해결할 수 있습니다.execve()cat

command /opt/ast/bin/cat -- */* > big-file.txt

Answer