텍스트 파일을 고정된 단어 수의 줄로 분할

Question 1

사용 xargs(17초):

xargs -n1000 <file >output

-n최대 인수 수를 정의하는 플래그를 사용합니다 . 원하는 제한 으로 xargs변경하면 됩니다 .1000500

10^7 단어가 포함된 테스트 파일을 만들었습니다.

$ wc -w file
10000000 file

시간 통계는 다음과 같습니다.

$ time xargs -n1000 <file >output
real    0m16.677s
user    0m1.084s
sys     0m0.744s

Answer

사용 xargs(17초):

xargs -n1000 <file >output

-n최대 인수 수를 정의하는 플래그를 사용합니다 . 원하는 제한 으로 xargs변경하면 됩니다 .1000500

10^7 단어가 포함된 테스트 파일을 만들었습니다.

$ wc -w file
10000000 file

시간 통계는 다음과 같습니다.

$ time xargs -n1000 <file >output
real    0m16.677s
user    0m1.084s
sys     0m0.744s

Question 2

Perl은 이 점에 매우 능숙한 것 같습니다:

공백으로 구분된 10,000,000개의 단어가 포함된 파일을 만듭니다.

for ((i=1; i<=10000000; i++)); do printf "%s " $RANDOM ; done > one.line

Perl은 이제 1,000단어마다 줄바꿈을 추가합니다.

time perl -pe '
    s{ 
        (?:\S+\s+){999} \S+   # 1000 words
        \K                    # then reset start of match
        \s+                   # and the next bit of whitespace
    }
    {\n}gx                    # replace whitespace with newline
' one.line > many.line

타이밍

real    0m1.074s
user    0m0.996s
sys     0m0.076s

검증 결과

$ wc one.line many.line
        0  10000000  56608931 one.line
    10000  10000000  56608931 many.line
    10000  20000000 113217862 total

승인된 awk 솔루션은 입력 파일에서 5초가 조금 넘게 걸렸습니다.

Answer