sed와 awk는 일반 bash를 사용하는 bash 스크립트에서 쉽게 수행할 수 없는 기능을 제공합니까? [폐쇄]

Question

이미 손과 무릎으로 기어가는 방법을 알고 있는데 자동차 운전 방법을 배우는 것이 무슨 의미가 있느냐고 묻는 것과 비슷합니다. 예, bash는 기본적인 텍스트 조작이나 간단한 수학에 남용될 수 있지만 가장 느린 도구이고 구문이 복잡하며 오류가 발생하기 쉽습니다. 또한 bash를 포함한 셸은 부동 소수점 작업을 수행할 수 없으므로 셸만 사용하여 수행할 수 있는 작업이 크게 제한됩니다.

이러한 이유 중 하나라도 충분하지만 다음은 매우 간단한 예입니다. 1부터 100,000까지의 숫자가 무작위 순서로 뒤섞인 파일을 가져옵니다.

seq 100000 | shuf > file

이제 모든 홀수를 선택해 보겠습니다. Bash에서는 다음과 같이 할 수 있습니다:

$ time while read num; do [[ $num =~ [24680]$ ]] || echo $num; done < file > newfile

real    0m3.481s
user    0m2.648s
sys     0m0.801s

내 컴퓨터에서는 약 3초 정도 걸립니다. 동일한 작업을 수행했지만 숫자가 1에서 1,000,000 사이인 경우에는 어떻게 될까요?

seq 1000000 | shuf > file

그리고:

$ time while read num; do [[ $num =~ [24680]$ ]] || echo $num; done < file > newfile

real    0m32.483s
user    0m25.035s
sys     0m7.343s

벌써 30초가 넘었습니다! 이제 awk동일한 내용을 올바른 수학으로 비교해 보세요.

$ time awk '$1 % 2 !=0' file > newfile 

real    0m0.344s
user    0m0.340s
sys     0m0.003s

1초도 안 남았습니다. 동일한 텍스트 일치 방법을 사용하는 sed는 어떻습니까/

$ time sed -n '/[13579]$/p' file > newfile 

real    0m0.280s
user    0m0.273s
sys     0m0.007s

1초도 채 지나지 않아 이런 일이 다시 일어났습니다. 그럼 10,000,000으로 늘리면 어떨까요?

$ seq 1000000 | shuf > file
$ time awk '$1 % 2 !=0' file > newfile 

real    0m4.081s
user    0m3.896s
sys     0m0.090s

$ time sed -n '/[13579]$/p' file > newfile 

real    0m2.898s
user    0m2.683s
sys     0m0.111s

$ time while read num; do [[ $num =~ [24680]$ ]] || echo $num; done < file > newfile1

real    5m42.445s
user    4m25.687s
sys     1m15.241s

보시다시피, 셸 솔루션은 비셸 솔루션보다 훨씬 느립니다. 그리고 천만 줄의 파일은 특별히 특이한 것이 아닙니다. 이것은 단지 76M 텍스트 파일입니다. 또한 두 가지 비쉘 솔루션은 모두 문자 길이 측면에서 훨씬 짧고 구문을 이해하면 훨씬 간단합니다.

즉, "당신이 가진 것이 망치뿐이라면 모든 것이 못처럼 보인다"는 사례입니다. 예, bash는 sedor와 같은 도구를 사용하여 수행할 수 있는 일부 작업을 수행할 수 있지만 awk훨씬 느리고 제대로 수행되지 않습니다.

Answer 1