echo와 cat의 실행 시간에 왜 이렇게 큰 차이가 있나요?

Question 1

여기서 고려해야 할 몇 가지 사항이 있습니다.

i=`cat input`

비용이 많이 들 수 있으며 케이스마다 차이가 많습니다.

이것은 명령 대체라는 기능입니다. 아이디어는 명령의 전체 출력에서 후행 개행 문자를 뺀 값을 i메모리의 변수에 저장하는 것입니다.

이를 위해 쉘은 하위 쉘에서 명령을 분기하고 파이프 또는 소켓 쌍을 통해 출력을 읽습니다. 여기에서 많은 변화가 보입니다. 여기 50MiB 파일에서 bash가 ksh93보다 6배 느리지만 zsh보다 약간 빠른 것을 볼 수 있습니다. yes yash.

속도가 느려지는 주된 이유 bash는 파이프에서 한 번에 128바이트를 읽고(다른 쉘은 한 번에 4KiB 또는 8KiB를 읽음) 시스템 호출 오버헤드로 인해 어려움을 겪기 때문입니다.

zshNUL 바이트를 이스케이프하려면 일부 사후 처리가 필요하며(다른 쉘은 NUL 바이트에서 중단됨) yash멀티바이트 문자를 구문 분석하여 더욱 강력한 처리를 수행합니다.

모든 쉘은 후행 개행 문자를 제거해야 하며 다소 효율적일 수 있습니다.

일부는 NUL 바이트를 처리하고 다른 것보다 더 우아하게 그 존재를 확인하기를 원할 수 있습니다.

그런 다음 메모리에 이 큰 변수가 있으면 이에 대한 모든 작업에는 일반적으로 더 많은 메모리를 할당하고 데이터 전체를 처리하는 작업이 포함됩니다.

여기에서 변수의 내용을 echo.

운좋게 echo도 쉘에 내장되어 있습니다. 그렇지 않으면 실행이 실패할 수 있습니다.매개변수 목록이 너무 깁니다.실수. 그렇더라도 매개변수 목록 배열을 구축하려면 변수 내용을 복사해야 할 수도 있습니다.

명령 대체 접근 방식의 또 다른 주요 문제는 다음을 호출한다는 것입니다.분할+전역 연산자(변수를 인용하는 것을 잊어버렸습니다).

이렇게 하려면 쉘이 문자열을 문자열로 처리해야 합니다.수치(일부 쉘은 이 작업을 수행하지 않고 이 영역에 결함이 있지만) 따라서 UTF-8 로케일에서 이는 UTF-8 시퀀스를 구문 분석하고(아직 이전처럼 수행되지 않은 경우) yash문자열에서 문자를 찾는 것을 의미합니다. 공백, 탭 또는 줄 바꿈이 포함 $IFS되면 $IFS(기본적으로 포함됨) 알고리즘은 훨씬 더 복잡하고 비용이 많이 듭니다. 이 분할로 인해 생성된 단어는 할당 및 복사되어야 합니다.

글로브 부분은 더 비쌉니다. 이러한 단어 중 하나에 전역 문자( *, ?, [)가 포함되어 있으면 쉘은 일부 디렉토리의 내용을 읽고 비용이 많이 드는 패턴 일치를 수행해야 합니다( bash예: 구현이 매우 나쁩니다).

입력에 이와 같은 내용이 포함되어 있으면 /*/*/*/../../../*/*/*/../../../*/*/*수천 개의 디렉터리를 나열하고 수백 MiB까지 확장할 수 있으므로 비용이 매우 많이 듭니다.

그런 다음 echo일반적으로 몇 가지 추가 처리가 수행됩니다. 일부 구현 \x에서는 수신하는 인수의 시퀀스를 확장합니다. 이는 내용을 구문 분석하고 데이터의 다른 할당 및 복사본을 구문 분석하는 것을 의미합니다.

반면에 대부분의 셸에는 cat내장되어 있지 않으므로 프로세스를 분기하고 실행하는 것을 의미합니다(따라서 코드와 라이브러리 로드). 그러나 첫 번째 호출 후에는 코드와 입력 파일의 내용이 메모리에 캐시되어 있습니다. 반면에 중개인은 없을 것입니다. cat많은 양의 데이터를 한 번에 읽어서 별도의 처리 없이 바로 쓰는 방식으로, 대용량 메모리를 할당할 필요 없이 버퍼만 재사용하면 된다.

이는 또한 NUL 바이트를 차단하지 않고 후행 줄 바꿈을 자르지 않기 때문에 더 안정적이라는 것을 의미합니다. 변수를 인용하여 이를 피할 수 있지만 캐스트 시퀀스를 확장하지 않지만 분할+글로브를 수행하지 않습니다. , printf대신 )을 사용하면 echo이를 방지 할 수 있습니다.

더 최적화하고 싶다면 cat여러 번 호출 하지 말고 input몇 번만 전달하면 됩니다 cat.

yes input | head -n 100 | xargs cat

100개 대신 3개의 명령이 실행됩니다.

변수 버전을 보다 안정적으로 만들려면 다음을 사용하고 zsh(다른 쉘은 NUL 바이트를 처리할 수 없음) 다음을 수행해야 합니다.

zmodload zsh/mapfile
var=$mapfile[input]
repeat 10 print -rn -- "$var"

입력에 NUL 바이트가 포함되어 있지 않다는 것을 알고 있는 경우 POSIXly를 통해 이를 안정적으로 수행할 수 있습니다( printf내장되지 않은 경우 작동하지 않을 수 있음).

i=$(cat input && echo .) || exit # add an extra .\n to avoid trimming newlines
i=${i%.} # remove that trailing dot (the \n was removed by cmdsubst)
n=10
while [ "$n" -gt 10 ]; do
  printf %s "$i"
  n=$((n - 1))
done

cat그러나 이는 루프에서 사용하는 것보다 결코 효율적이지 않습니다 (입력이 매우 작지 않은 한).

Answer

여기서 고려해야 할 몇 가지 사항이 있습니다.

i=`cat input`