D를 제외한 모든 줄 삭제

Question 1

cat Test.txt Test2.txt Test3.txt | LC_ALL=C grep '^D' > newfile.txt

또는:

for file in Test.txt Test2.txt Test3.txt; do
  LC_ALL=C grep '^D' < "$file"
done > newfile.txt

또는 grep선호하는 GNU가 grep해당 -h옵션을 지원하는 경우(파일 이름 인쇄를 피하기 위해):

LC_ALL=C grep -h '^D' Test.txt Test2.txt Test3.txt > newfile.txt

이를 사용하면 UTF-8 데이터 구문 분석을 피할 LC_ALL=C수 있습니다 . grep를 사용하면 ^D각 grep줄의 첫 번째 문자만 표시됩니다. grep, 특히 grepGNU는 일반적으로 sed.

Answer

cat Test.txt Test2.txt Test3.txt | LC_ALL=C grep '^D' > newfile.txt

또는:

for file in Test.txt Test2.txt Test3.txt; do
  LC_ALL=C grep '^D' < "$file"
done > newfile.txt

또는 grep선호하는 GNU가 grep해당 -h옵션을 지원하는 경우(파일 이름 인쇄를 피하기 위해):

LC_ALL=C grep -h '^D' Test.txt Test2.txt Test3.txt > newfile.txt

이를 사용하면 UTF-8 데이터 구문 분석을 피할 LC_ALL=C수 있습니다 . grep를 사용하면 ^D각 grep줄의 첫 번째 문자만 표시됩니다. grep, 특히 grepGNU는 일반적으로 sed.

Question 2

이는 CPU 바인딩이 아닌 I/O 바인딩 작업일 가능성이 높으므로 다음과 같은 정규식 엔진을 사용하지 않더라도 다음과 같습니다.

grep -F 'D|' Test.txt Test2.txt Test3.txt

파일을 선으로 표시한 후 패턴을 검색해야 하기 때문에 시간이 오래 걸립니다.

이것이 일회성이고 인코딩에 신경 쓰지 않는다면 mmap(3)전체 파일을 메모리에 넣고 다음을 사용할 수 있습니다 memmem(3).

char *p;
if ((p = memmem(file, size, "\nD|", 3)) != NULL) {
        /* massage the line, i.e. find the next '\n'
         * and print the region between p+1 and the
         * next '\n' */
}

어디에 file매핑된 버퍼에 대한 포인터이고 size파일 크기입니다. (도움이 된다면 자세히 설명해 드리겠습니다.)

이 접근 방식은 여전히 시간이 좀 걸리지만(문제가 I/O 바인딩되어 있기 때문에) 최소한 파일을 행으로 표시하는 시간을 절약할 수 있습니다.

Answer