11GB 단어 목록 텍스트 파일에서 특정 줄과 중복 항목을 제거합니다.

Question 1

발전을 위해 pv. 텍스트만 삭제하므로 임시 파일이 필요하지 않습니다. 파일을 덮어쓰시면 됩니다. 파일이 이미 정렬되어 있는 경우에는 필요하지 않고 sort -u그냥 정렬 됩니다 uniq.

pv file | {
  uniq | grep -v '^077'
  perl -e 'truncate STDOUT, tell STDOUT'
} 1<> file

grepPerl 라인은 쓰기가 끝나면 파일을 자릅니다.

파일을 제자리에 쓰는 것이므로 실수하면 되돌릴 수 없다는 점에 유의하세요.

Answer

발전을 위해 pv. 텍스트만 삭제하므로 임시 파일이 필요하지 않습니다. 파일을 덮어쓰시면 됩니다. 파일이 이미 정렬되어 있는 경우에는 필요하지 않고 sort -u그냥 정렬 됩니다 uniq.

pv file | {
  uniq | grep -v '^077'
  perl -e 'truncate STDOUT, tell STDOUT'
} 1<> file

grepPerl 라인은 쓰기가 끝나면 파일을 자릅니다.

파일을 제자리에 쓰는 것이므로 실수하면 되돌릴 수 없다는 점에 유의하세요.

Question 2

sed/awk/shell 스크립트의 복잡성을 크게 증가시키지 않고(따라서 전체 프로세스 속도를 늦추지 않고) ETA나 진행 상황을 표시할 수 있는지 확신할 수 없습니다. 가능한 한 빨리 만들고 싶다면 시도해 보십시오 cat source_file | uniq | sed -n -e '/^077/!p' > dest_file. 대략적인 진행률 표시를 얻으려면 dest_file백그라운드나 다른 터미널에서 명령을 실행하여 명령의 크기가 커지는 것을 볼 수 있습니다.

Answer

sed/awk/shell 스크립트의 복잡성을 크게 증가시키지 않고(따라서 전체 프로세스 속도를 늦추지 않고) ETA나 진행 상황을 표시할 수 있는지 확신할 수 없습니다. 가능한 한 빨리 만들고 싶다면 시도해 보십시오 cat source_file | uniq | sed -n -e '/^077/!p' > dest_file. 대략적인 진행률 표시를 얻으려면 dest_file백그라운드나 다른 터미널에서 명령을 실행하여 명령의 크기가 커지는 것을 볼 수 있습니다.

Question 3

awk '!a[$0]++' "filename" > /tmp/dup
mv -f /tmp/dup "filename"

Answer

awk '!a[$0]++' "filename" > /tmp/dup
mv -f /tmp/dup "filename"

11GB 단어 목록 텍스트 파일에서 특정 줄과 중복 항목을 제거합니다.

답변1

답변2

답변3

관련 정보