큰 텍스트 목록에서 중복 항목 제거

Question 1

GNU coreutils 8.26에서 GNU를 사용하여 테스트한 결과 sort5GiB 파일을 정렬하는 데 문제가 없었습니다. 그래서, 당신은 그것을 설치하려고 할 수 있습니다.

하지만 기억해야 할 점:

sort -u고유한 행이 제공되지는 않지만 모든 행 중 하나가 동일하게 정렬됩니다. 특히 GNU 시스템과 일반 로케일에서는 여러 문자가 동일하게 정렬됩니다. 바이트 수준에서 고유한 행을 원하면 를 사용하십시오 LC_ALL=C sort -u.
sort전체 메모리를 모두 사용하지 않으려면 대규모 입력에 임시 파일을 사용하여 청크로 정렬하세요. 임시 디렉토리에 충분한 공간이 없으면(일반적 /tmp으로 설정하지 않는 한 $TMPDIR) 실패합니다. 충분한 여유 공간이 있는 디렉토리로 설정하십시오 ( GNU 옵션 $TMPDIR참조 ).-Tsort

Answer

GNU coreutils 8.26에서 GNU를 사용하여 테스트한 결과 sort5GiB 파일을 정렬하는 데 문제가 없었습니다. 그래서, 당신은 그것을 설치하려고 할 수 있습니다.

하지만 기억해야 할 점:

sort -u고유한 행이 제공되지는 않지만 모든 행 중 하나가 동일하게 정렬됩니다. 특히 GNU 시스템과 일반 로케일에서는 여러 문자가 동일하게 정렬됩니다. 바이트 수준에서 고유한 행을 원하면 를 사용하십시오 LC_ALL=C sort -u.
sort전체 메모리를 모두 사용하지 않으려면 대규모 입력에 임시 파일을 사용하여 청크로 정렬하세요. 임시 디렉토리에 충분한 공간이 없으면(일반적 /tmp으로 설정하지 않는 한 $TMPDIR) 실패합니다. 충분한 여유 공간이 있는 디렉토리로 설정하십시오 ( GNU 옵션 $TMPDIR참조 ).-Tsort

Question 2

printf "">출력 파일
고양이 입력 파일 |
IFS=는 -r 행을 읽는 동안;
  만약에[ ! -z "$line"];
    만약에! grep -Fxqe "$line" 출력 파일;
      echo "$line">>출력 파일;
    필리핀 제도
  필리핀 제도
완벽한

설명하다

새 출력 파일 만들기
printf "">OutputFile

입력 파일을 while 루프에 파이프합니다.
cat InputFile |

각 줄을 읽으십시오
while IFS= read -r line; do

빈 줄 처리
if [ ! -z "$line" ]; then

행이 이미 OutputFile에 있는지 확인하십시오.
결과가 비어 있으면 OutputFile에 아직 없는 것입니다(즉, 고유한 것입니다).
if ! grep -Fxqe "$line" OutputFile; then

출력 파일에 줄 넣기
echo "$line">>OutputFile;

Answer

printf "">출력 파일
고양이 입력 파일 |
IFS=는 -r 행을 읽는 동안;
  만약에[ ! -z "$line"];
    만약에! grep -Fxqe "$line" 출력 파일;
      echo "$line">>출력 파일;
    필리핀 제도
  필리핀 제도
완벽한