디렉터리 및 모든 후속 하위 디렉터리에 있는 1TB의 데이터에서 중복 행을 제거하는 방법은 무엇입니까?

2024-6-4 • tag-icon

디렉터리 및 모든 후속 하위 디렉터리에 있는 1TB의 데이터에서 중복 행을 제거하는 방법은 무엇입니까?

디렉터리와 다양한 하위 디렉터리에 포함된 테라바이트 정도의 텍스트 파일에서 중복된 줄을 제거해야 합니다.

나는 sort -u *.txt > newfile.txt를 사용하고 다음에서 간단한 Python 스크립트를 만들어 보았습니다.

폴더의 여러 파일에서 중복된 줄 제거: 범위 내의 파일만 확인

둘 다 작동하지 않는 것 같습니다. sort -u 이고 거의 100GB에 달하는 텍스트 파일 폴더를 처리하는 동안 내 노트북에 메모리가 부족합니다(32GB).

관련 정보