디렉터리의 모든 텍스트 파일을 비교하고 유사성을 기준으로 정렬합니다.

디렉터리의 모든 텍스트 파일을 비교하고 유사성을 기준으로 정렬합니다.

Unix에서는 디렉토리의 모든 텍스트 파일을 디렉토리의 다른 모든 텍스트 파일과 비교한 다음 (유틸리티를 사용하여 diff) 유사성을 기준으로 각 쌍을 정렬하는 방법이 있습니까? 디렉토리에서 중복 파일을 찾을 수 있는 명령줄 Unix 프로그램(예: fdupes)이 이미 있지만 유사한 파일을 찾기 위해 쉘 스크립트를 사용할 수도 있는지 궁금합니다.

답변1

이 질문은 여러 수준에서 너무 광범위하다고 생각합니다. "차이"라는 용어는 데이터 유형과 해당 컨테이너(txt, mp3, avi, jpg)에 따라 다릅니다. 각각에 대해 고유한 처리 방법을 구현해야 합니다. 예를 들어 텍스트 또는 소스 코드 파일에는 diff유틸리티만 필요할 수 있습니다. 음악, 비디오 및 이미지 파일에는 퍼지 논리와 컴퓨터 학습 알고리즘이 필요합니다.

관련 정보