Unix에서 두 텍스트 파일의 유사성 또는 차이점을 평가할 수 있는 방법이 있습니까?
알아요 diff
. 하지만 그것은 나에게 차이점 그 자체를 줍니다. 내가 원하는 것은 답변, 즉 두 텍스트가 얼마나 유사한지에 대한 평가를 받는 것뿐입니다. 동일한 단어가 많이 포함되어 있는지, 텍스트가 매우 유사한 경우가 많은지 등입니다. 실제로 고품질로 평가하는 것은 꽤 복잡한 일인데, 이미 이런 일을 해본 사람이 있는지 궁금합니다.
단일 숫자만 받는 것이 더 나을 것입니다. 그러면 0은 숫자가 동일하다는 것을 의미하고 숫자가 높을수록 완전히 다르다는 것을 의미합니다.
답변1
diffstat
일반 출력을 읽고 diff
일부 통계를 인쇄하는 기능이 있습니다 .라인에 대해서만.
diff -u fileA fileB | diffstat
또는 wdiff
프로세스단어 차이.
wdiff -123 --statistics fileA fileB
더 흥미로운 옵션을 찾으려면 매뉴얼 페이지를 읽어볼 수도 있습니다.