Linux 명령 comm이 UTF-8로 인코딩된 텍스트 파일을 처리할 수 있습니까?

Linux 명령 comm이 UTF-8로 인코딩된 텍스트 파일을 처리할 수 있습니까?

UTF-8로 인코딩된 두 개의 텍스트 파일을 비교하고 싶습니다. Linux 명령 diff 및 comm이 이러한 인코딩을 처리할 수 있습니까?

답변1

왜 안 돼?

2개의 러시아어 텍스트 파일

$ file -i test1.txt test2.txt                                                                                                                                                    
test1.txt: text/plain; charset=utf-8                                                                                                                                                                               
test2.txt: text/plain; charset=utf-8

$ cat test1.txt                                                                                                                                                                  
Привет                     

$ cat test2.txt                                                                                                                                                                  
Добрый день                                                                                                                                                                                                        

$ diff test1.txt test2.txt                                                                                                                                                       
1c1                                                                                                                                                                                                                
< Привет                                                                                                                                                                                                           
---                                                                                                                                                                                                                
> Добрый день                                                                                                                                                                                                      

답변2

사용-나강제 파일 매개변수인코딩에 대한 정보 인쇄

일부 문자가 포함된 두 개의 파일을 만들었습니다.

코드UTF-8그리고 코드ISO-8859-1

$ file -i *
file1: text/plain; charset=utf-8
file2: text/plain; charset=iso-8859-1

관련 정보