문자 인코딩으로 파일 찾기

Question 1

isutf8패키지에서 사용 moreutils:

find . -name '*.py' -exec isutf8 {} +

또는:

find . -name '*.py' | xargs isutf8

(후자는 파일 이름에 개행 문자가 없다고 가정합니다.)

Answer

isutf8패키지에서 사용 moreutils:

find . -name '*.py' -exec isutf8 {} +

또는:

find . -name '*.py' | xargs isutf8

(후자는 파일 이름에 개행 문자가 없다고 가정합니다.)

Question 2

유사한 실패 파일을 빌드하려면 다음 스크립트를 사용할 수 있습니다.

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

그러면 이 명령은 파일이 실패한 위치를 인쇄합니다.

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

따라서 .pypwd의 모든 python() 파일에서 위치 180에 잘못된 코드가 있는지 테스트합니다.

$ isutf8 ./*.py | grep "offset 180"

또는 더 유연한 일련의 오프셋(gnu 확장 정규식):

$ isutf8 ./*.py | grep -E "offset (17|18)"

또는 전체 디렉터리 내의 파일에 대해 특정 테스트를 수행합니다.

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

Answer

유사한 실패 파일을 빌드하려면 다음 스크립트를 사용할 수 있습니다.

{ printf '%*s' "179"; printf '\x81'; printf '%*s' "20"; } >infile

그러면 이 명령은 파일이 실패한 위치를 인쇄합니다.

$ isutf8 infile 
infile: line 1, char 1, byte offset 180: invalid UTF-8 code

따라서 .pypwd의 모든 python() 파일에서 위치 180에 잘못된 코드가 있는지 테스트합니다.

$ isutf8 ./*.py | grep "offset 180"

또는 더 유연한 일련의 오프셋(gnu 확장 정규식):

$ isutf8 ./*.py | grep -E "offset (17|18)"

또는 전체 디렉터리 내의 파일에 대해 특정 테스트를 수행합니다.

$ find . -iname "*.py" -type f -exec bash -c 'isutf8 "$1" | grep -E "offset (17|18)"' Find {} \;

관련 정보