유닉스 문자셋 변환

Question 1

문제 #1: "Flyers: Video Center"를 검색합니다...결과가 없습니다.:

파일의 16진수 덤프에서 단어 사이에 2바이트 C2A0이 있음을 확인하세요.전단:그리고동영상. UTF8 인코딩입니다.중단되지 않는 공간.grep NBSP는 실패하는 것으로 알려져 있습니다.더 많은 정보를 원하시면 읽어주세요sed를 사용하여 특수 "M-BM-" 문자를 삭제하는 방법그리고sed를 사용하여 대체...Hex c2a0. 짧은 대답은 다음과 같습니다.

sed -i.bak -e 's/\xc2\xa0/ /' /path/to/file

질문 #2 "America's"는 "Americaâs"(??)로 나타납니다.:

여기서 덤프에는 e28099라는 3바이트가 포함되어 있습니다.오른쪽 작은따옴표('). 사실 여기에는 아무런 문제가 없어야 합니다! 위의 질문으로 인해 주의가 산만해질 수 있습니다. (확인할 수 있습니까?)

grep, 및 로케일을 존중하는 표현식(UTF8!)이 포함된 기타 도구를 사용하면 sed다음과 같이 작동합니다.

printf 'America\xe2\x80\x99s\n' | grep --only-matching "[[:punct:]]"
printf 'America\xe2\x80\x99s\n' | sed -e "s/[[:punct:]]/?/"

UTF-8을 모두 제거하고 싶다면"특별한" 문자를 사용하려면 위의 팁을 사용할 수 있습니다. iconv(하지만 이제 UTF8을 지원하지 않을 이유가 거의 없습니다.)

ASCII가 아닌 문자를 모두 제거합니다.

type a.txt | iconv -f utf8 -t ASCII//TRANSLIT

또는 한 로캘의 문자를 보존합니다.

type a.txt | iconv -f utf8 -t iso8859-15//TRANSLIT | iconv -f iso8859-15 -t utf8

Answer

문제 #1: "Flyers: Video Center"를 검색합니다...결과가 없습니다.:

파일의 16진수 덤프에서 단어 사이에 2바이트 C2A0이 있음을 확인하세요.전단:그리고동영상. UTF8 인코딩입니다.중단되지 않는 공간.grep NBSP는 실패하는 것으로 알려져 있습니다.더 많은 정보를 원하시면 읽어주세요sed를 사용하여 특수 "M-BM-" 문자를 삭제하는 방법그리고sed를 사용하여 대체...Hex c2a0. 짧은 대답은 다음과 같습니다.

sed -i.bak -e 's/\xc2\xa0/ /' /path/to/file

질문 #2 "America's"는 "Americaâs"(??)로 나타납니다.:

여기서 덤프에는 e28099라는 3바이트가 포함되어 있습니다.오른쪽 작은따옴표('). 사실 여기에는 아무런 문제가 없어야 합니다! 위의 질문으로 인해 주의가 산만해질 수 있습니다. (확인할 수 있습니까?)

grep, 및 로케일을 존중하는 표현식(UTF8!)이 포함된 기타 도구를 사용하면 sed다음과 같이 작동합니다.

printf 'America\xe2\x80\x99s\n' | grep --only-matching "[[:punct:]]"
printf 'America\xe2\x80\x99s\n' | sed -e "s/[[:punct:]]/?/"

UTF-8을 모두 제거하고 싶다면"특별한" 문자를 사용하려면 위의 팁을 사용할 수 있습니다. iconv(하지만 이제 UTF8을 지원하지 않을 이유가 거의 없습니다.)

ASCII가 아닌 문자를 모두 제거합니다.

type a.txt | iconv -f utf8 -t ASCII//TRANSLIT

또는 한 로캘의 문자를 보존합니다.

type a.txt | iconv -f utf8 -t iso8859-15//TRANSLIT | iconv -f iso8859-15 -t utf8

Question 2

같지 않은XML, 해당 정보에 대해 다른 방법으로 csv를 가져와야 했던 원본 콘텐츠 인코딩을 설명하는 인코딩 태그가 포함되어 있어야 합니다.

하지만유형이진 데이터에는 적합하지만 텍스트 데이터에는 적합하지 않습니다.

이는 명령이 작동하는 방식 때문입니다. 바라보다남자의 텍스트. 대략적으로: 처음 몇 바이트를 살펴보고 조회 테이블에서 발견된 내용을 찾아 내용을 추측하려고 시도합니다.

따라서 일반적으로 콘텐츠 제작자에게 어떤 문자 집합을 사용했는지 물어보는 것이 가장 좋습니다.

이것이 불가능할 경우 - 어떤 이유로든상여기 당신의 가장 친한 친구가 있습니까?

Answer

같지 않은XML, 해당 정보에 대해 다른 방법으로 csv를 가져와야 했던 원본 콘텐츠 인코딩을 설명하는 인코딩 태그가 포함되어 있어야 합니다.

하지만유형이진 데이터에는 적합하지만 텍스트 데이터에는 적합하지 않습니다.

이는 명령이 작동하는 방식 때문입니다. 바라보다남자의 텍스트. 대략적으로: 처음 몇 바이트를 살펴보고 조회 테이블에서 발견된 내용을 찾아 내용을 추측하려고 시도합니다.

따라서 일반적으로 콘텐츠 제작자에게 어떤 문자 집합을 사용했는지 물어보는 것이 가장 좋습니다.

이것이 불가능할 경우 - 어떤 이유로든상여기 당신의 가장 친한 친구가 있습니까?

관련 정보