문자 인코딩 혼동 문제 수정

Question 1

"손으로 하지 않음"이 의미하는 바에 따라 iconv작업에 유용할 수 있습니다.

iconv - 한 문자 인코딩에서 다른 문자 인코딩으로 텍스트 변환

옵션

   -f from-encoding, --from-code=from-encoding
          Use from-encoding for input characters.

   -t to-encoding, --to-code=to-encoding
          Use to-encoding for output characters.

내 경험에 따르면, 잘못된 인코딩을 처리해야 하는 경우에도 iconv는 잘 작동합니다. 예를 들어 입력 데이터가 ISO-8859인 경우에도 UTF-8로 인코딩되었음을 iconv에 지시하여 iconv가 입력이 UTF-8인 것처럼 동작하도록 할 수 있습니다. 이렇게 하면 잘못 인코딩된 데이터를 수정할 수 있습니다.

iconv는 필터로 사용할 수 있으므로 와 같은 것과 함께 사용할 수 있습니다 . Link with는 curl사용할 때도 wget작동합니다 --output-document -.

내가 아는 한, iconv는 올바른 입력 인코딩을 감지/추측할 수 없습니다. 그러나 입력 데이터가 얼마나 지저분한지에 따라 사이트에 다양한 유형의 오류/혼합 인코딩이 있는 경우 이는 "불가능"할 수 있습니다. 전체 사이트가 같은 방식으로 엉망이 된 경우 이를 수정할 수 있습니다.

Answer

"손으로 하지 않음"이 의미하는 바에 따라 iconv작업에 유용할 수 있습니다.

iconv - 한 문자 인코딩에서 다른 문자 인코딩으로 텍스트 변환

옵션

   -f from-encoding, --from-code=from-encoding
          Use from-encoding for input characters.

   -t to-encoding, --to-code=to-encoding
          Use to-encoding for output characters.

내 경험에 따르면, 잘못된 인코딩을 처리해야 하는 경우에도 iconv는 잘 작동합니다. 예를 들어 입력 데이터가 ISO-8859인 경우에도 UTF-8로 인코딩되었음을 iconv에 지시하여 iconv가 입력이 UTF-8인 것처럼 동작하도록 할 수 있습니다. 이렇게 하면 잘못 인코딩된 데이터를 수정할 수 있습니다.

iconv는 필터로 사용할 수 있으므로 와 같은 것과 함께 사용할 수 있습니다 . Link with는 curl사용할 때도 wget작동합니다 --output-document -.

내가 아는 한, iconv는 올바른 입력 인코딩을 감지/추측할 수 없습니다. 그러나 입력 데이터가 얼마나 지저분한지에 따라 사이트에 다양한 유형의 오류/혼합 인코딩이 있는 경우 이는 "불가능"할 수 있습니다. 전체 사이트가 같은 방식으로 엉망이 된 경우 이를 수정할 수 있습니다.

Question 2

locale먼저 UTF-8을 사용해야 합니다 .

발각

chardetect(python3-chardet 패키지에서, 일명 chardet)
uchardet, 인코딩 감지기 라이브러리(현재 freedesktop에 있음)
enca, 동부 및 중부 유럽 언어를 중심으로

file --brief --mime-encoding FILE | awk '{print $2}' FS=':[ :]+'

일반적인 용의자는 CP850, CP437, latin1(ISO-8859-1이라고도 함), CP1252(windows-1252라고도 함)입니다.

내 경험에 따르면 이러한 도구는 일반적으로 작업을 수행하지 않습니다. 때로는 파일에 인코딩이 혼합되어 있을 수 있습니다.

나는 어딘가에서 이 무차별적인 작은 스크립트를 발견했습니다.

#!/bin/bash

# Usage string-encoding-detector.sh fileWithLiberaci°n.txt | grep Liberación

iconv --list | sed -e 's/\/\///g' | while read -r encoding
do
  transcoded=$(head -n1 "$1" | iconv -c -f "$encoding" -t UTF-8)
  echo "$encoding $transcoded"
done

전환하다

상(존중)
녹음

발각

chardetect(python3-chardet 패키지에서, 일명 chardet)
uchardet, 인코딩 감지기 라이브러리(현재 freedesktop에 있음)
enca, 동부 및 중부 유럽 언어를 중심으로

file --brief --mime-encoding FILE | awk '{print $2}' FS=':[ :]+'

일반적인 용의자는 CP850, CP437, latin1(ISO-8859-1이라고도 함), CP1252(windows-1252라고도 함)입니다.

내 경험에 따르면 이러한 도구는 일반적으로 작업을 수행하지 않습니다. 때로는 파일에 인코딩이 혼합되어 있을 수 있습니다.

나는 어딘가에서 이 무차별적인 작은 스크립트를 발견했습니다.

#!/bin/bash

# Usage string-encoding-detector.sh fileWithLiberaci°n.txt | grep Liberación

iconv --list | sed -e 's/\/\///g' | while read -r encoding
do
  transcoded=$(head -n1 "$1" | iconv -c -f "$encoding" -t UTF-8)
  echo "$encoding $transcoded"
done

전환하다

상(존중)
녹음

문자 인코딩 혼동 문제 수정

답변1

답변2

발각

전환하다

관련된

관련 정보