혼합 텍스트 파일의 언어 X 문자 수는 무엇입니까?

Question 1

유니코드 문자열의 길이를 결정하는 데 문제가 있을 수 있습니다. 바라보다이 페이지정규화에 대한 자세한 내용은 Twitter 개발자 문서를 참조하세요.

문자 수는 구성하는 로케일에 따라 달라집니다. locale다음을 실행하여 UTF-8 로캘이 구성되었는지 확인할 수 있습니다 . 이 작업을 완료하면 @stephen-rauch의 코드가 작동합니다.

사용하는 정규식 라이브러리에 따라 명명된 스크립트를 사용할 수도 있습니다. 예를 들어 \p{Hebrew}다음은 히브리어가 아닌 모든 문자를 제거하는 예입니다 \P{Greek} .\P{Hebrew}협회

편집: 초기 결과는 잘못 구성된 로케일로 인해 발생했습니다.

Answer

유니코드 문자열의 길이를 결정하는 데 문제가 있을 수 있습니다. 바라보다이 페이지정규화에 대한 자세한 내용은 Twitter 개발자 문서를 참조하세요.

문자 수는 구성하는 로케일에 따라 달라집니다. locale다음을 실행하여 UTF-8 로캘이 구성되었는지 확인할 수 있습니다 . 이 작업을 완료하면 @stephen-rauch의 코드가 작동합니다.

사용하는 정규식 라이브러리에 따라 명명된 스크립트를 사용할 수도 있습니다. 예를 들어 \p{Hebrew}다음은 히브리어가 아닌 모든 문자를 제거하는 예입니다 \P{Greek} .\P{Hebrew}협회

편집: 초기 결과는 잘못 구성된 로케일로 인해 발생했습니다.

Question 2

이것들은 나에게 가까운 것 같습니다 (Ubuntu 16.04에서 테스트)

$ perl -0777 -MEncode -ne 'print decode("UTF-8",$_) =~ tr/\x{0590}-\x{05ff}//,"\n"' input
62
$ perl -0777 -MEncode -ne 'print decode("UTF-8",$_) =~ tr/\p{Hebrew}//,"\n"' input
63

"올바른" 대답이 무엇인지 잘 모르겠습니다.

Answer

이것들은 나에게 가까운 것 같습니다 (Ubuntu 16.04에서 테스트)

$ perl -0777 -MEncode -ne 'print decode("UTF-8",$_) =~ tr/\x{0590}-\x{05ff}//,"\n"' input
62
$ perl -0777 -MEncode -ne 'print decode("UTF-8",$_) =~ tr/\p{Hebrew}//,"\n"' input
63

"올바른" 대답이 무엇인지 잘 모르겠습니다.

Question 3

Python을 사용하면 다음과 같은 작업을 수행할 수 있습니다.

암호:

# coding: utf-8
import re
import codecs

#find_hebrew = re.compile(ur'[\u0590-\u05ff]+')  # python 2
find_hebrew = re.compile(r'[\u0590-\u05ff]+')   # python 3

count = 0
with codecs.open('text_file', 'rU', encoding='utf-8') as f:
    for line in f.readlines():
        for n in find_hebrew.findall(line):
            count += len(n)
print(count)

결과:

Answer

Python을 사용하면 다음과 같은 작업을 수행할 수 있습니다.

암호:

# coding: utf-8
import re
import codecs

#find_hebrew = re.compile(ur'[\u0590-\u05ff]+')  # python 2
find_hebrew = re.compile(r'[\u0590-\u05ff]+')   # python 3

count = 0
with codecs.open('text_file', 'rU', encoding='utf-8') as f:
    for line in f.readlines():
        for n in find_hebrew.findall(line):
            count += len(n)
print(count)

혼합 텍스트 파일의 언어 X 문자 수는 무엇입니까?

답변1

답변2

답변3

암호:

결과:

관련 정보