키릴 문자로 유닉스 도구를 사용하는 방법은 무엇입니까?

Question

유니코드 기반 문자 클래스를 사용해야 한다고 생각합니다. 단어 문자에 대한 로케일 인식 클래스는 [:alnum:]문자 클래스 내부에서 사용되므로 명령은 다음과 같습니다.

grep '[[:alnum:]]\{4\}' cyrillicstuff

그리고 로케일이 파일이 실제로 사용하는 인코딩으로 설정되어 있는지 확인하세요. locale명령을 사용하여 LC_CTYPE범주에 제공되는 값을 검사하고 찾을 수 있습니다.

이 구문은 POSIX 기본 또는 확장 정규식(예: sed, awk 등)을 사용하는 모든 도구와 Python 및 PHP에서 사용되는 Perl 및 "Perl 호환 정규식"에서 지원됩니다. perl 및 "perl 호환 정규식"에는 추가 구문 \pX및 가 있습니다 \p{xxx}. 여기서 X또는 xxx는 유니코드 범주 이름이므로 는 \pL와 동일 [:alpha:]하고 와 \p{Uppercase}동일해야 합니다 [:upper:]. 모든 유니코드 카테고리를 사용할 수 있어야 합니다.

광고 파이썬. Python은 유니코드도 완벽하게 지원합니다. 즉시 작동해야 하는 Python 3에서는 로케일 인코딩으로 파일을 여는 것이 기본값인 것 같습니다(그러나 테스트하지 않고 방금 확인했습니다). 하지만 Python 2에서는 인코딩을 수동으로 지정해야 합니다. stdin, stdout 및 stderr에 대해 설정해야 하지만 다른 모든 파일에 대해서는 이 codecs.open함수를 사용해야 하며 여기서 가져올 인코딩을 지정 locale.getpreferredencoding()하고 locale.setlocale(locale.LC_ALL, '').

Answer 1

유니코드 기반 문자 클래스를 사용해야 한다고 생각합니다. 단어 문자에 대한 로케일 인식 클래스는 [:alnum:]문자 클래스 내부에서 사용되므로 명령은 다음과 같습니다.

grep '[[:alnum:]]\{4\}' cyrillicstuff

그리고 로케일이 파일이 실제로 사용하는 인코딩으로 설정되어 있는지 확인하세요. locale명령을 사용하여 LC_CTYPE범주에 제공되는 값을 검사하고 찾을 수 있습니다.

이 구문은 POSIX 기본 또는 확장 정규식(예: sed, awk 등)을 사용하는 모든 도구와 Python 및 PHP에서 사용되는 Perl 및 "Perl 호환 정규식"에서 지원됩니다. perl 및 "perl 호환 정규식"에는 추가 구문 \pX및 가 있습니다 \p{xxx}. 여기서 X또는 xxx는 유니코드 범주 이름이므로 는 \pL와 동일 [:alpha:]하고 와 \p{Uppercase}동일해야 합니다 [:upper:]. 모든 유니코드 카테고리를 사용할 수 있어야 합니다.

광고 파이썬. Python은 유니코드도 완벽하게 지원합니다. 즉시 작동해야 하는 Python 3에서는 로케일 인코딩으로 파일을 여는 것이 기본값인 것 같습니다(그러나 테스트하지 않고 방금 확인했습니다). 하지만 Python 2에서는 인코딩을 수동으로 지정해야 합니다. stdin, stdout 및 stderr에 대해 설정해야 하지만 다른 모든 파일에 대해서는 이 codecs.open함수를 사용해야 하며 여기서 가져올 인코딩을 지정 locale.getpreferredencoding()하고 locale.setlocale(locale.LC_ALL, '').

키릴 문자로 유닉스 도구를 사용하는 방법은 무엇입니까?

답변1

관련 정보