텍스트에서 중국어 기호를 추출하는 방법

텍스트에서 중국어 기호를 추출하는 방법

여기에 중국어 텍스트 기호를 게시할 수는 없지만 기본적으로 중국어 기호가 하나도 포함되지 않은 모든 줄을 제거하고 싶습니다.

http://pastebin.com/au8zeATC

어떻게 추출해야 다음과 같이 보이나요?

http://pastebin.com/5YPvzGJT

답변1

데이터를 파일에 넣고 다음을 data실행합니다.

perl -CSD -lne 'print if /\p{Han}/' data

또한보십시오:

답변2

일치시키고 싶은 것은 다음 중 하나입니다.한자에 대한 유니코드 블록. 이는 유니코드 인식 콘텐츠를 사용한 다음 이러한 블록 중 하나에 속하는 문자가 포함된 모든 줄을 일치시켜야 함을 의미합니다.

불행하게도 grep유니코드는 기본적으로 잘 지원되지 않는 것 같습니다. 그러나 Python 3에서는 가능하므로 Python 3이 있는 경우 다음 스크립트가 필요에 적합합니다.

import sys

sys.stdout.write("".join( 
   line for line in sys.stdin.readlines()
   if any(    0x4e00 <= ord(ch) <=  0x9fd5    # CJK Unified Ideographs
          or  0x3400 <= ord(ch) <=  0x4dbf    # CJK Unified Ideographs Extension A
          or 0x20000 <= ord(ch) <= 0x2a6d6    # Extension B
          or 0x2a700 <= ord(ch) <= 0x2b73c    # Extension C
          or 0x2b740 <= ord(ch) <= 0x2b81d    # Extension D
          or 0x2b820 <= ord(ch) <= 0x2cea1    # Extension E
          for ch in line)))

관련 정보