스크립트를 통해 이중 언어 텍스트를 편집하는 방법은 무엇입니까?

Question 1

물론 영어 단어는 라틴 문자를 사용하고 중국어 단어는 그렇지 않기 때문에 첫 번째 비라틴어 기호로 시작하는 줄의 끝을 제거하면 됩니다.

sed 's/[^a-zA-Z ].*//' < source-file >  result-file

Answer

물론 영어 단어는 라틴 문자를 사용하고 중국어 단어는 그렇지 않기 때문에 첫 번째 비라틴어 기호로 시작하는 줄의 끝을 제거하면 됩니다.

sed 's/[^a-zA-Z ].*//' < source-file >  result-file

Question 2

공백, 탭 또는 영어 문자를 제외한 모든 문자를 제거하기만 하면 됩니다.

sed 's/[^a-zA-Z ]//g' <source >result

유니코드 호환 모드를 사용할 때는 주의하세요.

추가 후처리를 수행할 수도 있습니다.

for i in $(cat result);do echo "$i";done|sort|uniq

알파벳순으로 정렬 result하고 중복 항목을 제거합니다("the", "a" 및 "for"는 이 문서에 여러 번 나타날 수 있으며 그중 하나만 필요할 수 있습니다).

Answer

공백, 탭 또는 영어 문자를 제외한 모든 문자를 제거하기만 하면 됩니다.

sed 's/[^a-zA-Z ]//g' <source >result

유니코드 호환 모드를 사용할 때는 주의하세요.

추가 후처리를 수행할 수도 있습니다.

for i in $(cat result);do echo "$i";done|sort|uniq

알파벳순으로 정렬 result하고 중복 항목을 제거합니다("the", "a" 및 "for"는 이 문서에 여러 번 나타날 수 있으며 그중 하나만 필요할 수 있습니다).

Question 3

grep -Po '[\x00-\x77]+'  source > justEN.txt

Answer

grep -Po '[\x00-\x77]+'  source > justEN.txt

관련 정보