일부 유니코드 문자를 무시하고 문자가 아닌 문자를 제거합니다.

Question

tr/a-z/ /cs;세트에 없는 모든 문자를 공백으로 바꿔야 합니다 a-z. (후행은 세트를 보완하기 위한 것입니다. 그렇지 않으면 에서 까지의 모든 문자를 c대체합니다 .)az

좀 더 구체적으로 설명해야 합니다. s/[[:punct:]]+/ /g모든 구두점 문자 시퀀스를 단일 공백으로 바꾸고 s/[^[:alpha:]]+/ /g모든 알파벳이 아닌 문자 시퀀스를 단일 공백으로 바꿉니다.

적어도 이것은 로케일별로 다르므로 Perl에 UTF-8 등을 [:alpha:]사용하도록 지시해야 합니다 . -C또한 [^[:alpha:]]숫자와 후행 줄 바꿈도 제거됩니다. en_US.UTF-8데비안의 로케일 은 다음과 같습니다 :

$ echo '[]përgjithshme [" është "] 28.748 [< kilometra katrorë.>]' | perl -C -pe 's/[^[:alpha:]]+/ /g'
 përgjithshme është kilometra katrorë $ 

$ echo '[]përgjithshme [" është "] 28.748 [< kilometra katrorë.>]' | perl -C -pe 's/[[:punct:]]+/ /g'
 përgjithshme   është   28 748   kilometra katrorë 
$

Answer 1

tr/a-z/ /cs;세트에 없는 모든 문자를 공백으로 바꿔야 합니다 a-z. (후행은 세트를 보완하기 위한 것입니다. 그렇지 않으면 에서 까지의 모든 문자를 c대체합니다 .)az

좀 더 구체적으로 설명해야 합니다. s/[[:punct:]]+/ /g모든 구두점 문자 시퀀스를 단일 공백으로 바꾸고 s/[^[:alpha:]]+/ /g모든 알파벳이 아닌 문자 시퀀스를 단일 공백으로 바꿉니다.

적어도 이것은 로케일별로 다르므로 Perl에 UTF-8 등을 [:alpha:]사용하도록 지시해야 합니다 . -C또한 [^[:alpha:]]숫자와 후행 줄 바꿈도 제거됩니다. en_US.UTF-8데비안의 로케일 은 다음과 같습니다 :

$ echo '[]përgjithshme [" është "] 28.748 [< kilometra katrorë.>]' | perl -C -pe 's/[^[:alpha:]]+/ /g'
 përgjithshme është kilometra katrorë $ 

$ echo '[]përgjithshme [" është "] 28.748 [< kilometra katrorë.>]' | perl -C -pe 's/[[:punct:]]+/ /g'
 përgjithshme   është   28 748   kilometra katrorë 
$

일부 유니코드 문자를 무시하고 문자가 아닌 문자를 제거합니다.

답변1

관련 정보