UTF-8 로케일에서 UTF-16LE 파일에 대해 정규식 검색을 수행하는 방법은 무엇입니까?

Question 1

내 대답은 기본적으로 다음과 같습니다.이 주제에 대한 다른 질문:

$ iconv -f UTF-16LE -t UTF-8 myfile.txt | grep pattern

다른 질문과 마찬가지로 줄 끝 변환이 필요할 수도 있지만 요점은 기본 도구를 직접 사용할 수 있도록 파일을 기본 인코딩으로 변환해야 한다는 것입니다.

Answer

내 대답은 기본적으로 다음과 같습니다.이 주제에 대한 다른 질문:

$ iconv -f UTF-16LE -t UTF-8 myfile.txt | grep pattern

다른 질문과 마찬가지로 줄 끝 변환이 필요할 수도 있지만 요점은 기본 도구를 직접 사용할 수 있도록 파일을 기본 인코딩으로 변환해야 한다는 것입니다.

Question 2

설치하다ripgrep유용UTF-16을 지원합니다.

예를 들어:

rg pattern filename

ripgrep은 UTF-16, latin-1, GBK, EUC-JP, Shift_JIS 등과 같은 UTF-8 이외의 텍스트 인코딩으로 파일 검색을 지원합니다. (UTF-16 자동 감지에 대한 일부 지원이 제공됩니다. 다른 텍스트 인코딩은 / 로 -E지정 해야 합니다 --encoding flag.)

모든 줄을 인쇄하려면 다음을 실행하세요 rg -N . filename.

Answer

설치하다ripgrep유용UTF-16을 지원합니다.

예를 들어:

rg pattern filename

ripgrep은 UTF-16, latin-1, GBK, EUC-JP, Shift_JIS 등과 같은 UTF-8 이외의 텍스트 인코딩으로 파일 검색을 지원합니다. (UTF-16 자동 감지에 대한 일부 지원이 제공됩니다. 다른 텍스트 인코딩은 / 로 -E지정 해야 합니다 --encoding flag.)

모든 줄을 인쇄하려면 다음을 실행하세요 rg -N . filename.

Question 3

나는 워렌의 대답이 더 낫다고 믿는다일반적인*nix 솔루션이지만 이 Perl 스크립트는 내가 원하는 방식으로 정확하게 작동합니다(다소 비표준적인 상황에서). 검색 패턴의 현재 형식을
약간 변경해야 합니다 \x09\x0A\x09\x2A\x09\x30\x00\s09
.\x{090A}\x{092A}\x{0930}\x{0009}

그것은 하나의 프로세스로 모든 것을 수행하는데, 이것이 제가 추구하는 것입니다.

#! /usr/bin/env perl
use strict;
use warnings;
die "3 args are required" if scalar @ARGV != 3;
my $if =$ARGV[0];
my $of =$ARGV[1];
my $pat=$ARGV[2];
open(my $ifh, '<:encoding(UTF-16LE)', $if) or warn "Can't open $if: $!";
open(my $ofh, '>:encoding(UTF-16LE)', $of) or warn "Can't open $of: $!";
while (<$ifh>) { print $ofh $_ if /^$pat/; }

Answer

나는 워렌의 대답이 더 낫다고 믿는다일반적인*nix 솔루션이지만 이 Perl 스크립트는 내가 원하는 방식으로 정확하게 작동합니다(다소 비표준적인 상황에서). 검색 패턴의 현재 형식을
약간 변경해야 합니다 \x09\x0A\x09\x2A\x09\x30\x00\s09
.\x{090A}\x{092A}\x{0930}\x{0009}

그것은 하나의 프로세스로 모든 것을 수행하는데, 이것이 제가 추구하는 것입니다.

#! /usr/bin/env perl
use strict;
use warnings;
die "3 args are required" if scalar @ARGV != 3;
my $if =$ARGV[0];
my $of =$ARGV[1];
my $pat=$ARGV[2];
open(my $ifh, '<:encoding(UTF-16LE)', $if) or warn "Can't open $if: $!";
open(my $ofh, '>:encoding(UTF-16LE)', $of) or warn "Can't open $of: $!";
while (<$ifh>) { print $ofh $_ if /^$pat/; }

Question 4

우그레프(Universal grep)은 유니코드, UTF-8/16/32 파일을 지원하고 잘못된 유니코드를 감지하여 올바른 결과를 보장하고 텍스트 및 바이너리 파일을 표시하며 빠르고 무료입니다.

우그레프UTF-8/16/32 입력 및 기타 형식을 검색합니다. 옵션 -Q를 사용하면 ISO-8859-1~16, EBCDIC, 코드 페이지 437, 850, 858, 1250~1258, MacRoman 및 KOI8과 같은 다양한 파일 형식을 검색할 수 있습니다.

일치하는 유니코드 문자 패턴을 지정하십시오.

ugrep -QUTF-16LE "ऊपर" filename

또는 16진수 코드 포인트를 사용하세요.

ugrep -QUTF-16LE "\x{090A}\x{092A}\x{0930}" filename

바라보다GitHub의 ugrep더 알아보기.

Answer