sed 정규식에서 [\w]+를 사용하는 방법은 무엇입니까?

Question 1

다양한 도구와 해당 버전은 다양한 정규식 변형을 지원합니다. 각 문서에 지원되는 내용이 나와 있습니다.

표준은 모든 표준 호환 애플리케이션에서 사용할 수 있는 최소한의 기능 세트에 의존할 수 있도록 존재합니다.

예를 들어, POSIX에서 지정한 기본 정규식의 모든 최신 구현 sed및 구현(적어도 하나의 버전 또는 다른 표준이 있지만 지난 수십 년 동안 이 점에서 표준은 크게 발전하지 않았습니다).grep

[:alnum:]POSIX BRE 및 ERE에는 문자 클래스가 있습니다 . 이는 해당 로케일의 문자 및 숫자와 일치합니다( a-zA-Z0-9로케일이 C가 아닌 한 일반적으로 더 많은 문자가 포함됩니다 ).

그래서:

grep -x '[[:alnum:]_]\{1,\}'

하나 이상의 alnum 또는 _와 일치합니다.

[\w]POSIX에는 일치하는 백슬래시 또는 가 필요하므로 사용 가능 하거나 구현을 w찾을 수 없습니다 (비표준 옵션을 통한 경우 제외).grepsed

POSIX는 alone 의 동작을 지정하지 않으므로 \w구현이 원하는 것을 수행할 수 있습니다. GNU는 grep이것을 오래 전에 추가했습니다.

GNU에는 grep자체 정규식 엔진이 있었지만 이제는 GNU libc 엔진을 사용합니다(자체 복사본이 포함되어 있음).

해당 로케일의 숫자와 밑줄이 일치하도록 설계되었습니다. 그러나 현재 단일 바이트 문자만 일치한다는 버그가 있습니다. 예를 들어 UTF-8 로케일에서는 분명히 문자임에도 불구하고 é와 일치하지 않으며 é가 단일 문자인 모든 로케일에서는 일치합니다. e) 특징).

\wPerl regexp와 PCRE에도 정규식 연산자가 있습니다. PCRE/perl은 POSIX 정규 표현식이 아니며 완전히 다른 것입니다.

이제 GNU가 PCRE를 사용하는 방식으로 인해 grep -PPCRE가 없을 때와 동일한 문제가 발생합니다 -P. 그러나 이 문제는 다음을 사용하여 해결할 수 있습니다 (*UCP)(비UTF8 로케일에서는 부작용도 있지만).

GNU는 sed또한 GNU libc의 정규식을 자체 정규식으로 사용합니다. 그런 식으로 사용하지만 GNU와 같은 버그는 없습니다 grep.

GNU는 sedPCRE를 지원하지 않습니다. 코드에는 이전에 시도된 적이 있다는 증거가 있지만 더 이상 의제가 아닌 것 같습니다.

Perl의 정규 표현식을 원하면 perlbut을 사용하세요.

sed그렇지 않으면 / 의 특정 구현의 허위 비표준 기능에 의존하기보다는 grep표준을 고수하고 을 사용하십시오 [_[:alnum:]].

Answer

다양한 도구와 해당 버전은 다양한 정규식 변형을 지원합니다. 각 문서에 지원되는 내용이 나와 있습니다.

표준은 모든 표준 호환 애플리케이션에서 사용할 수 있는 최소한의 기능 세트에 의존할 수 있도록 존재합니다.

예를 들어, POSIX에서 지정한 기본 정규식의 모든 최신 구현 sed및 구현(적어도 하나의 버전 또는 다른 표준이 있지만 지난 수십 년 동안 이 점에서 표준은 크게 발전하지 않았습니다).grep

[:alnum:]POSIX BRE 및 ERE에는 문자 클래스가 있습니다 . 이는 해당 로케일의 문자 및 숫자와 일치합니다( a-zA-Z0-9로케일이 C가 아닌 한 일반적으로 더 많은 문자가 포함됩니다 ).

그래서:

grep -x '[[:alnum:]_]\{1,\}'