HTML 파일에서 모든 ID를 제거하려면 grep을 사용해 보십시오.

Question 1

제 판단에 어긋나더라도 ( sed일부) 게시하겠습니다.

즉, 빠르고 더러운 문제를 해결하려면 계속 진행하세요. 더 심각한 일이거나 정기적으로 해야 하는 일인 경우 등 Python, Perl 등과 같은 다른 것에서는 정규식에 의존하지 않고 HTML 문서를 처리하는 모듈에 의존합니다.

더 쉬운 방법은 예를 들어 sed를 사용하는 것입니다.

sed 's/\(<[^>]*\) \+id="[^"]*"\([^>]*>\)/\1\2/' sample.html > noid.html

설명하다:

            +--------------------------------- Match group 1
            |                      +---------- Match group 2
         ___|___                ___|___
        |       |              |       |  
sed 's/\(<[^>]*\) \+id="[^"]*"\([^>]*>\)/\1\2/' sample.html > noid.html
     |   |  | |   |  |    | ||    |  |      |
     |   |  | |   |  |    | ||    |  |      +- \1\2  Subst. with group 1 and 2
     |   |  | |   |  |    | ||    |  +-------- >     Closing bracket
     |   |  | |   |  |    | ||    +----------- [^>]* Same as below
     |   |  | |   |  |    | |+---------------- "     Followed by "
     |   |  | |   |  |    | +----------------- *     Zero or more times
     |   |  | |   |  |    +------------------- [^"]  Not double-quote
     |   |  | |   |  +------------------------ id="  Literal string
     |   |  | |   +---------------------------  \+   Space 1 or more times
     |   |  | +------------------------------- *     Zero or more times 
     |   |  +--------------------------------- [^>]  Not closing bracket
     |   +------------------------------------ <     Opening bracket
     +---------------------------------------- s     Substitute

sed -i파일을 제자리에서 편집합니다 . (후회할 수도 있지만 되돌릴 수는 없습니다.)

Perl을 사용한 예:

#!/usr/bin/perl

use strict;
use warnings;

use HTML::TokeParser::Simple;
use HTML::Entities;
use utf8;

die "$0 [file]\n" unless defined $ARGV[0];

my $parser = HTML::TokeParser::Simple->new(file => $ARGV[0]);

if (!$parser) {
    die "No HTML file found.\n";
}

while (my $token = $parser->get_token) {
    $token->delete_attr('id');
    print $token->as_is;
}

grep 명령은 아무것도 일치하지 않습니다. 그러나 반전 옵션을 사용하면 -v일치하지 않는 모든 항목이 인쇄되므로 전체 파일이 인쇄됩니다.

grep은 그렇지 않습니다내부 파일 수정자그러나 일반적으로 파일에서 콘텐츠를 찾는 도구입니다. 예를 들면 다음과 같습니다.

grep -o '\(<[^>]*\)id="[^"]*"[^>]*>' sample.html

-o일치하는 패턴만 인쇄됨을 나타냅니다. (전체 라인은 아님)

sed등은 awk일반적으로 스트림이나 파일을 편집하는 데 사용됩니다. 예를 들어, 위의 예와 같습니다.

grep에 몇 가지 잘못된 개념이 있습니다.

 id\="[a-zA-Z][0-9]"

정확히 일치합니다:

id=
하나범위 내의 문자 a-z또는A-Z
이어서하나숫자

즉, 다음과 일치합니다.

id="a0"
id="a1"
id="a2"
...
id="Z9"

다음과 같은 것은 없습니다: id="foo99"또는 id="blah-gah".

또한 다음과 일치합니다.

 ^ <-- start of line (As it is first in pattern or group)
 $ <-- end of line   (As you use the `-E` option)
 # Else it would be:
 ^ <-- start of line (As it is first in pattern or group)
 $ <-- dollar sign   (Does not mean end of line unless it is at end of
                      pattern or group)

그래서 아무것도 없습니다.

Answer