디렉토리의 모든 파일에서 두 태그(html 태그) 사이의 모든 텍스트를 제거하는 명령 또는 스크립트?

Question 1

HTML 태그는 종종 여러 줄에 걸쳐 있을 수 있거나 한 줄에 여러 태그가 있을 수 있으므로 perl파일의 전체 내용이 전체적으로 처리되고 *?탐욕스럽지 않은 버전이 *최소한의 내용과 일치하는 후루룩 모드를 사용할 수 있습니다. 여는 태그와 닫는 태그 사이에 가능합니다.

옵션 -i도 비표준이며 이를 지원하는 옵션은 실제로 백업 접미사( vs )가 perl사용되지 않았을 때의 변형에서 복사 됩니다.-i-i ''

find . -name '*.html' -type f -exec perl -0777 -pi -e '
  s{<p class="message">.*?</p>}{ }gs' {} +

Answer

HTML 태그는 종종 여러 줄에 걸쳐 있을 수 있거나 한 줄에 여러 태그가 있을 수 있으므로 perl파일의 전체 내용이 전체적으로 처리되고 *?탐욕스럽지 않은 버전이 *최소한의 내용과 일치하는 후루룩 모드를 사용할 수 있습니다. 여는 태그와 닫는 태그 사이에 가능합니다.

옵션 -i도 비표준이며 이를 지원하는 옵션은 실제로 백업 접미사( vs )가 perl사용되지 않았을 때의 변형에서 복사 됩니다.-i-i ''

find . -name '*.html' -type f -exec perl -0777 -pi -e '
  s{<p class="message">.*?</p>}{ }gs' {} +

Question 2

사용행복하다(이전 Perl_6)

~$ raku -e 'my regex L { "<p class=\"message\">" };                  \          
            my regex R { "</p>" };                                   \                               \
            my $dest-dir = "/path/to/destination/dir/";              \
            for dir() -> $file {                                     \
              with $file.slurp { / <L> .*? <R> /                     \
                ?? my $new-file = .subst( :g, / <L> <(.*?)> <R> / )  \
                !! next;                                             \
              spurt("$dest-dir" ~ "$file".IO, $new-file)             \
              }                                                      \
            };'

Raku는 Perl 프로그래밍 언어 계열의 프로그래밍 언어입니다. 즉, L- 및 - 정규 R표현식이 모두 선언되고 값이 할당됩니다. $dest-dir스칼라를 선언하고 문자열을 할당합니다. 현재 패스는 dir()반복되고 for각 $file.IO 객체는 다음 블록에서 분석/수정됩니다.

외부 블록인 $fileed slurp(한 번에 모두 읽기)는 내부 블록에서 텍스트에 .*?"0번 이상 모든 문자를 포함하는 정규식이 포함되어 있는지, 그 사이에 정규식이 포함되어 있는지 즉시 테스트합니다." 여기서 L-and- R정규 표현식은 꺾쇠 괄호와 함께 삽입되어야 합니다. 즉, <L>-and- 는 일치자 내부에 <R>있기 때문입니다 ./ ... /

내부 블록 Raku의 삼항 연산자 시험 ?? 진짜 !! 잘못된 사용된. 3개의 정규식 연결이 발견되면 이제 중앙 "원자"가... 캡처 태그로 래핑됩니다. <(.*?)>이는 외부 일치 항목이 제거되고 제거만(아무것도) 되지 않음을 나타냅니다. A는 이러한 내부 문자를 제거하여 생성됩니다. 정규식이 발견되지 않으면 블록은 파일 앞으로 점프합니다(내부 블록 종료). 이를 통해 새로 생성된 파일을 원래 이름으로 올바른 디렉터리에 기록(ed)할 수 있습니다.<()>.*?subst$new-filenext$new-filespurt$file

입력 예(원본 dir/file):

first line
<p class="message"> foo </p>
<p class="message"> bar </p>
<p class="message">
          baz
  </p>

last line

출력 예(새로 작성 dir/file)

first line
<p class="message"></p>
<p class="message"></p>
<p class="message"></p>

last line

위의 "샘플 출력"은 시작/끝 태그가 다른 줄에 있더라도 지정된 html 태그의 내부 텍스트가 제거되는 세 가지 인스턴스를 보여줍니다. 새(리터럴 문자열) 텍스트로 바꾸려면 다음 스니펫을 변경하세요.

에서:
.subst( :g, / <L> <(.*?)> <R> / )

도착하다:
.subst( :g, / <L> <(.*?)> <R> /, "new-text" )

https://docs.raku.org/routine/dir
https://docs.raku.org/type/Regex
https://raku.org

Answer