grep, sed, awk를 사용하여 html을 필터링하려고 합니다.

Question 1

이미 언급했듯이정규 표현식은 HTML 구문 분석에 적합하지 않습니다.. 다른 것과 비슷하다답변 분석이 작업을 수행하려면 아래와 같은 Ruby 문을 만들 수 있습니다. 필요하다는 점 참고해주세요노코체gem( )으로 설치할 수 있습니다 sudo gem install nokogiri.

ruby -rnokogiri -e 'Nokogiri::HTML(readlines.join).css("tr").each { |tr| tr.xpath(".//td").take(3).each { |td| puts td.content } }' sample.html

지정된 파일(이 경우에는 샘플.html)을 읽고 모든 tr요소를 가져온 다음 td각 요소에 대한 처음 세 요소의 내용을 인쇄합니다.

귀하의 예에서는 다음과 같이 출력됩니다.

1988년
넬슨 만델라 넬슨 만델라
남아프리카
1988년
아나톨리 마르첸코 아나톨리 마르첸코(사후)
소련

문제는 이름이 두 번 포함된 줄입니다. 예를 들어 (읽기 쉽도록 형식화됨)

<td>
  <span style="display:none;">Mandela, Nelson</span>
  <span class="vcard"><span class="fn">
      <a href="/wiki/Nelson_Mandela" title="Nelson Mandela">Nelson Mandela</a>
    </span>
  </span>
</td>

여기서 이름은 spanwith 에서 처음으로 나타나고 style="display:none;"또 다른 에서는 다시 나타납니다 span. 요소 내부에 없는 이름만 추출하는 방법을 잘 모르겠습니다 style="display:none;. (나는 발견했다https://stackoverflow.com/q/6096327/789593그리고https://stackoverflow.com/q/11602077/789593그러나 그들은 올바른 기술을 설명하지 않습니다. 어쩌면 누군가가 해결책을 제안할 수도 있습니다.http://nokogiri.org/Nokogiri/XML/Node.html? )

Answer

이미 언급했듯이정규 표현식은 HTML 구문 분석에 적합하지 않습니다.. 다른 것과 비슷하다답변 분석이 작업을 수행하려면 아래와 같은 Ruby 문을 만들 수 있습니다. 필요하다는 점 참고해주세요노코체gem( )으로 설치할 수 있습니다 sudo gem install nokogiri.

ruby -rnokogiri -e 'Nokogiri::HTML(readlines.join).css("tr").each { |tr| tr.xpath(".//td").take(3).each { |td| puts td.content } }' sample.html

지정된 파일(이 경우에는 샘플.html)을 읽고 모든 tr요소를 가져온 다음 td각 요소에 대한 처음 세 요소의 내용을 인쇄합니다.

귀하의 예에서는 다음과 같이 출력됩니다.

1988년
넬슨 만델라 넬슨 만델라
남아프리카
1988년
아나톨리 마르첸코 아나톨리 마르첸코(사후)
소련

문제는 이름이 두 번 포함된 줄입니다. 예를 들어 (읽기 쉽도록 형식화됨)

<td>
  <span style="display:none;">Mandela, Nelson</span>
  <span class="vcard"><span class="fn">
      <a href="/wiki/Nelson_Mandela" title="Nelson Mandela">Nelson Mandela</a>
    </span>
  </span>
</td>

여기서 이름은 spanwith 에서 처음으로 나타나고 style="display:none;"또 다른 에서는 다시 나타납니다 span. 요소 내부에 없는 이름만 추출하는 방법을 잘 모르겠습니다 style="display:none;. (나는 발견했다https://stackoverflow.com/q/6096327/789593그리고https://stackoverflow.com/q/11602077/789593그러나 그들은 올바른 기술을 설명하지 않습니다. 어쩌면 누군가가 해결책을 제안할 수도 있습니다.http://nokogiri.org/Nokogiri/XML/Node.html? )

Question 2

여기에서 사용할 수 있는 node.js 패키지를 만들었습니다.곰바. awk와 sed를 대체하는 것과 약간 비슷합니다.

따라서 귀하의 예에서는 다음과 같이 작동합니다.

cat file.html | gumba "stripTags()"

출력:

1988
Mandela, NelsonNelson Mandela
South Africa
Anti-apartheid activist and later President of South Africa
[5]


1988
Marchenko, AnatolyAnatoly Marchenko (posthumously)
Soviet Union
Soviet dissident, author and humans rights activist
[5]

여기서는 oneliner를 사용하지 않고 실제로 당신이 아는 언어로 스크립트를 작성하는 것이 더 낫다고 생각합니다.

Answer

여기에서 사용할 수 있는 node.js 패키지를 만들었습니다.곰바. awk와 sed를 대체하는 것과 약간 비슷합니다.

따라서 귀하의 예에서는 다음과 같이 작동합니다.

cat file.html | gumba "stripTags()"

출력:

1988
Mandela, NelsonNelson Mandela
South Africa
Anti-apartheid activist and later President of South Africa
[5]


1988
Marchenko, AnatolyAnatoly Marchenko (posthumously)
Soviet Union
Soviet dissident, author and humans rights activist
[5]

여기서는 oneliner를 사용하지 않고 실제로 당신이 아는 언어로 스크립트를 작성하는 것이 더 낫다고 생각합니다.

Question 3

sed -rn '
    /<tr>/ {
        n
        s#<td>([^<]*)</td>#\1#
        h
        n
        s#<td><span[^>]*>([^<]*)</span>.*#\1#
        H
        n
        s#<td><a href=[^>]*>([^<]*)</a>.*#\1#
        H
        x;p
    }
' file

1988
Mandela, Nelson
South Africa
1988
Marchenko, Anatoly
Soviet Union

Answer

sed -rn '
    /<tr>/ {
        n
        s#<td>([^<]*)</td>#\1#
        h
        n
        s#<td><span[^>]*>([^<]*)</span>.*#\1#
        H
        n
        s#<td><a href=[^>]*>([^<]*)</a>.*#\1#
        H
        x;p
    }
' file

1988
Mandela, Nelson
South Africa
1988
Marchenko, Anatoly
Soviet Union

grep, sed, awk를 사용하여 html을 필터링하려고 합니다.

답변1

답변2

답변3

관련 정보