두 레이블 사이의 텍스트

Question 1

...당신이 하고 싶은 경우 <tr>...</tr>:

grep -o '<tr>.*</tr>' HTMLFILE | sed 's/\(<tr>\|<\/tr>\)//g' > NEWFILE

여러 행의 경우 다음을 수행합니다.

먼저 HTMLFILE에서 "|" 문자(흔하지 않지만 가능함)를 확인하고, 있는 경우 존재하지 않는 문자로 변경하세요.

Answer

...당신이 하고 싶은 경우 <tr>...</tr>:

grep -o '<tr>.*</tr>' HTMLFILE | sed 's/\(<tr>\|<\/tr>\)//g' > NEWFILE

여러 행의 경우 다음을 수행합니다.

먼저 HTMLFILE에서 "|" 문자(흔하지 않지만 가능함)를 확인하고, 있는 경우 존재하지 않는 문자로 변경하세요.

Question 2

HTML 파서에 대한 한 가지 요구 사항이 있습니다. 즉, HTML을 구문 분석해야 합니다.진주의HTML::트리빌더, 파이썬아름다운 수프다른 것들은 복잡하고 깨지기 쉬운 정규식을 작성하는 것보다 사용하기 쉽고 쉽습니다.

perl -MHTML::TreeBuilder -le '
    $html = HTML::TreeBuilder->new_from_file($ARGV[0]) or die $!;
    foreach ($html->look_down(_tag => "tr")) {
        print map {$_->as_HTML()} $_->content_list();
    }
' input.html

또는

python -c 'if True:
    import sys, BeautifulSoup
    html = BeautifulSoup.BeautifulSoup(open(sys.argv[1]).read())
    for tr in html.findAll("tr"):
        print "".join(tr.contents)
' input.html

Answer

HTML 파서에 대한 한 가지 요구 사항이 있습니다. 즉, HTML을 구문 분석해야 합니다.진주의HTML::트리빌더, 파이썬아름다운 수프다른 것들은 복잡하고 깨지기 쉬운 정규식을 작성하는 것보다 사용하기 쉽고 쉽습니다.

perl -MHTML::TreeBuilder -le '
    $html = HTML::TreeBuilder->new_from_file($ARGV[0]) or die $!;
    foreach ($html->look_down(_tag => "tr")) {
        print map {$_->as_HTML()} $_->content_list();
    }
' input.html

또는

python -c 'if True:
    import sys, BeautifulSoup
    html = BeautifulSoup.BeautifulSoup(open(sys.argv[1]).read())
    for tr in html.findAll("tr"):
        print "".join(tr.contents)
' input.html

Question 3

sedawk이 작업에 적합하지 않은 경우 적절한 HTML 파서를 사용해야 합니다 . 예를 들어 hxselectw3.org의 경우:

<htmlfile hxselect -s '\n' -c 'tr'

Answer

sedawk이 작업에 적합하지 않은 경우 적절한 HTML 파서를 사용해야 합니다 . 예를 들어 hxselectw3.org의 경우:

<htmlfile hxselect -s '\n' -c 'tr'

Question 4

`pup`

사용예pup(이것은CSS 선택기):

pup -f myfile.html tr

레이블 없이 텍스트만 인쇄하려면 다음을 사용하십시오 pup -f myfile.html tr text{}.

여기 몇 가지 예가 있어요 curl:

curl -sL https://www.iana.org/ | pup tr text{}
pup -f <(curl -sL https://www.iana.org/) tr text{}

`xpup`

사용예xpupHTML/XML 구문 분석의 경우(XPath 지원):

xpup -f myfile.html "//tr"

Answer

`pup`

사용예pup(이것은CSS 선택기):

pup -f myfile.html tr

레이블 없이 텍스트만 인쇄하려면 다음을 사용하십시오 pup -f myfile.html tr text{}.

여기 몇 가지 예가 있어요 curl:

curl -sL https://www.iana.org/ | pup tr text{}
pup -f <(curl -sL https://www.iana.org/) tr text{}

`xpup`

사용예xpupHTML/XML 구문 분석의 경우(XPath 지원):

xpup -f myfile.html "//tr"

두 레이블 사이의 텍스트

답변1

답변2

답변3

답변4

`pup`

`xpup`

관련 정보