Bash에서 HTML 구문 분석(grep이 충분하지 않은 경우)

Question 1

필터 파일을 사용하겠습니다.tidy, 각 최상위 태그를 별도의 줄에 배치하고 이러한 유형의 스크립팅(예: Perl)에 더 적합한 것을 사용하여 태그를 처리합니다. sed변경 사항이 매우 간단할 때 가장 유용합니다.

예를 들어, 이 페이지의 일부(필터링 후)는 다음과 같습니다( tidy -wrap 4096줄 바꿈을 줄이는 데 사용됨).

<body class="question-page new-topbar">
<noscript>
<div id="noscript-padding"></div>
</noscript>
<div id="notify-container"></div>
<div id="overlay-header"></div>
<div id="custom-header"></div>
<div class="topbar">
<div class="topbar-wrapper">
<div class="js-topbar-dialog-corral">
<div class="topbar-dialog siteSwitcher-dialog dno">
<div class="header">
<h3><a href="//unix.stackexchange.com">current community</a></h3>
</div>
<div class="modal-content current-site-container">
<ul class="current-site">

태그 "a"등은 인라인이지만 페이지 구조가 사용하기 더 쉽습니다.

이 페이지에는 "다운로드"를 사용했습니다 lynx -source. 그러나 사용할 수 있는 도구는 여러 가지가 있으며 wget이러한 curl목적으로 더 일반적으로 사용됩니다.

Answer

필터 파일을 사용하겠습니다.tidy, 각 최상위 태그를 별도의 줄에 배치하고 이러한 유형의 스크립팅(예: Perl)에 더 적합한 것을 사용하여 태그를 처리합니다. sed변경 사항이 매우 간단할 때 가장 유용합니다.

예를 들어, 이 페이지의 일부(필터링 후)는 다음과 같습니다( tidy -wrap 4096줄 바꿈을 줄이는 데 사용됨).

<body class="question-page new-topbar">
<noscript>
<div id="noscript-padding"></div>
</noscript>
<div id="notify-container"></div>
<div id="overlay-header"></div>
<div id="custom-header"></div>
<div class="topbar">
<div class="topbar-wrapper">
<div class="js-topbar-dialog-corral">
<div class="topbar-dialog siteSwitcher-dialog dno">
<div class="header">
<h3><a href="//unix.stackexchange.com">current community</a></h3>
</div>
<div class="modal-content current-site-container">
<ul class="current-site">

태그 "a"등은 인라인이지만 페이지 구조가 사용하기 더 쉽습니다.

이 페이지에는 "다운로드"를 사용했습니다 lynx -source. 그러나 사용할 수 있는 도구는 여러 가지가 있으며 wget이러한 curl목적으로 더 일반적으로 사용됩니다.

Question 2

시도 해봐강아지. 즉, OSX의 경우:

brew install https://raw.githubusercontent.com/EricChiang/pup/master/pup.rb

CSS3 선택기와 추출기를 사용하여 속성에서 값을 가져올 수 있습니다 href.

Answer

시도 해봐강아지. 즉, OSX의 경우:

brew install https://raw.githubusercontent.com/EricChiang/pup/master/pup.rb

CSS3 선택기와 추출기를 사용하여 속성에서 값을 가져올 수 있습니다 href.

Bash에서 HTML 구문 분석(grep이 충분하지 않은 경우)

답변1

답변2

관련 정보