bash - 여러 링크가 포함된 html 파일에서 파일 이름 추출

Question 1

가장 좋은 전략은 <a>모든 태그의 값을 출력할 수 있는 적합한 HTML 파서를 사용하는 것입니다.

이것은 xmlstarlet특히 XML 파서입니다. HTML이 올바른 형식의 XML이 아닐 수도 있지만 아마도 다음과 같은 아이디어를 얻을 수 있을 것입니다.

echo '<html>
<a href="000000.jpg" title="image name.jpg" target="_blank">Image name.jpg</a>
</html>' | xmlstarlet sel -t -v //a

Image name.jpg

Answer

가장 좋은 전략은 <a>모든 태그의 값을 출력할 수 있는 적합한 HTML 파서를 사용하는 것입니다.

이것은 xmlstarlet특히 XML 파서입니다. HTML이 올바른 형식의 XML이 아닐 수도 있지만 아마도 다음과 같은 아이디어를 얻을 수 있을 것입니다.

echo '<html>
<a href="000000.jpg" title="image name.jpg" target="_blank">Image name.jpg</a>
</html>' | xmlstarlet sel -t -v //a

Image name.jpg

Question 2

귀하의 정규식은

target="_blank">([[:graph:]]*)\.(jpg|png|gif|webm)

이는 리터럴 텍스트 target="_blank">, 공백이 아닌 문자의 개수, 마지막으로 4개의 문자열 중 하나인 , .jpg또는 와 일치합니다 . 예를 들어, grep 명령은 다음 줄의 굵은 부분을 출력합니다..png.gif.webm

<하나...target="_blank">뭔가.jpg</a>
<하나...target="_blank">a.gifted.child.txt</a>
<a … target="_blank">기타 사항.jpg</a>
<하나...target="_blank">something.jpg</a>+more.jpg

[[:print:]]대신 사용하면 [[:graph:]]다음과 일치합니다.

<하나...target="_blank">something.jpg</a> 위블 워블 <a … target="_blank">something else.jpg</a>

target …라인에서 첫 번째 일치 비트와 마지막 일치 확장자 사이의 모든 항목이 일치합니다.

일치에서 HTML 마크업 문자를 제외해야 합니다.

target="_blank">[^<>]*\.(jpg|png|gif|webm)</a>

GNU grep을 사용하면 -P옵션을 사용하여 구성을 얻을 수 있습니다펄 정규식,특히너비가 0인 어설션일치 부분에 해당 텍스트를 포함하지 않고 일부 상수 텍스트가 앞이나 뒤에 오도록 지정할 수 있습니다.

grep -o -P '(?<target="_blank">)[^<>]*\.(jpg|png|gif|webm)(?=</a>)'

<a>예상치 못한 공백(예: 태그와 닫는 문자 사이 또는 개행 문자 사이에 개행 문자)이 있으면 </a>여전히 실패할 수 있습니다 . 당신은 할 수 있습니다적절한 HTML 파서를 사용하는 것이 좋습니다.

예를 들어, 파이썬에서는아름다운 수프(테스트되지 않음):

import re, sys, BeautifulSoup
soup = BeautifulSoup(sys.stdin)
for hit in soup.find_all('a', target='_blank'):
    if re.match(r'.*\.(jpg|png|gif|webm)\Z', hit.string):
        print(hit.string)

비슷한 코드는 다음과 같이 작성할 수 있습니다.HTML::Parser펄에서는노코체루비 등에서

Answer