HTML 파일에서 특정 URL을 추출하는 방법

HTML 파일에서 특정 URL을 추출하는 방법

서식이 없는 HTML 파일이 있습니다. 양식의 URL을 추출하고 싶습니다.https://sitename.com/*/ending 및 해당 URL만.

이를 수행하는 가장 좋은 방법은 무엇입니까?

이 질문은 중복되지 않습니다. 또 다른 질문은 특정 DIV의 내용을 추출하는 방법을 묻습니다. 특정 형식과 일치하는 URL 목록을 추출하는 방법을 묻습니다.

답변1

간단한 grep으로 이 작업을 수행할 수 있습니다.

grep -o "https://sitename.com/.+/ending" somefile.html

(참고: 현재 내 앞에는 이를 테스트할 *nix 머신이 없습니다.)

편집: 내 Linux 상자를 부팅하고 작동하는 것을 확인했습니다.

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

A는 .+욕심이 많아 너무 많은 것을 포획할 것이다. 부정 어설션을 사용하면 하위 디렉터리의 끝을 올바르게 찾을 수 있습니다. 와 같은 중첩된 하위 디렉터리는 찾을 수 없습니다 https://sitename.com/sub/directory/ending.

관련 정보