HTML 없이 wget을 사용하여 페이지 텍스트를 얻는 방법은 무엇입니까?

Question 1

wget문서만 검색됩니다. 문서가 HTML 형식인 경우 원하는 것은 문서를 구문 분석한 결과입니다.

예를 들어, lynx -dump -nolist주변에 살쾡이가 있는 경우 사용할 수 있습니다.

lynx-dump구문 분석 프로세스의 결과를 출력하는 기능을 갖춘 가볍고 간단한 웹 브라우저입니다 . -nolist페이지에 하이퍼링크가 있는 경우 나타나는 마지막 부분에 나타나는 링크 목록을 피하세요.

@Thor가 언급했듯이 elinks옵션도 있으므로 이 목적으로 사용할 수도 있습니다 -dump( -no-references링크된 목록은 생략해야 함). -sigh-frames(MTFBWY)를 사용하여 특정 사이트를 지나갈 때 특히 유용할 수 있습니다.

또한 페이지가 실제로 HTML 마크업이 포함된 C 코드가 아닌 이상 결과를 확인하여 C 코드 외에는 아무것도 없는지 확인해야 한다는 점을 명심하세요.

Answer

wget문서만 검색됩니다. 문서가 HTML 형식인 경우 원하는 것은 문서를 구문 분석한 결과입니다.

예를 들어, lynx -dump -nolist주변에 살쾡이가 있는 경우 사용할 수 있습니다.

lynx-dump구문 분석 프로세스의 결과를 출력하는 기능을 갖춘 가볍고 간단한 웹 브라우저입니다 . -nolist페이지에 하이퍼링크가 있는 경우 나타나는 마지막 부분에 나타나는 링크 목록을 피하세요.

@Thor가 언급했듯이 elinks옵션도 있으므로 이 목적으로 사용할 수도 있습니다 -dump( -no-references링크된 목록은 생략해야 함). -sigh-frames(MTFBWY)를 사용하여 특정 사이트를 지나갈 때 특히 유용할 수 있습니다.

또한 페이지가 실제로 HTML 마크업이 포함된 C 코드가 아닌 이상 결과를 확인하여 C 코드 외에는 아무것도 없는지 확인해야 한다는 점을 명심하세요.

Question 2

이러한 다른 도구가 설치되어 있지 않고 wget만 설치되어 있고 페이지에 서식이 없고 소스 코드나 파일 목록과 같은 일반 텍스트와 링크만 있는 경우 sed를 사용하여 다음과 같이 HTML을 제거할 수 있습니다. :

wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'

이는 wget을 사용하여 페이지 소스를 STDOUT으로 덤프하고 sed를 사용하여 < > 쌍과 그 사이의 모든 항목을 제거합니다.

그런 다음 >를 사용하여 sed 명령의 출력을 생성하려는 파일로 리디렉션할 수 있습니다.

wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt

참고: 파일에 원하지 않는 추가 공백이 있을 수 있습니다(예: 여러 열로 들여쓰기된 줄).

텍스트 편집기를 사용하여 파일을 구성하는 것이 아마도 가장 쉬울 것입니다(또는 C 소스 코드를 다운로드한 경우 소스 포맷터를 사용).

파일의 모든 줄에서 동일한 간단한 작업을 수행해야 하는 경우 sed 명령에 명령을 포함하여 이를 수행할 수 있습니다(여기서 선행 공백 하나 제거).

wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt

Answer