사람이 curl
또는 을 사용하여 웹페이지를 다운로드하면 wget
HTML이 됩니다.
그러나 일반 텍스트(예: HTML 구문 분석 없이)로 다운로드하려면 정확하게 또는 거의 정확하게 다운로드해야 합니다.명확하게 읽어라웹 브라우저에서 이 작업을 수행할 수 있는 방법이 있습니까(물론 이미지/비디오/오디오 생략)?
답변1
다운로드할 수 없습니다. 서버에 존재하지 않습니다. 서버는 HTML을 보내고 브라우저의 작업은 이를 표시하는 것입니다. 그 일부는 표시 텍스트일 수 있습니다.
실제로 많은 웹페이지는 상당히 비어 있으며 읽을 때 관련 콘텐츠를 로드합니다.
따라서 텍스트를 표시할 수 있는 작동하는 브라우저가 필요하고 해당 텍스트를 가져와야 합니다.
일반적으로 실제로 스크립트 언어에서 브라우저를 원격으로 제어하여 이 작업을 수행합니다. 특별한 "데몬" 모드에서 브라우저를 시작하고 연결한 다음 특별히 설계된 브라우저 제어 인터페이스(WebDriver)를 사용하여 URL로 이동을 지시합니다. 브라우저가 화면에 표시되는 내용을 적절하게 렌더링할 때까지 잠시 기다린 다음 일반 텍스트 파일로 저장하도록 지시합니다.
답변2
개인적으로 나는판독그런 이유로.
pandoc -t plain 'https://example.com/something/'
파일에 저장하려면:
pandoc -t plain 'https://example.com/something/' -o output.txt
분명히 이것은 페이지를 채우기 위해 자바스크립트를 사용하지 않는 대부분의 텍스트 웹사이트에서만 작동합니다.