웹 페이지의 콘텐츠를 웹 페이지와 정확히 동일한 텍스트 파일로 다운로드하는 방법은 무엇입니까?

2024-5-30 • tag-icon

웹 페이지의 콘텐츠를 웹 페이지와 정확히 동일한 텍스트 파일로 다운로드하는 방법은 무엇입니까?

웹페이지에서 일부 정보를 추출하려고 합니다. 이름(러시아 북부 중앙 시베리아)이 있고 웹 페이지에서 해당 이름이 포함된 전체 행을 추출한다고 가정해 보십시오. 이 문제를 해결하기 위해 lynx 명령( )을 사용하여 https://geofon.gfz-potsdam.de/eqinfo/list.php웹 페이지( )를 텍스트 파일로 다운로드 lynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt하고 "North Central Syria, Russia"라는 이름이 포함된 줄을 grep하려고 했습니다. 다음 줄은 웹 페이지의 정보를 보여 주며 모든 정보는 연속적입니다.

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A       Northcentral Siberia, Russia

하지만 웹 페이지를 텍스트 파일로 다운로드하면 위 줄이 다음과 같이 두 줄로 분할됩니다.

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A   Northcentral 
Siberia, Russia

이 경우 전체 이름(러시아 북부 시베리아)과 grep을 사용하여 라인을 추출하려고 하면 실패합니다. 이 문제를 어떻게 처리해야 합니까?

답변1

-dump그 이유는 해당 옵션을 사용할 때 lynx"화면"의 너비가 80열이고 웹 페이지의 표 형식 등으로 인해 줄 바꿈이 발생한다고 가정하기 때문입니다.

매개변수 를 추가하면 -width제대로 작동합니다.

lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt

답변1

관련 정보