웹페이지에서 일부 정보를 추출하려고 합니다. 이름(러시아 북부 중앙 시베리아)이 있고 웹 페이지에서 해당 이름이 포함된 전체 행을 추출한다고 가정해 보십시오. 이 문제를 해결하기 위해 lynx 명령( )을 사용하여 https://geofon.gfz-potsdam.de/eqinfo/list.php
웹 페이지( )를 텍스트 파일로 다운로드 lynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt
하고 "North Central Syria, Russia"라는 이름이 포함된 줄을 grep하려고 했습니다. 다음 줄은 웹 페이지의 정보를 보여 주며 모든 정보는 연속적입니다.
2018-05-27 04:27:17 4.8 60.07°N 128.42°E 10 A Northcentral Siberia, Russia
하지만 웹 페이지를 텍스트 파일로 다운로드하면 위 줄이 다음과 같이 두 줄로 분할됩니다.
2018-05-27 04:27:17 4.8 60.07°N 128.42°E 10 A Northcentral
Siberia, Russia
이 경우 전체 이름(러시아 북부 시베리아)과 grep을 사용하여 라인을 추출하려고 하면 실패합니다. 이 문제를 어떻게 처리해야 합니까?
답변1
-dump
그 이유는 해당 옵션을 사용할 때 lynx
"화면"의 너비가 80열이고 웹 페이지의 표 형식 등으로 인해 줄 바꿈이 발생한다고 가정하기 때문입니다.
매개변수 를 추가하면 -width
제대로 작동합니다.
lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt