재귀를 사용하여 웹사이트를 다운로드하고 싶습니다 wget
. 웹사이트에는 PHP 스크립트에서 제공하는 기사가 포함되어 있습니다. www.example.com/article.php?id=1021&ch=5 - 이것이 제가 원하는 것입니다. 모든 장은 별도의 기사입니다.
불행하게도 이 사이트에는 리뷰도 많이 포함되어 있습니다. 주석은 PHP 스크립트에서도 제공됩니다. www.example.com/comment.php?id=1021&no=144 - 저는 확실히아니요생각하다.
기본적으로 나는 모든 것을 원한다와는 별개로의 의견. 문제는 기사, 장 및 리뷰에 대한 링크가 기사 및 장 목록 전체에 흩어져 있으므로 이를 방지하기 위해 재귀 수준을 "미세 조정"할 방법이 없으며 수준을 평준화하고 수동으로 정렬할 수 없다는 것입니다. , 시간과 노력이 너무 많이 들 것입니다.
둘 다 PHP 스크립트이므로 wget의 -A 또는 -R 옵션을 사용하여 특정 접미사가 있는 파일을 허용하거나 거부하면 작동하지 않습니다. 그렇죠? 재귀적으로 다운로드할 때 하나의 PHP 스크립트만 제외하고 다른 스크립트는 제외하는 더 정확한 방법이 있습니까?
답변1
다음은 귀하가 찾고 있는 것에 대한 통찰력을 제공합니다.http://www.gnu.org/software/wget/manual/html_node/Directory_002dBased-Limits.html
--exclude /comment.php
제외 페이지의 모든 변형을 사용할 수 있어야 합니다.comment.php