wget
, 하위 폴더 및 index.html 에 대한 질문입니다.
내가 "website.com": "website.com/travels/"에 있는 "travels/" 폴더에 있다고 가정해 보겠습니다.
"travels/" 폴더에는 많은 파일과 기타 (하위)폴더가 포함되어 있습니다: "website.com/travels/list.doc", "website.com/travels/cover.png", "website.com/travels/[1990 " ] 미국/" , "website.com/travels/[1994] 일본/" 등...
모든 하위 폴더에서 ".mov" 및 ".jpg"만 모두 다운로드하는 방법은 무엇입니까? "travels/"(예: "website.com/travels/list.doc" 아님)에서 파일을 선택하고 싶지 않습니다.
wget
하위 폴더에서 "index.html"만 다운로드할 수 있고 다른 것은 다운로드할 수 없는 명령(Unix 및 Linux Exchange에서는 논의된 내용이 기억나지 않음)을 찾았습니다 . 왜 인덱스 파일만 다운로드하나요?
답변1
이 명령은 특정 웹사이트에서 이미지와 동영상만 다운로드합니다.
wget -nd -r -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"
~에 따르면재치있는 사람들:
-nd prevents the creation of a directory hierarchy (i.e. no directories).
-r enables recursive retrieval. See Recursive Download for more information.
-P sets the directory prefix where all files and directories are saved to.
-A sets a whitelist for retrieving only certain file types. Strings and patterns are accepted, and both can be used in a comma separated list (as seen above). See Types of Files for more information.
하위 폴더를 다운로드하려면 --no-parent
다음 명령과 유사한 flag 를 사용해야 합니다.
wget -r -l1 --no-parent -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"
-r: recursive retrieving
-l1: sets the maximum recursion depth to be 1
--no-parent: does not ascend to the parent; only downloads from the specified subdirectory and downwards hierarchy
index.html 웹페이지 정보. 플래그가 명령에 포함 되면 플래그는 특정 유형의 파일을 강제로 다운로드 하므로 -A
제외됩니다 . 즉, 다운로드가 허용되는 파일 목록(예: 플래그 )에 포함되지 않은 경우 파일은 다운로드되지 않으며 터미널에 다음 메시지가 출력됩니다.wget
wget
html
A
wget
Removing /save/location/default.htm since it should be rejected.
wget
jpg, jpeg, png, mov, avi, mpeg...등과 같은 특정 유형의 파일은 제공된 URL 링크에 해당 파일이 있는 경우 다운로드할 수 있습니다. wget
예:
다음에서 .zip 및 .chd 파일을 다운로드한다고 가정합니다.웹사이트
이 링크에 폴더와 .zip 파일이 있습니다(끝까지 스크롤). 이제 다음 명령을 실행한다고 가정해 보겠습니다.
wget -r --no-parent -P /save/location -A chd,zip "https://archive.org/download/MAME0.139_MAME2010_Reference_Set_ROMs_CHDs_Samples/roms/"
이 명령은 .zip 파일을 다운로드하고 .chd 파일을 위한 빈 폴더를 만듭니다.
.chd 파일을 다운로드하려면 빈 폴더의 이름을 추출한 다음 이러한 폴더 이름을 실제 URL로 변환해야 합니다. 그런 다음 관심 있는 모든 URL을 텍스트 파일에 넣고 마지막으로 다음과 같이 file.txt
해당 텍스트 파일을 에 입력합니다 .wget
wget -r --no-parent -P /save/location -A chd,zip -i file.txt
이전 명령은 모든 chd 파일을 찾습니다.