Wget: 파일을 선택적으로 재귀적으로 다운로드하시겠습니까?

Wget: 파일을 선택적으로 재귀적으로 다운로드하시겠습니까?

wget, 하위 폴더 및 index.html 에 대한 질문입니다.

내가 "website.com": "website.com/travels/"에 있는 "travels/" 폴더에 있다고 가정해 보겠습니다.

"travels/" 폴더에는 많은 파일과 기타 (하위)폴더가 포함되어 있습니다: "website.com/travels/list.doc", "website.com/travels/cover.png", "website.com/travels/[1990 " ] 미국/" , "website.com/travels/[1994] 일본/" 등...

모든 하위 폴더에서 ".mov" 및 ".jpg"만 모두 다운로드하는 방법은 무엇입니까? "travels/"(예: "website.com/travels/list.doc" 아님)에서 파일을 선택하고 싶지 않습니다.

wget하위 폴더에서 "index.html"만 다운로드할 수 있고 다른 것은 다운로드할 수 없는 명령(Unix 및 Linux Exchange에서는 논의된 내용이 기억나지 않음)을 찾았습니다 . 왜 인덱스 파일만 다운로드하나요?

답변1

이 명령은 특정 웹사이트에서 이미지와 동영상만 다운로드합니다.

wget -nd -r -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"

~에 따르면재치있는 사람들:

-nd prevents the creation of a directory hierarchy (i.e. no directories).

-r enables recursive retrieval. See Recursive Download for more information.

-P sets the directory prefix where all files and directories are saved to.

-A sets a whitelist for retrieving only certain file types. Strings and patterns are accepted, and both can be used in a comma separated list (as seen above). See Types of Files for more information.

하위 폴더를 다운로드하려면 --no-parent다음 명령과 유사한 flag 를 사용해야 합니다.

wget -r -l1 --no-parent -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"

-r: recursive retrieving
-l1: sets the maximum recursion depth to be 1
--no-parent: does not ascend to the parent; only downloads from the specified subdirectory and downwards hierarchy

index.html 웹페이지 정보. 플래그가 명령에 포함 되면 플래그는 특정 유형의 파일을 강제로 다운로드 하므로 -A제외됩니다 . 즉, 다운로드가 허용되는 파일 목록(예: 플래그 )에 포함되지 않은 경우 파일은 다운로드되지 않으며 터미널에 다음 메시지가 출력됩니다.wgetwgethtmlAwget

Removing /save/location/default.htm since it should be rejected.

wgetjpg, jpeg, png, mov, avi, mpeg...등과 같은 특정 유형의 파일은 제공된 URL 링크에 해당 파일이 있는 경우 다운로드할 수 있습니다. wget예:

다음에서 .zip 및 .chd 파일을 다운로드한다고 가정합니다.웹사이트

이 링크에 폴더와 .zip 파일이 있습니다(끝까지 스크롤). 이제 다음 명령을 실행한다고 가정해 보겠습니다.

wget -r --no-parent -P /save/location -A chd,zip "https://archive.org/download/MAME0.139_MAME2010_Reference_Set_ROMs_CHDs_Samples/roms/"

이 명령은 .zip 파일을 다운로드하고 .chd 파일을 위한 빈 폴더를 만듭니다.

.chd 파일을 다운로드하려면 빈 폴더의 이름을 추출한 다음 이러한 폴더 이름을 실제 URL로 변환해야 합니다. 그런 다음 관심 있는 모든 URL을 텍스트 파일에 넣고 마지막으로 다음과 같이 file.txt해당 텍스트 파일을 에 입력합니다 .wget

wget -r --no-parent -P /save/location -A chd,zip -i file.txt

이전 명령은 모든 chd 파일을 찾습니다.

관련 정보