wget
다운로드해야 하는 파일의 URL이 포함된 csv 파일에서 약 330,000개의 과학 파일을 다운로드하고 있습니다. 그래서 나는 명령을 사용하고 있습니다
wget -i all_the_urls.csv
내 파일은 all_the_urls.csv
다음과 같습니다
http://dr16.sdss.org/sas/dr16/sdss/spectro/redux/v5_13_0/spectra/lite/11040/spec-11040-58456-0109.fits
http://dr16.sdss.org/sas/dr16/sdss/spectro/redux/v5_13_0/spectra/lite/11068/spec-11068-58488-0780.fits
http://dr16.sdss.org/sas/dr16/sdss/spectro/redux/v5_13_0/spectra/lite/11068/spec-11068-58488-0240.fits
파일은 각각 약 250kB로 작습니다. 하지만 너무 많아서 가끔 다운로드를 중단했다가 다시 시작해야 할 때도 있습니다. wget
URL 목록의 시작 부분이 아닌 마지막으로 다운로드한 파일 이후에 계속 다운로드할 수 있도록 사용할 수 있는 명령이 있습니까 ?
해당 명령이 없는 경우 다음 해결 방법 중 하나를 사용하는 방법을 알려주실 수 있습니까(모르겠습니다 wget
).
- 파일을 다운로드한 후
wget
파일의 URL을 삭제하세요.all_the_urls.csv
- 새 파일을 다운로드하기 전에
wget
해당 파일이 이미 다운로드되었는지 확인하고, 그렇다면 다음 파일로 이동하세요(그러나 이 확인에 소요되는 시간은 확실하지 않음).
다른 아이디어도 환영합니다! tnx
답변1
-c
계속하려면 -nc
스포일러가 작동하지 않아야 합니다.
mirror
문서가 형편없더라도 살펴보는 것이 좋습니다.