간단히 말해서, 내가 다운로드하는 사이트에 대한 모든 링크는 로 시작합니다 &sid=335345346fdsfdsfs
. 이는 계속 변경되어 index.html
다른 많은 페이지에도 동일한 콘텐츠가 생성됩니다.
이런 문제를 해결한 사람이 있는지 궁금합니다. 나에게 필요한 것은 입니다 sed -e 's/&sid=.*$//g'
.
- 따라서 도구는 인터넷에서 링크를 가져옵니다.
http://foo.bar/&sid=yada
- 전처리
http://foo.bar
- 이미 존재하는지 확인하고 그에 따라 다운로드하거나 건너뜁니다.
- 다운로드하는 경우
s/&sid=.*$//g
동일한 작업을 수행하여 다운로드 내의 링크를 교체합니다..html
사이트 이름에 포함된 GET 변수를 무시하는 영리한 방법이 이미 있다면 환영합니다.