가사 사이트를 스크래핑하려고 하는데 꽤 좋은 스크립트를 만들었습니다. (처음이라 느리긴 하지만)
#!/bin/bash
touch visited
touch tobe
>visited
>tobe
url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")
wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe
for i in `cat temp_tobe`;
do
basename $(echo $i) >> tobe
done
rm temp_tobe
while true;
do
for i in `cat tobe`;
do
echo getting $url -> $i
wget -q $url$i --user-agent=$(echo UA)
echo $i >> visited
#PUT THE NEW LINK TO TOBE
cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe
#SORT VISITED
cat visited | sort | uniq > tmp && mv tmp visited
#SORT TOBE
cat tobe | sort | uniq > tmp && mv tmp tobe
#REMOVE THE INTERSECTION FROM TOBE
comm -23 tobe visited > tmp && mv tmp tobe
done
done
그런데 브라우저에서 해당 사이트에 접근조차 할 수 없어서 블랙리스트에 올라간 것 같아요. VPN을 시작했지만 여전히 사이트에 액세스할 수 없습니다(이건 미친 짓입니다!!!) The connection was reset
.
IP를 지속적으로 변경하는 기술(다른 온라인 사용자에게 편승)을 들은 적이 있습니다.
이를 달성하는 방법(바람직하게는 이것이 가능함)이나 사이트에 계속 액세스할 수 있는 다른 방법을 알려주실 수 있나요?
필요한 경우 설명을 요청하세요.
답변1
나는 이를 수행하는 방법을 제안할 수 있습니다. 아마도 최선은 아닐 수도 있지만 작업이 완료됩니다. 스크립트에서 tor
호출 torify
또는 이전 도구를 사용하십시오.torsocks
wget
torify wget -q $url --user-agent=$(echo UA) -O index.html
이 명령은 서버에 요청을 보내지만 먼저 tor
서버를 다운로드한 다음 점심을 먹은 후 원하는 작업을 수행할 수 있는 무료 공간을 채워야 합니다 torify
.
예를 들어 CentOS 또는 Ubunutu에 설치하려면 다음을 수행하십시오.
yum install tor
apt-get install tor
기본적으로 설치됩니다 torify
.