ID를 기반으로 PubMed에서 PDF를 다운로드하는 방법은 무엇입니까?

Question 1

이 URL에서 PDF를 다운로드할 수 있게 하려는 이유는 무엇입니까? PubMed는 일반적으로 PDF를 제공하지 않으며, PDF를 얻을 수 있는 저널 웹페이지 링크를 제공합니다.

어쨌든 귀하의 스크립트는 괜찮습니다. 문제는 귀하가 제공한 링크가 PDF 파일이 아니라 XML 파일에 대한 것이며 그것이 다운로드되는 것입니다.

$ ls
10021369.pdf  10051007.pdf  10064668.pdf
10051005.pdf  100562.pdf    10071185.pdf

$ file *
10021369.pdf: XML document text
10051005.pdf: XML document text
10051007.pdf: XML document text
100562.pdf:   XML document text
10064668.pdf: XML document text
10071185.pdf: XML document text

PDF를 다운로드하려면 PDF 파일에 대한 링크를 제공해야 합니다. 스크립트가 방문한 링크 중 하나를 브라우저에 지정하여 이를 테스트할 수 있습니다. 예를 들어,http://www.ncbi.nlm.nih.gov/pubmed/10051005/pdf/. 링크에 들어가보시면 PDF 파일이 아닌 것을 보실 수 있습니다.

모든 PMID가 PubMed Central의 논문에 대한 링크인 경우 먼저 PubMed ID를 PubMed Central ID로 변환한 후 PDF를 얻을 수 있습니다.

#!/usr/bin/env bash

Link="http://www.ncbi.nlm.nih.gov/pubmed/"
PMCLink="http://www.ncbi.nlm.nih.gov/pmc/articles/"
ID=(10021369         
10051005
10051007
100562
10064668
10071185
)

for f in ${ID[@]};
do
  PMCID=$(wget  --user-agent="Mozilla/5.0 (Windows NT 5.2; rv:2.0.1) Gecko/20100101 Firefox/4.0.1" \
   -l1 --no-parent ${Link}${f} -O - 2>/dev/null | grep -Po 'PMC\d+' | head -n 1)
    if [ $PMCID ]; then
       wget  --user-agent="Mozilla/5.0 (Windows NT 5.2; rv:2.0.1) Gecko/20100101 Firefox/4.0.1" \
            -l1 --no-parent -A.pdf ${PMCLink}${PMCID}/pdf/ -O ${f}.pdf 2>/dev/null
    else
       echo "No PMC ID for $f"
    fi

done

이 스크립트를 실행하면 제공한 ID( 10051005.pdf및 )에서 10051007.pdf무료로 사용 가능한 PDF 2개를 다운로드 하고 나머지는 오류와 함께 인쇄합니다.

No PMC ID for 10021369
No PMC ID for 100562
No PMC ID for 10064668
No PMC ID for 10071185

나머지는 수동으로 가져오거나 관련 URL을 구문 분석하는 방법을 알아내야 합니다.

Answer

이 URL에서 PDF를 다운로드할 수 있게 하려는 이유는 무엇입니까? PubMed는 일반적으로 PDF를 제공하지 않으며, PDF를 얻을 수 있는 저널 웹페이지 링크를 제공합니다.