수백 페이지에 달하는 이중 언어 텍스트가 포함된 PDF가 있습니다. 언어별로 OCR을 따로 사용해야 하기 때문에 짝수 페이지와 홀수 페이지를 잡고 convert
별도의 PDF 2개를 사용하거나 만들고 싶습니다 ghostscript
. 내가 할 첫 번째 언어는 이상한 페이지에 있습니다. 이를 가져와서 새 파일에 쓰려면 어떤 명령 convert
이나 명령을 사용할 수 있습니까 ?ghostscript
답변1
난 이걸 할거야pdftk.
pdftk A=all.pdf cat Aodd output odd.pdf
pdftk A=all.pdf cat Aeven output even.pdf
답변2
pdftk불행히도 더 이상 오픈 소스가 아닙니다. (이야기가 깁니다.)
분명히GS하지만 엔진은 다음을 수행할 수 있습니다.
gs -sDEVICE=pdfwrite \
-sPageList=odd \
-sOutputFile=odd.pdf \
-dBATCH -dNOPAUSE \
file.pdf
그런 다음 짝수 페이지를 선택하려면 "홀수"를 "짝수"로 바꾸세요.
답변3
이 도구를 사용하면 poppler-utils
먼저 다음 명령을 사용하여 단일 페이지를 추출할 수 있습니다 pdfseparate
.
pdfseparate infile.pdf piece-%d.pdf
원본 PDF의 총 페이지 수와 piece-1.pdf
같이 분할합니다 .piece-2.pdf
piece-n.pdf
n
pdfunite
그런 다음 (및 범위 확장과 함께 증분 값 사용을 지원하는 셸 :)을 사용하여 {<START>..<END>..<INCR>}
이들을 연결할 수 있습니다 .
pdfunite piece-{1..n..2}.pdf odd.pdf
pdfunite piece-{2..n..2}.pdf even.pdf
마지막으로 조각을 제거합니다.
rm piece-{1..n}.pdf
답변4
Poppler를 사용하여 이 작업을 수행할 수 있습니다 pdftocairo
.
pdftocairo -pdf -e input.pdf output.pdf
홀수 페이지의 경우:
pdftocairo -pdf -o input.pdf output.pdf
짝수 페이지의 경우.
!!현재(pdftocairo v.0.80.0) 버그가 있다는 점을 명심하십시오: https://gitlab.freedesktop.org/poppler/poppler/issues/873홀수 페이지와 짝수 페이지 옵션이 혼동됩니다. ))