PDF 문서를 epub, azw 또는 mobi와 같은 전자책 형식으로 변환할 수 있는 방법이 있습니까? 변환 속도가 빠른 앱을 찾고 있습니다. 방금 구경을 시도했습니다. 10분이 지나도 전환율은 2%에도 미치지 못했습니다. 그러니 구경하지 마십시오. CLI가 선호됩니다.
답변1
답변2
시도해 보시기 바랍니다 pdftotext
(패키지의 Ubuntu 아래 poppler-utils
). 명령줄 변환기입니다. PDF에는 이미지뿐만 아니라 텍스트도 포함되어 있다고 가정합니다.
PDF 파일에 이미지(OCR 정보 없음)가 포함된 경우 훨씬 느린 OCR 솔루션을 사용해야 합니다.
나는 또한 스크램블된 PDF 텍스트에 대해 OCR 방법을 성공적으로 사용했습니다(비선형 방식으로 페이지에 개별 문자를 배치함으로써). 그런 다음 예를 들어 pdftoppm
페이지의 개별 이미지를 가져오고 해당 이미지를 OCR하는 데 사용할 수 있습니다 .
답변3
PDF 파일로 이 작업을 한 번 수행해야 했고 결과는 다음과 같았습니다(poppler의 pdftohtml 사용).
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
zip 파일을 Calibre로 가져와서 EPUB로 변환하세요. 모든 CSS 속성(예: 색상, 글꼴)을 필터링합니다.
모든 PDF 파일은 서로 다릅니다. 명확한 해결책은 없습니다. 위의 접근 방식은 특정 상황에 적합합니다. pdftohtml/pdftotext를 약화시킨 다음 필요에 맞게 출력을 조정해야 합니다.
OCR에 의지해야 하는 데 실패했지만 설형문자로 운이 좋았습니다. 하지만 tesseract, ocrad, gocr을 사용해 볼 수도 있습니다. 그러나 이러한 모든 작업에는 좋은 결과를 얻으려면 수작업이 필요합니다.