PDF를 전자책 형식으로 변환하는 방법

PDF를 전자책 형식으로 변환하는 방법

PDF 문서를 epub, azw 또는 mobi와 같은 전자책 형식으로 변환할 수 있는 방법이 있습니까? 변환 속도가 빠른 앱을 찾고 있습니다. 방금 구경을 시도했습니다. 10분이 지나도 전환율은 2%에도 미치지 못했습니다. 그러니 구경하지 마십시오. CLI가 선호됩니다.

답변1

나는 보통 사용한다구경, 다양한 형식(epub, mobi 및 pdf)에서 변환합니다. 변환하는 것은 매우 간단합니다. 여기에 스크린샷이 있습니다.다른 사람그리고비디오 튜토리얼게다가.

스크린샷

   SS 구경

답변2

시도해 보시기 바랍니다 pdftotext(패키지의 Ubuntu 아래 poppler-utils). 명령줄 변환기입니다. PDF에는 이미지뿐만 아니라 텍스트도 포함되어 있다고 가정합니다.

PDF 파일에 이미지(OCR 정보 없음)가 포함된 경우 훨씬 느린 OCR 솔루션을 사용해야 합니다.

나는 또한 스크램블된 PDF 텍스트에 대해 OCR 방법을 성공적으로 사용했습니다(비선형 방식으로 페이지에 개별 문자를 배치함으로써). 그런 다음 예를 들어 pdftoppm페이지의 개별 이미지를 가져오고 해당 이미지를 OCR하는 데 사용할 수 있습니다 .

답변3

PDF 파일로 이 작업을 한 번 수행해야 했고 결과는 다음과 같았습니다(poppler의 pdftohtml 사용).

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zip 파일을 Calibre로 가져와서 EPUB로 변환하세요. 모든 CSS 속성(예: 색상, 글꼴)을 필터링합니다.

모든 PDF 파일은 서로 다릅니다. 명확한 해결책은 없습니다. 위의 접근 방식은 특정 상황에 적합합니다. pdftohtml/pdftotext를 약화시킨 다음 필요에 맞게 출력을 조정해야 합니다.

OCR에 의지해야 하는 데 실패했지만 설형문자로 운이 좋았습니다. 하지만 tesseract, ocrad, gocr을 사용해 볼 수도 있습니다. 그러나 이러한 모든 작업에는 좋은 결과를 얻으려면 수작업이 필요합니다.

관련 정보