PDF를 전자책 형식으로 변환하는 방법

Question 1

나는 보통 사용한다구경, 다양한 형식(epub, mobi 및 pdf)에서 변환합니다. 변환하는 것은 매우 간단합니다. 여기에 스크린샷이 있습니다.다른 사람그리고비디오 튜토리얼게다가.

스크린샷

SS 구경

Answer

나는 보통 사용한다구경, 다양한 형식(epub, mobi 및 pdf)에서 변환합니다. 변환하는 것은 매우 간단합니다. 여기에 스크린샷이 있습니다.다른 사람그리고비디오 튜토리얼게다가.

스크린샷

SS 구경

Question 2

시도해 보시기 바랍니다 pdftotext(패키지의 Ubuntu 아래 poppler-utils). 명령줄 변환기입니다. PDF에는 이미지뿐만 아니라 텍스트도 포함되어 있다고 가정합니다.

PDF 파일에 이미지(OCR 정보 없음)가 포함된 경우 훨씬 느린 OCR 솔루션을 사용해야 합니다.

나는 또한 스크램블된 PDF 텍스트에 대해 OCR 방법을 성공적으로 사용했습니다(비선형 방식으로 페이지에 개별 문자를 배치함으로써). 그런 다음 예를 들어 pdftoppm페이지의 개별 이미지를 가져오고 해당 이미지를 OCR하는 데 사용할 수 있습니다 .

Answer

시도해 보시기 바랍니다 pdftotext(패키지의 Ubuntu 아래 poppler-utils). 명령줄 변환기입니다. PDF에는 이미지뿐만 아니라 텍스트도 포함되어 있다고 가정합니다.

PDF 파일에 이미지(OCR 정보 없음)가 포함된 경우 훨씬 느린 OCR 솔루션을 사용해야 합니다.

나는 또한 스크램블된 PDF 텍스트에 대해 OCR 방법을 성공적으로 사용했습니다(비선형 방식으로 페이지에 개별 문자를 배치함으로써). 그런 다음 예를 들어 pdftoppm페이지의 개별 이미지를 가져오고 해당 이미지를 OCR하는 데 사용할 수 있습니다 .

Question 3

PDF 파일로 이 작업을 한 번 수행해야 했고 결과는 다음과 같았습니다(poppler의 pdftohtml 사용).

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zip 파일을 Calibre로 가져와서 EPUB로 변환하세요. 모든 CSS 속성(예: 색상, 글꼴)을 필터링합니다.

모든 PDF 파일은 서로 다릅니다. 명확한 해결책은 없습니다. 위의 접근 방식은 특정 상황에 적합합니다. pdftohtml/pdftotext를 약화시킨 다음 필요에 맞게 출력을 조정해야 합니다.

OCR에 의지해야 하는 데 실패했지만 설형문자로 운이 좋았습니다. 하지만 tesseract, ocrad, gocr을 사용해 볼 수도 있습니다. 그러나 이러한 모든 작업에는 좋은 결과를 얻으려면 수작업이 필요합니다.

Answer

PDF 파일로 이 작업을 한 번 수행해야 했고 결과는 다음과 같았습니다(poppler의 pdftohtml 사용).

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zip 파일을 Calibre로 가져와서 EPUB로 변환하세요. 모든 CSS 속성(예: 색상, 글꼴)을 필터링합니다.

모든 PDF 파일은 서로 다릅니다. 명확한 해결책은 없습니다. 위의 접근 방식은 특정 상황에 적합합니다. pdftohtml/pdftotext를 약화시킨 다음 필요에 맞게 출력을 조정해야 합니다.

OCR에 의지해야 하는 데 실패했지만 설형문자로 운이 좋았습니다. 하지만 tesseract, ocrad, gocr을 사용해 볼 수도 있습니다. 그러나 이러한 모든 작업에는 좋은 결과를 얻으려면 수작업이 필요합니다.

PDF를 전자책 형식으로 변환하는 방법

답변1

스크린샷

답변2

답변3

관련 정보