PDF에서 OCR 제거

PDF에서 OCR 제거

내 PDF 파일에 손상된 OCR이 포함되어 있습니다. 많은 기호와 약어가 포함된 손으로 쓴 페이지 묶음이고 자동 생성된 OCR이 포함된 이 파일을 얻었습니다. 더 가벼운 파일을 얻고 불필요한 OCR을 제거하기 위해 텍스트 레이어를 제거하려면 어떻게 해야 합니까?

답변1

@dirkt가 제공한 명령은 나에게 작동하지 않았습니다. 실제로 파일 크기를 560Mb에서 300Mb로 줄였지만 diffpdf를 확인하지 않았으므로 파일 간에 무엇이 변경되었는지 알 수 없습니다.

나에게 효과가 있었던 것은아파치 PDF 상자Pdfbox 개발자는 예제에서 텍스트와 기타 콘텐츠를 제거하기 위한 멋진 작은 프로그램을 제공하지만 저는 Java 경험(또는 bash 이외의 다른 것)이 없기 때문에 openjdk-11-jdk -Headless 및 libpdfbox를 설치했습니다. -자바.

속도:

  1. pdfbox2.jar,fontbox2.jar, commons-logging.jar(pdfbox2의 일부 클래스에 필요함)을 폴더에 복사합니다.
  2. .jar xf pdfbox2.jar
  3. 설치된 버전과 동일한 Pdfbox 소스를 가져옵니다.
  4. RemoveAllText.java를 이 폴더에 복사합니다 org/apache/pdfbox/examples/util.
  5. RemoveAllText.java를 컴파일합니다 javac org/apache/pdfbox/examples/util/RemoveAllText.java.
  6. 이제 실행하면 사용법이 표시됩니다 java org.apache.pdfbox.examples.util.RemoveAllText.

누구든지 이 답변을 발견하고 더 나은 방법을 알고 있다면 댓글을 남겨주세요.

관련 정보