무작위 소스의 PDF가 주어지면 Linux에서 다음을 어떻게 수행합니까?
- 있는지 확인해보세요PDF/A이미 포맷되었나요?
- PDF/A 형식이 아닌 경우 충실도 손실을 최소화하면서 PDF/A로 변환됩니까?
변환으로 인해 문서의 외부 요소가 손실될 수 있다는 점을 이해하지만, 비교적 먼 미래에 문서를 여는 기능이 이 멋진 기능(이런 경우 사용 가능/읽을 수 없을 수 있음)보다 더 중요하다고 가정해 보겠습니다. 그래도). 원본 파일을 열 수 없는 위험을 감수하기보다는 문서를 나란히 볼 수 있을 때 변환의 정확성을 시각적으로 확인할 수 있는 편이 낫습니다.
답변1
식별하다
PDF/A 파일을 식별하는 데 사용할 수 있는 것처럼 보이는 이 도구를 발견했습니다. 그것은 알려져있다DROID(디지털 녹음 및 개체 식별). Java를 기반으로 하며 GUI 또는 명령줄에서 실행할 수 있습니다.
발췌
DROID는 파일 형식의 자동 일괄 식별을 위해 국립 문서 보관소에서 개발한 소프트웨어 도구입니다. 광범위한 디지털 보존 활동의 일환으로 디지털 보존 부서에서 개발한 DROID는 모든 디지털 저장소의 기본 요구 사항을 충족하고 저장된 모든 디지털 객체의 정확한 형식을 식별하고 해당 ID를 중앙 레지스트리에 연결할 수 있도록 설계되었습니다. 형식 및 해당 종속성에 대한 기술 정보입니다.
National Archives의 후원을 받는다는 점을 고려하면 PDF/A 형식의 의도된 목적을 고려할 때 이 작업을 수행하는 데 적합한 도구라고 생각합니다. 이 프로젝트는 오픈 소스이기도 합니다.코드는 Github에서 찾을 수 있습니다바이너리 형식으로 패키지되어 있습니다.국립 문서 보관소 웹사이트.
검증 및 변환
검증 및 변환을 수행하는 도구를 찾고 있다면PDF 상자이것은 가능합니다. PDFBox는 웹 사이트 홈 페이지에 PDF/A 유효성 검사를 나열합니다. 이것은 또 다른 Java 애플리케이션입니다. 8-).
홈페이지에서 발췌
PDF/A 유효성
검사 PDF/A ISO 표준에 따라 PDF의 유효성을 검사합니다.
아래에명령줄 도구 섹션홈 페이지의 왼쪽에는 도구에 대한 다음 용도가 표시됩니다.
$ java -jar pdfbox-app-x.y.z.jar org.apache.pdfbox.ConvertColorspace [OPTIONS] <inputfile> <outputfile>
베라PDFPDF/A를 검증할 수 있는 또 다른 도구는 Open Conservation Foundation의 참조 도구 세트의 일부입니다. 또한 Java 애플리케이션이기도 합니다.
전환하다
변환하려면 다음 제목의 블로그 게시물에서 이 방법을 찾았습니다.기존 PDF를 PDF/A로 무료로 변환하는 방법, 다음 도구를 사용합니다.
- Ghostscript 8.64에만 해당됩니다.
- PDF 박스 0.7.3
- pdfmarks(추가 메타데이터를 제공하는 파일)
- PDFA_def.ps
- USWebCoatedSWOP.icc
위의 작업을 완료한 후 다음 명령을 사용할 수 있습니다.
$ gs -sDEVICE=pdfwrite -q -dNOPAUSE -dBATCH -dNOSAFER \
-dPDFA -dUseCIEColor -sProcessColorModel=DeviceCMYK \
-sOutputFile=Out_PDFA.pdf PDFA_def.ps pdfmarks IN_PDF.pdf
결함이 없는 것은 아닙니다. 이 문서에서는 그 중 하나에 대해 설명합니다. 하이퍼링크의 인쇄 플래그를 수정하는 것도 그 중 하나입니다. 이 문서에서는 이러한 문제를 해결하는 데 사용할 수 있는 Java 애플리케이션을 제공합니다.
$ java FixPrintFlag Out_PDFA.pdf New_verifiablePDFA.pdf
예쁘지는 않지만 작동하는 것 같습니다. 보다기사자세한 내용은.
컵을 통해 PDF/A로 저장
cups에서는 "pdf 파일로 인쇄"가 가능합니다. 사용된 명령은 에 있습니다 . 여기에서 pdf 파일을 생성하기 위해 바이너리를 호출하기 위한 매개 변수가 포함된 /etc/cups/cups.conf
변수를 찾을 수 있습니다 . 매개변수 앞에 추가하면 Linux의 모든 애플리케이션에 있는 모든 "PDF로 인쇄" 파일이 마법처럼 PDF/A로 변환됩니다!GSCall
gs
-dPDFA
-dNOPAUSE
인용하다
답변2
다음은 이 작업을 수행하는 bash 명령줄 스크립트입니다.
#!/bin/bash
pdf_input=$1
ps_output=${pdf_input%.*}.ps
pdfa_output=${pdf_input%.*}_a.pdf
pdftops ${pdf_input} ${ps_output}
gs -dPDFA -dBATCH -dNOPAUSE -dNOOUTERSAVE -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=${pdfa_output} ${ps_output}
경로에 pdf2pdfa.sh라는 파일로 저장하고 다음과 같이 호출하세요.
pdf2pdfa.sh 입력.pdf
input_a.pdf가 생성됩니다.
답변3
파일 식별을 위해 이 명령이 file
도움이 되는 경우가 많습니다. 유용한 정보를 제공하기 위해 파일에서 매직 넘버, 파일 식별자, 인코딩 정보 등을 찾습니다.
이 유틸리티는 pdfinfo
PDF 파일의 특정 경우에 특히 유용합니다. 내 경우에는 poppler
PDF 렌더링 라이브러리와 함께 패키지로 제공되는 Gentoo 배포판입니다 .
답변4
이것내 PDF를 OCR하세요도구는 PDF/A로 변환할 수 있습니다. 사실 그것도 일부인데기본 동작. 하지만 그것은 또한 허용OCR 단계 비활성화이미지 처리 기능과 PDF/A 변환 기능을 유지하면서:
ocrmypdf --tesseract-timeout=0 input.pdf output.pdf