항상 백업 파일과 함께 제공되는 텍스트 파일이 많이 있습니다.
파일.TXT
파일.BAK
파일 *.TXT
에는 다음 헤더가 포함되어 있습니다.
.V3 PL=62 MB=1 MT=1 DR=TMTYM FL=0 FT=0 #
I get 을 사용하여 ä
ö
ü
명령줄에 인쇄할 때 독일어와 같은 특수 문자는 인식되지 않습니다.cat
��
파일에는 다음 형식의 각주가 포함되어 있습니다.
.FN 4
&&FN&
이 파일을 만드는 데 어떤 프로그램이 사용되는지 아는 사람이 있습니까? (MS-DOS 시대의 추측)그리고 읽을 수 있는 형식인 text/markdown/tex/LibreOffice로 변환하는 도구는 무엇입니까?
file -i file.TXT
인쇄:OTT3.TXT: application/octet-stream; charset=binary
od -tc < OTT3.TXT | head
인쇄:
0000000 . V 3 P L = 6 2 M B
0000020 = 1 M T = 1
0000040 D R = T M T Y M
0000060 F L = 7 0 F T = 0
0000100 # \r \n . F [ \r \n 377 \r \n .
0000120 F N 1 \r \n # A L N \r \n # A U
0000140 B \r \n 006 001 R F \a 0 9 \r \n \b & &
0000160 F N & \b D a s d e r H a u p
0000200 t m a n n d e n S c h a u p
0000220 l a t z d e r H a n d l u n
chardetect file.TXT
인쇄:
OTT3.TXT: Windows-1254 with confidence 0.6400783871057183
변환에 사용 하려고 하면 다음과 같은 결과를 pandoc
얻습니다.
UTF-8 decoding error in OTT3.TXT at byte offset 76 (ff).
The input must be a UTF-8 encoded text.
답변1
귀하가 제공한 파일은 아마도 DOS v3용 WordStar를 사용하여 생성되었을 것입니다.
파일이 .V3으로 시작합니다.
헤더 행은 아마도 (해독할 수 있는 항목만)을 의미할 것입니다.
- PL=65: 페이지 길이는 65줄입니다.
- MB=1: 아래쪽 여백은 1줄입니다.
- MT=1: 위쪽 여백은 1줄입니다.
DOS 줄 바꿈을 단락 구분 기호로 사용
CP850(DOS)으로 인코딩된 독일어 발음 구별 부호
일반적인 줄바꿈에는 8d0a 조합을 사용하세요.
활성 하이픈에는 1f를 사용하세요.
기본 파일 확장자가 없으므로 사용자가 직접 선택합니다(".txt"가 자주 사용됨).
백업 사본은 기본적으로 ".bak" 확장자로 저장됩니다.
1a를 사용하여 파일 끝을 표시합니다.
좀 남았어사용된 기타 제어 문자그러나 여기에 나열되지 않은 내용은 모두 합리적입니다.
링크한 파일에 대해 다음을 시도해 볼 수 있습니다.
cat OTTONEN.TXT | tr -d '\001\006\007\032\215' | tr '\037' '-' | dos2unix | iconv -f cp850 | sed -e '/^\(.V3\|#A[LU]\|.LS\|RD[0-9]\)/d' > OTTONEN2.txt
그런 다음 생성된 파일을 텍스트로 인쇄합니다(미리 포맷된 줄 바꿈 및 하이픈 포함).