.tsv 형식(파일 이름 = corr_trans.tsv)의 인간 전사 데이터에 대한 대규모 정사각형 상관 행렬 파일(110,000 RXC)이 있습니다. 매트릭스에서 성적표(예: ENST00000568709)에 대한 관련 데이터를 추출하려고 하면 아무런 결과도 얻지 못합니다. 이 성적표가 포함된 헤더는 표시되지만 관련 데이터가 포함된 기본 행은 표시되지 않습니다. 일부 다른 성적표에 대해 동일한 단계를 시도했을 때 처음 22000줄에 있는 성적표에 대한 결과가 나왔습니다. 그 이후에는 파일을 읽을 수 없습니다. 내 과거 지식/경험에 따르면 이는 개행 오류 때문이며 tsv 파일에서 개행 오류를 제거하는 방법을 알고 싶습니다.
출력 파일이 필요하지 않습니다. 전체 매트릭스 파일을 읽고 싶습니다.
감사해요
샘플 데이터(파일 이름 = corr_trans.tsv)
transcript_id ENST0000000233 ENST0000000412 ENST00000001008 ENST00000001146
ENST0000000233 1 0.128095164 0.122437557 0.032729413
ENST0000000412 0.128095164 1 -0.010030176 0.07378663
ENST00000001008 0.122437557 -0.010030176 1 0.011332091
ENST00000001146 0.032729413 0.07378663 0.011332091 1
ENST0000000412 명령을 사용하여 데이터를 수집하려고 하면
grep "ENST0000000233" corr_trans.tsv
출력을 얻습니다 (2 줄)
transcript_id ENST0000000233 ENST0000000412 ENST0000001008 ENST00000001146
ENST0000000233 1 0.128095164 0.122437557 0.032729413
하지만 ENST00000001146에 이것을 시도하면
관련 데이터가 있는 행 대신 하나의 행만 출력으로 얻습니다.
transcript_id ENST0000000233 ENST0000000412 ENST0000001008 ENST00000001146
실제 행렬에서는 이 오류가 행 22000 이후에 발생합니다.