bioinformatics

두 번째 파일의 열 이름을 사용하여 첫 번째 파일의 열 하위 집합 가져오기

두 개의 텍스트 파일이 있습니다. 첫 번째 파일은 다음과 같이 탭으로 구분된 파일입니다. chrom pos ref alt a1 a2 a3 a4 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa...

Admin 2024-11-8

bioinformatics

awk를 사용하여 새 줄을 공백으로 바꿉니다.

디렉터리의 모든 파일에서 생성된 텍스트 파일이 있습니다. 이 파일을 내가 가지고 있는 스크립트에 대한 입력으로 사용하고 싶지만 올바르게 구문 분석하려면 특정 방식으로 형식이 지정된 텍스트 파일이 필요합니다. 현재 텍스트 파일(파일 이름 목록)의 형식은 다음과 같습니다. A1_R1.fastq.gz A1_R2.fastq.gz A2_R1.fastq.gz A2_R2.fastq.gz A3_R1.fastq.gz A3_R2.fastq.gz RN각 샘플이 탭으로 구분되어 동일한 줄에 있도록 쌍으로 된 읽기(이름은...

Admin 2024-10-17

bioinformatics

sed 명령은 패턴을 따르는 줄의 단어를 바꾸는 데 사용됩니다.

저는 50,000개 이상의 유전자 ID 행과 그 서열을 포함하는 다음과 같은 파일을 작업 중입니다. gene_A:3342234 CTCTTTCTTTTACGCCT gene_A:1244-5205 CTCTTTCTTTTACGCCT gene_A:1838438 CTCTTTCTTTTACGCCT gene_B:1848584 CTCTTTCTTTTACGCCT gene_B:1029-4920 CTCTTTCTTTTACGCCT gene_C:3849029 CTCTTTCTTTTACGCCT 이들 모두에는 유전자 ID가 있고 그 뒤에...

Admin 2024-9-29

bioinformatics

텍스트 파일에서 특정 열의 문자열 값을 분할하는 방법

Linux 시스템에 두 개의 열이 있는 텍스트 파일이 있습니다. 1열 = id_no(대부분 5자리, 일부는 6자리); 열 2 = Genetic_markers(전체 길이 50674비트); 12345 0102010205 54322 2221110051 123456 1122011510 파일을 다음과 같이 변경하고 싶습니다. 12345 0 1 0 2 0 1 0 2 0 5 54322 2 2 2 1 1 1 0 0 5 1 123456 1 1 2 2 0 1 1 5 1 0 첫 번째 열을 숫자에 표시된 대로...

Admin 2024-9-20

bioinformatics

세 번째 열의 모든 항목을 삭제하고 특정 텍스트만 유지합니다.

세 개의 열이 있는 데이터세트가 있습니다. https://drive.google.com/file/d/1gtCssfAXHxRjGfX8uTAaimGPWCA2cnci/view?usp=sharing 처음 몇 줄은 다음과 같습니다. ID transcript_id go_description MA_10000213g0010 MA_10000213g0010 MA_10000405g0010 MA_10000405g0010 GO:0006468-protein phosphorylation;GO:003...

Admin 2024-8-10

bioinformatics

탭으로 구분된 파일의 첫 번째 및 다섯 번째 열을 검색하여 다섯 번째 열의 공백을 탭으로 변환합니다.

탭으로 구분된 열이 포함된 파일이 있습니다 tsv. 공백으로 구분된 값이 있는 다섯 번째 열을 가져오고 싶습니다. 구분된 공백을 탭 구분으로 변환하고 새 파일로 저장합니다. 시도: cut -d"\t" -f"4" input.tsv awk -v OFS="\t" '$1=$1' input.tsv > output.tsv 입력하다: Composite_Element_REF Gene_Symbol Chromosome Genomic_Coordinate TCGA-KL-8323-01A-...

Admin 2024-7-13

bioinformatics

서로 다른 열의 연속 셀이 동일한 경우 쉘 스크립트를 사용하여 열의 단어 수를 계산하는 방법!

2열, 3열, 1열의 연속 셀이 동일한 경우 9열의 C_R합계 수를 계산하려고 합니다. S_R파일은 침대 형식(탭으로 구분된 형식)입니다. 원본 파일은 크고 첫 번째 열은 염색체 번호를 정의합니다. 파일의 처음 몇 줄은 다음과 같습니다. chr1 10200 10300 8 10000 10214 100 214 S_R chr1 10200 10300 8 10009 10233 100 224 S_R chr1 10200 10300 8 10014 1...

Admin 2024-6-19

bioinformatics

선의 한 부분을 다른 부분에 복사

첫 번째 부분을 복사하고 싶습니다(익소스카EVm****t1_,아니요'.p[번호]') ">"로 시작하는 줄을 입력하고 같은 줄의 마지막 ":" 앞에 a를 붙여넣습니다. 입력하다: >IxoscaEVm2293881t1.p1 type:complete len:255 gc:Universal :13-219(+) MFLRQLGAPRFYYARLFLRFIAVTIGPFLKSFPEKMLFLTYFPFYFWQRFSNINKRRKLLPATFLTLG >IxoscaEVm2798449t1.p1 type:partial5...

Admin 2024-6-11

bioinformatics

grep 검색 사이의 문자 수 계산

grep 명령을 일련의 다른 명령과 함께 사용하여 일련의 문자(예: fasta 파일의 "GAATTC")를 찾고 각 일치 항목 사이에 몇 개의 문자가 있는지 계산할 수 있는 방법이 있습니까? ...

Admin 2024-6-11

bioinformatics

awk는 탭 구분 파일에 열을 추가하지 않습니다.

다음 코드를 사용하여 다른 기존 열의 계산을 기반으로 탭 구분 txt 파일에 두 개의 새 열(15 및 16)을 추가하고 있습니다. 문제: 새 열 데이터가 터미널에 표시되지만 파일이 열로 업데이트되지 않습니다. 다른 파일( )로 보내면 code ... > Sample.....2.txt열은 존재하지만 구분 기호는 탭에서 공백으로 변경됩니다. 필수: 탭으로 구분된 파일의 기존 열 계산을 기반으로 코드 한 줄에 열 15와 16을 추가합니다. 파일: Sample1_RVDB_sort_unique.txt 암...

Admin 2024-6-11

bioinformatics

AWK: 두 개의 키 열이 파일 간에 일치하는 경우 일치하지 않는 행을 유지하면서 한 파일의 열 16을 다른 파일의 일치하는 행에 추가합니다.

두 개의 탭으로 구분된 파일(FileA.tsv 및 FileB.tsv)이 있습니다. 파일A.tsv ID 제도법 원 열이 몇개야... 길이 196-0 196 0 ---- 12874 195-1 195 1 ---- 12874 56-0 56 0 ---- 3349 115-1 115 1 ---- 5297 파일 A에는 수백 개의 행과 12개의 열이 있지만 여기에 모두 설명되어 있지는 않습니다. 2와 3의 각 값은 고유하지 않지만 특정 조합은 고유합니다. 따라서 event_id는 2와...

Admin 2024-6-11

bioinformatics

"0"과 처음 두 필드를 제외한 csv 파일의 모든 텍스트를 1로 변환하는 방법은 무엇입니까?

여러 개의 큰 .csv 파일이 있는데 이 파일을 이진(1과 0) 형식으로 변환하고 싶습니다. 처음 두 필드를 제외하고 텍스트가 포함된 모든 셀은 1이 되고 0은 0으로 유지됩니다. head Test.csv Iss1,1,0,0,Hsapiens-I34,0,0,0,Mmusculus-H01,0,0 Iss1,11,0,Scerevisiae-U09,Hsapiens-I05,0,0,0,0,0,0 Iss1,21,0,0,Hsapiens-I05,0,0,0,Hsapiens-I31,0,0 Iss1,31,0,0,Mmusculu...

Admin 2024-6-11

bioinformatics

1022개의 열린 파일 병합 열린 파일이 너무 많아 오류가 발생했습니까?

저는 samtools를 사용하여 bam 파일을 좌표별로 정렬합니다. 이 명령을 실행하면 많은 수의 파일이 생성됩니다. 다음 명령을 실행했지만 samtools sort -o sorted.bam genomic_dataset.bam 다음과 같은 결과가 나타납니다. [bam_sort_core] 1022개 파일 병합 중... 열기: 파일이 너무 많이 열려 있습니다. 검색해보니 열려 있는 파일 수에 제한이 있는 것으로 나타났습니다. 출력은 ulimit -n1024입니다. 데이터 세트는 약 560GB이고 ...

Admin 2024-6-11

bioinformatics

추가 공백으로 불규칙한 제목 변경

데이터를 처리 중이에요이 모호한 파일 형식: SNP A1 A2 F1 I1 F2 I2 F3 I3 rs0001 A C 0.02 0.00 1.99 (처음 세 필드 주위의 공백에 유의하세요) 제목이 매우 길어서(500,000개 항목) 다음과 같이 변환하고 싶습니다. SNP A1 A2 F1_I1 F2_I2 F3_I3 rs0001 A C 0.02 0.00 1.99 ...불규칙한 공백을 제거하거나 제거하지 않고 사용하기가 더 쉽습니다. 참고로, 일관성이 있는 한 ...

Admin 2024-6-11

bioinformatics

출력 파일을 변경하지 않고 sed를 사용하여 텍스트 파일에서 특정 문자열을 제거하시겠습니까?

편집: 블록 인용 텍스트를 추가했습니다. acc.paired.txt조명 샘플 이름( )이 포함된 탭으로 구분된 텍스트 파일( )이 있습니다 head. SRR10598163_R1.fastq.gz SRR8916417_R2.fastq.gz SRR10598049_R1.fastq.gz SRR10598163_R2.fastq.gz SRR8916418_R1.fastq.gz SRR10598049_R2.fastq.gz SRR10598164_R1.fastq.gz SRR8916418_R2.fastq.gz SRR1...

Admin 2024-6-11