이 코드를 실행하여 vcf 파일에서 이중대립형 변형을 필터링합니다.
bcftools view --max-alleles 2 --exclude-types indels merged.ecDNA.vcf.gz>merged.ecDNA2.vcf.gz
그러나 오류 메시지가 나타납니다.
[E::vcf_parse_format] Number of columns at 1:219048632 does not match the number of samples (111 vs 231)
Error: VCF parse error
문제는 merged.ecDNA2.vcf.gz
그것이 여전히 내 디렉토리에 나타나고 사용 가능한 vcf 파일인 것 같다는 것입니다. 따라서 내 코드가 실제로 정상적으로 작동하는 것처럼 보이는 vcf 파일을 생성하는 경우 위의 오류가 여전히 내 출력 파일에 영향을 미칠지 궁금합니다.
이 숫자는 무엇을 1:219048632
참조해야 합니까?
나는 또한 이 코드를 시도했습니다:
bcftools view -m2 -M2 -v snps merged.ecDNA.vcf.gz>merged.ecDNA3.vcf.gz
위 코드에 대해 동일한 오류 메시지가 나타납니다.
누군가가 이 오류 메시지의 의미에 대해 일반적인 설명을 제공할 수 있다면 매우 도움이 될 것입니다.
답변1
여러 가지 이유로 동일한 오류가 발생했지만 일반적인 이유는 VCF 파일을 생성하는 동안 파일이 손상되었기 때문입니다. 예를 들어 .txt 파일에서 시작하는 경우 일부 행에 다른 행보다 더 많은 열이 있을 수 있습니다.
예를 들어, 한 번은 줄 끝으로 예상되는 지점 이후에 새 줄을 시작하지 않는 파일을 받았습니다. 이로 인해 열 수가 두 배로 늘어났고 비슷한 오류가 발생했습니다.
이 경우 내가 할 일은 특정 위치를 확인하는 것입니다.
bcftools view -H merged.ecDNA2.vcf.gz | grep 219048632 -A 3 -B 3
219048632를 검색하면 손상된 줄을 찾을 수 있으며 앞뒤에 3줄이 인쇄되므로 실제 문제가 무엇인지 확인할 수 있습니다.