약 2천만 개의 문장이 포함된 파일이 있습니다. 이 파일에서 2백만 개의 문장을 어떻게 추출할 수 있습니까? "split -l 2000000 sub2016"과 같은 분할 명령을 사용하는 것을 고려했지만 이렇게 하면 일련의 텍스트가 생성되므로 하나만 필요합니다. 그러면 이것을 어떻게 지정해야 할까요? 감사합니다!
답변1
처음 200만 행을 원하는 경우:
head -n 2000000 sub2016
파일에서 200만 줄의 무작위 청크를 얻으려면 다음을 수행하십시오.
tail -n +$((RANDOM * RANDOM % 18000000)) sub2016 | head -n 2000000
이렇게 하면 0에서 32767 사이의 난수 2개를 선택하여 곱하고 범위를 1,800만(2,000만 - 200만)으로 좁히고 해당 행을 건너뛰고 200만 행을 출력합니다.