단어 주파수 gawk 메모리 누수

Question

따라서 도움이 되는 몇 가지 사항이 있지만 이 작업을 수행하는 데 가장 중요한 것은 sort | uniq -cgawk 대신그레고리 니스벳(Gregory Nisbet)에 따르면.

나도 결국 사용하게 됐어@dave_thompson_085의 댓글에 대한 tr -sc '[:alpha:]' '\n'. 이 플래그는 반복을 결합합니다. 즉, 빈 줄을 제거하고 찾고 있는 문자 집합을 반대로 바꿀 -s필요가 없습니다 . -c의 부작용은 -c세트가 아닌 하나의 대체 문자만 사용할 수 있다는 것입니다. 데이브에게도 감사드립니다grep 및 정확한 라인 매칭에 대한 질문( -x). 내가 이 댓글에 투표할 평판이 있었다면 그렇게 했을 것입니다.

결국 XML 엔터티( ")를 제거하고 html(중복 <ref />)을 제거하기 위해 몇 가지 추가 코드를 사용해야 했습니다. 에서 getArticleText새로운 sed 명령은 입니다 | sed -e 's/"/"/g' -e 's/</</g' -e 's/>/>/g' -e 's/&/&/g' -e 's/<.*>//g'. 각 표현식( -elink 명령)은 서로 다른 HTML 엔터티를 처리합니다. 나는 좀 더 완전한 옵션을 시도했습니다(예: Perl 사용).스택 오버플로), 하지만 내 경우에는 컴퓨터 관련 문제로 인해 작동하지 않습니다. 최종 스크립트는 다음에서 찾을 수 있습니다.나의 단어 라이브러리.

내 컴퓨터에서 스크립트를 완료하는 데 3시간 20분이 걸렸지만 이 드라이브도 몇 년 전의 6코어 AMD 드라이브였습니다. 귀하의 마일리지는 다를 수 있지만 이것으로 충분했습니다.

@Gregory Nisbet 또는 @dave_thompson_085가 자신의 답변을 게시하려는 경우 게시할 수 있도록 이 답변을 수락하지 않겠습니다.

Answer 1

따라서 도움이 되는 몇 가지 사항이 있지만 이 작업을 수행하는 데 가장 중요한 것은 sort | uniq -cgawk 대신그레고리 니스벳(Gregory Nisbet)에 따르면.

나도 결국 사용하게 됐어@dave_thompson_085의 댓글에 대한 tr -sc '[:alpha:]' '\n'. 이 플래그는 반복을 결합합니다. 즉, 빈 줄을 제거하고 찾고 있는 문자 집합을 반대로 바꿀 -s필요가 없습니다 . -c의 부작용은 -c세트가 아닌 하나의 대체 문자만 사용할 수 있다는 것입니다. 데이브에게도 감사드립니다grep 및 정확한 라인 매칭에 대한 질문( -x). 내가 이 댓글에 투표할 평판이 있었다면 그렇게 했을 것입니다.

결국 XML 엔터티( ")를 제거하고 html(중복 <ref />)을 제거하기 위해 몇 가지 추가 코드를 사용해야 했습니다. 에서 getArticleText새로운 sed 명령은 입니다 | sed -e 's/"/"/g' -e 's/</</g' -e 's/>/>/g' -e 's/&/&/g' -e 's/<.*>//g'. 각 표현식( -elink 명령)은 서로 다른 HTML 엔터티를 처리합니다. 나는 좀 더 완전한 옵션을 시도했습니다(예: Perl 사용).스택 오버플로), 하지만 내 경우에는 컴퓨터 관련 문제로 인해 작동하지 않습니다. 최종 스크립트는 다음에서 찾을 수 있습니다.나의 단어 라이브러리.

내 컴퓨터에서 스크립트를 완료하는 데 3시간 20분이 걸렸지만 이 드라이브도 몇 년 전의 6코어 AMD 드라이브였습니다. 귀하의 마일리지는 다를 수 있지만 이것으로 충분했습니다.

@Gregory Nisbet 또는 @dave_thompson_085가 자신의 답변을 게시하려는 경우 게시할 수 있도록 이 답변을 수락하지 않겠습니다.

단어 주파수 gawk 메모리 누수

답변1

관련 정보