현재 Pi에서 지속적인 음성 인식을 구현하려고 합니다. 두 개의 스레드를 실행하여 이 작업을 수행합니다. 그 중 하나는 arecord
X초 동안 계속해서 (bash 스크립트로) 기록하고 해당 정보를 WAV에 저장한 다음 매번 다시 시작합니다. 이 WAV가 작성되면 다른 스레드가 WAV 파일에 대한 인식을 수행합니다.
이것은 잘 작동하지만 사용자의 문장이 실수로 끊어졌다가 다음 녹음 루프에서 다시 시작되면 문장이 두 인식 결과 사이에서 조각화됩니다.
내 질문은: 사운드 레벨이 특정 임계값 아래로 떨어질 때까지 녹음이 이루어지도록 하여 전체 문장이 녹음에 캡처되도록 할 수 있는 방법이 있습니까 arecord
? 그런 다음 사용자가 몇 초 동안 말을 멈추면 녹화가 중단되나요?
(그런데 저는 이 모든 작업을 수행하기 위해 Python을 사용하고 있습니다)
또한, 이 문제를 해결하는 더 좋은 방법이 있다면 제안을 환영합니다. 저는 Pi를 처음 접한 사람이라 Pi가 할 수 있는 모든 멋진 일에 너무 익숙하지 않습니다.