Linux의 음성 받아쓰기에 대해 어떤 제안이 있습니까? [폐쇄]

Linux의 음성 받아쓰기에 대해 어떤 제안이 있습니까? [폐쇄]

좋습니다. 저는 웹 기반 애플리케이션이 아닌 Linux에서 기본적으로 실행할 수 있는 간단한 실시간 받아쓰기 도구를 찾고 있습니다.

맥락을 알아보기 위해 구글에서 둘러보고, 다른 SE 게시물도 살펴보고, 같은 내용을 좀 더 모호하게 질문하고, ChatGPT에 대해 물어보고, GitHub에서 검색하는 등의 작업을 했습니다.

그중에서도 vosk, sphinx, transcriber 및 기타 도구를 포함하여 다양한 도구가 위에서 권장됩니다. 그들 중 누구도 나에게 큰 성공을 거두지 못했습니다.

클라우드 기반 MS Word 버전에서 받아쓰기를 사용해 보았습니다. 성공했지만 클라우드 기반이 아닌 도구를 선호합니다.

제가 이것을 구현하고 싶은 배포판은 Debian입니다.

시도해 볼 수 있는 대체 도구/패키지에 대한 제안이 있는 사람이 있나요?

업데이트: 이 답변이 가장 도움이 되었습니다. https://unix.stackexchange.com/a/772356/537545

Marcus Müller가 제공한 지도 덕분에 SpeechNote를 설정하고 작업할 수 있게 되었습니다. 정말 감사드립니다.

SpeechNote에서 사용할 수 있는 수많은 영어 모델을 테스트할 예정이며 어느 시점에 추가 업데이트를 추가하여 속도, 정확성 및 자동 가비지 삽입 부족 측면에서 어떤 모델이 가장 좋은지 결정할 예정입니다("이 소프트웨어를 사용해 주셔서 감사합니다.” 삽입 유형)

그동안 사람들이 다른 소프트웨어 제안 사항이 있으면 언제든지 추가로 기여해 주시기 바랍니다.

다들 감사 해요:)

답변1

당신은 시도하고 싶을 수도 있습니다강의 노트;뭔가를 조립하면서 메모할 때 가끔 사용하기 때문에 자유로운 손이 제한됩니다.

나는 매우 뚜렷한 독일 억양을 가지고 있지만 그것은 내가 말하는 대부분의 영어에 충분히 효과적입니다. "내 워드 프로세서에 직접 입력"하는 것과 같은 작업은 수행하지 않지만 귀하의 질문에 관한 한 그것이 엄격한 요구 사항은 아니라고 생각합니까?

Speech Note는 여러 음성 모델 신경망의 프런트엔드입니다. 최신의 것도 아니고 최고도 아니지만, 솔직히 말해서 Whisper는 영어에 꽤 좋습니다. 의견에서 언급했듯이 대부분의 음성 인식 작업은 Linux를 실행하는 데스크톱에서 수행됩니다.

나는 가지고있다Flathub에서 설치됨;노트북에는 CPU보다 더 빠르게 추론을 수행할 수 있고 전력 소비가 더 낮은 GPU가 없기 때문에 가속기 플러그인을 설치할 필요가 없습니다. 따라서 데비안에서 실행하려면 flatpak을 설정하고 Speech Note 프로그램을 설치한 다음 프로그램을 실행하고 적절한 영어 모델을 선택해야 합니다.

나는 이것을 데비안에서 테스트하지 않았지만 flatpack 문서에서 이것은 작동할 것입니다:

# Check whether flatpak is installed, and install it if not
flatpak --help > /dev/null || sudo apt install flatpak -y
# end of debian-specific instructions.

# Set up the flatpak software repo
flatpak remote-add --if-not-exists flathub https://dl.flathub.org/repo/flathub.flatpakrepo

# Install Speech Note in container environment
flatpak install net.mkiol.SpeechNote

데비안이 SpeechNote용 메뉴 항목을 갖는 데 이것이 충분한지 모르겠습니다. 어쨌든 직접 시작할 수 있습니다.

flatpak run net.mkiol.SpeechNote

이제 언어 버튼을 클릭하고 영어를 선택하세요. Speech to Text에서 "English (FasterWhisper Small)/en"을 선택하고 다운로드 버튼을 클릭하세요. 다운로드가 완료될 때까지 기다리십시오. 대화 상자를 닫고 왼쪽 상단에 있는 햄버거 메뉴 아이콘으로 이동한 후 햄버거 메뉴 아이콘설정으로 이동하고 음성 텍스트 변환으로 이동하여 올바른 오디오 소스를 선택하세요. 대화 상자를 닫습니다.

준비되었습니다. "듣기" 버튼을 클릭하고 자비로운 독재자가 되어 보세요!

편집하다:실제 적용은 다음과 같습니다.(영상의 음소거를 꼭 해제해주세요)

동영상

관련 정보