Olá pessoa, sou iniciante e para praticar programação estou tentando fazer um código para reconhecimento de fala utilizando Speech Recognition e Whisper, mas não da certo de jeito nenhum. A maioria do conteúdo sobre whisper que eu achei na internet o arquivo de audio que vai ser transcrito para texto é enviado manualmente, mas quero fazer a captura do audio no próprio sistema usando o Speech Recognition e depois transcrever utilizando whisper, como posso fazer essas duas bibliotecas trabalharem em conjunto?
Segue o meu código atual (como eu disse, sou iniciante):
import whisper
import speech_recognition as sr
model = whisper.load_model('small')
r = sr.Recognizer()
with sr.Microphone() as mic:
while True:
print('Diga algo: ')
audio = r.listen(mic)
with open ('temp.wav', 'wb') as f:
f.write(audio.get_wav_data())
result = model.transcribe('temp.wav')
print('Você: ', result['text'])
A primeira parte que seria a captação do audio do microfone acontece e é criado um arquivo de áudio, porém, depois o programa não consegue achar o arquivo para transcreve-lo para texto. "FileNotFoundError: [WinError 2] O sistema não pode encontrar o arquivo especificado"