Não seria legal se você pudesse criar um aplicativo que permite conversar com o Google Gemini por telefone?
O Twilio te dá um superpoder chamado Media Streams. Media Streams fornece uma conexão Websocket para ambos os lados de uma chamada telefônica. Você pode receber áudio transmitido, processá-lo e enviar áudio de volta.
Este aplicativo serve como uma demonstração explorando dois serviços:
- Google Cloud Text-to-Speech para Texto para Fala
- Google Cloud Speech-to-Text para Fala para Texto
- Google Gemini para gerar respostas usando a API do Google Gemini
Esses serviços se combinam para criar um aplicativo de voz que é notavelmente melhor em transcrever, entender e falar do que os sistemas IVR tradicionais.
Recursos:
- 🏁 Retorna respostas com baixa latência, normalmente 1 segundo, usando streaming.
- ❗️ Permite que o usuário interrompa o assistente do Google Gemini e faça uma pergunta diferente.
- 📔 Mantém um histórico do bate-papo com o Google Gemini.
Wouldn't it be cool if you could build an app that lets you talk to Google Gemini on the phone?
Twilio gives you a superpower called Media Streams. Media Streams provides a Websocket connection to both sides of a phone call. You can receive streamed audio, process it, and send audio back.
This app serves as a demonstration exploring two services:
- Google Cloud Text-to-Speech for Text to Speech
- Google Cloud Speech-to-Text for Speech to Text
- Google Gemini for generating responses using the Google Gemini API
These services combine to create a voice application that is remarkably better at transcribing, understanding, and speaking than traditional IVR systems.
Features:
- 🏁 Returns answers with low latency, typically 1 second, using streaming.
- ❗️ Allows the user to interrupt the Google Gemini assistant and ask a different question.
- 📔 Keeps a history of the chat with Google Gemini.