Escolher o modo certo pode melhorar o tempo de resposta, a naturalidade e a experiência geral da chamada.
1. Pipeline
| Rótulo na interface | Pipeline | |
| Como funciona | Speech-to-Text → LLM → Text-to-Speech | |
| Latência | ~800 – 1500 ms (depende do idoma e modelo) | |
| Mais Indicado para | Raciocínio complexo, prompts dinâmicos, respostas com múltiplas frases |
- Suporta todas as vozes da biblioteca (incluindo vozes clonadas personalizadas).
- Lida bem com respostas longas ou em formato de parágrafo.
- Permite que o LLM insira variáveis e faça referência ao contexto anterior de forma clara.
- Você precisa de respostas ricas e com múltiplas frases (ex.: consultas de suporte, explicações detalhadas).
- O assistente precisa raciocinar sobre dados estruturados ou prompts complexos.
- Você prefere controle absoluto sobre a voz falada (clonada ou da marca).
2. Speech-to-Speech (Multimodal)
| Rótulo na interface | Speech-to-speech |
| Como funciona | Geração direta de fala para fala (sem texto intermediário) |
| Latência | ~300 – 600 ms (ultra baixa) |
| Mais Indicado para | Conversas naturais, respostas curtas e reativas |
- Troca de turnos rápida – os clientes recebem respostas quase instantâneas.
- Gera prosódia mais expressiva de forma nativa (entonação, pausas, fillers).
- Atualmente suporta um conjunto limitado de vozes, mas mais estão sendo adicionadas regularmente.
- A conversa precisa ser ágil (vendas, confirmações de reserva).
- Suas respostas são geralmente frases curtas ou confirmações rápidas.
- Você aceita as opções de voz fornecidas pelo sistema para interação mais rápida.
O modo Speech-to-Speech está evoluindo rapidamente. Se você precisar de uma voz clonada personalizada com baixa latência, experimente o Dualplex.
3. Dualplex (Beta)
| Rótulo na interface | Dualplex |
| Como funciona | Multimodal STT + LLM (speech-to-speech) com saida ElevenLabs TTS |
| Latência | Baixa (varia conforme voz e modelo) |
| Mais Indicado para | Respostas rápidas e naturais com vozes de alta qualidade/marca (clonadas) |
- Troca de turnos quase instantânea, semelhante ao Speech-to-Speech.
- Acesso à biblioteca de vozes ElevenLabs, incluindo vozes clonadas personalizadas.
- Excelente para respostas curtas a médias com prosódia expressiva.
- Recomendado como padrão para a maioria dos casos de uso atualmente; atualmente em Beta.
- Você quer respostas rápidas e naturais, mas precisa de uma voz de marca ou clonada.
- Você deseja uma entrega mais expressiva sem abrir mão da escolha precisa da voz.
- Você está confortável usando um recurso novo que ainda está em Beta.
Você pode selecionar o modo para cada assistente em Assistente → Configurações → Motor de Voz. Teste os três modos para ver qual oferece o melhor equilíbrio entre velocidade e qualidade para seu caso de uso. O Dualplex atualmente está rotulado como Beta.
Dica profissional: Grave duas chamadas – uma em cada modo – e compare a latência percebida pelo cliente e o nível de engajamento para decidir qual se adapta melhor ao seu fluxo.

