Guia de Início Rápido
Pronto para configurar seu primeiro assistente de IA?Aqui está o fluxo essencial:
- Escolha a Direção da Chamada:
Recebida (Inbound) para atender chamadas ou Efetuada (Outbound) para realizar chamadas - Defina o Nome do Assistente:
Um rótulo interno como “Bot de Suporte” ou “Bot de Vendas” - Configure os Números de Telefone:
Atribua números da plataforma, SIP ou Caller ID - Selecione a Voz e o Idioma:
Escolha entre vozes integradas ou clone vozes personalizadas - Ajuste as Configurações Avançadas:
Faça o ajuste fino de modelos, tempos de resposta e parâmetros de áudio
Siga esta página seção por seção para configurar seu assistente.
Cada configuração inclui explicações detalhadas e boas práticas para ajudá-lo a fazer as escolhas corretas.
Cada configuração inclui explicações detalhadas e boas práticas para ajudá-lo a fazer as escolhas corretas.
Tipo de Assistente
Escolha se o seu assistente irá lidar com chamadas recebidas (inbound) ou chamadas efetuadas (outbound).Essa escolha fundamental afeta quais outras opções estarão disponíveis.
- Inbound (Receber chamadas): Lida com chamadas de clientes que entram. Consulte Visão geral de chamadas recebidas.
- Outbound (Efetuar chamadas): Inicia chamadas para leads ou clientes. Consulte Visão geral de chamadas efetuadas.
Nome do Assistente
Um nome descritivo para identificar seu assistente no painel.Use algo memorável que descreva o propósito do assistente (ex: “Qualificador de Vendas”, “Bot de Suporte”, “Agendador de Consultas”).
Configuração de Número de Telefone
Seu assistente precisa de um número de telefone para operar.As opções disponíveis dependem da direção da chamada escolhida.
Para Assistentes Outbound
Você pode usar:- Números da plataforma: Números alugados diretamente da plataforma
- Números SIP: Conecte seu sistema VOIP/PBX existente
- Somente Caller ID: Verifique a propriedade de um número existente para exibi-lo em chamadas efetuadas
Para Assistentes Inbound
Você pode usar:- Números da plataforma: Números alugados diretamente da plataforma
- Números SIP: Conecte seu sistema VOIP/PBX existente
Observação: Números Caller ID only não podem receber chamadas — eles apenas exibem o identificador em chamadas outbound.
Preços e Custos
- Números da plataforma: Taxa mensal a partir de US$ 3,99/mês. Veja aluguel de número dedicado para preços detalhados.
- Integração SIP: Sem taxa mensal, apenas US$ 0,00045/minuto para ponte de IA. Consulte preços de integração SIP.
- Caller ID: Sem taxa mensal, tarifas por minuto baseadas na região (ex: US$ 0,01/min nos EUA). Veja preços Caller ID.
Tipo de Motor (Modo de Processamento de Voz)
Escolha como sua IA processará a fala e gerará respostas.Cada modo é otimizado para diferentes casos de uso. Consulte Modos de Assistente para comparações detalhadas.
Pipeline Mode
Fluxo tradicional Speech-to-Text → LLM → Text-to-Speech.Oferece máximo controle sobre a seleção de voz e geração de respostas.
Melhor para: raciocínios complexos, chamadas de função e requisitos de voz personalizados.
Speech-to-Speech Mode
Geração direta de fala para fala, sem processamento intermediário de texto.Oferece um fluxo de conversa mais natural.
Melhor para: conversas rápidas e diálogo fluido.
Dualplex Mode (Beta)
Combina processamento multimodal rápido com saída de voz premium da ElevenLabs.Melhor para: a maioria dos casos de uso – configuração padrão recomendada.
Configuração de Idioma
Idioma Principal
O idioma principal que seu assistente usará para reconhecimento e síntese de fala. Isso afeta:- Precisão do reconhecimento de fala
- Opções de voz disponíveis
- Frases de preenchimento (filler audio)
- Seleção do modelo de voz
Idiomas Secundários
Idiomas adicionais que seu assistente pode compreender e falar. Útil para:- Suporte ao cliente multilíngue
- Empresas internacionais
- Conversas com alternância de idiomas (code-switching)
Observação: A IA pode detectar automaticamente o idioma do cliente e responder de forma apropriada.
Seleção de Voz da IA
Seu assistente pode escolher entre vozes existentes, clonar vozes personalizadas ou solicitar vozes da biblioteca ElevenLabs.Opções de Voz
Você tem três maneiras de obter a voz ideal para o seu assistente:-
Escolher entre vozes existentes:
- Vozes profissionais: opções pré-treinadas e de alta qualidade da ElevenLabs
- Múltiplos sotaques: disponíveis para a maioria dos idiomas
- Opções de gênero: vozes masculinas e femininas
- Variedade de tons: de formal e corporativo até casual e conversacional
-
Clonar uma voz personalizada:
Crie uma voz exclusiva enviando amostras de áudio. Requisitos:- Áudio claro e de alta qualidade (1 a 5 minutos recomendados)
- Formato MP3 ou WAV
- Ritmo e tom consistentes
- Mínimo de ruído de fundo
- Mesma voz usada em toda a gravação
- Grave você mesmo ou contrate um dublador lendo um texto de amostra
- Envie o arquivo de áudio nas configurações do assistente
- Aguarde o treinamento ser concluído (de minutos a algumas horas)
- Teste a voz clonada antes de usá-la em produção
- Consistência de marca com o porta-voz da empresa
- Toque pessoal nas interações com clientes
- Voz alinhada à persona do negócio
-
Solicitar da biblioteca ElevenLabs:
Você pode solicitar vozes específicas da biblioteca pública da ElevenLabs.
Entre em contato com o suporte para adicioná-las à sua conta.
Explore a Biblioteca de Vozes ElevenLabs para descobrir milhares de vozes profissionais em diversos idiomas, sotaques e estilos.
Configuração de Fuso Horário
Fuso Horário
Defina o fuso horário em que seu assistente irá operar. Isso afeta:- Variáveis baseadas em tempo durante conversas
- Funções de agendamento de compromissos
- Referências de “hora atual” nos prompts do sistema
- Carimbos de tempo em registros de chamadas e extração de dados
Importante: Escolha o fuso horário onde sua empresa opera ou onde está a maioria dos clientes.
O assistente usará essa configuração para cálculos e agendamentos relacionados a horário.
Configurações de Aprimoramento de Áudio
Som Ambiente
Som de fundo opcional misturado à voz do assistente, para mascarar eventuais atrasos de processamento e criar uma experiência de áudio mais natural. Opções:- Nenhum: sem som de fundo (padrão)
- Escritório: sons sutis de ambiente de escritório
Ajuste o nível do som ambiente em relação à voz.
Valores mais baixos costumam ser melhores — som excessivo pode interferir no reconhecimento de fala.
Áudio de Preenchimento (Filler Audio)
Frases curtas de conversação como “mhm”, “okay”, “entendi” que são reproduzidas durante o tempo de processamento da IA.Consulte o Guia de Áudio de Preenchimento para mais detalhes.
Benefits
- Elimina silêncios constrangedores durante o processamento
- Mantém os chamadores engajados
- Cria um fluxo de conversa mais natural
- Reduz a taxa de desligamento
As frases de preenchimento são configuradas automaticamente para o idioma selecionado.
Respostas Positivas
Respostas Positivas
“Ótimo!”, “Perfeito!”, “Excelente!”
Respostas Negativas
Respostas Negativas
“Hmm.”, “Entendi.”, “Ok.”
Respostas a Perguntas
Respostas a Perguntas
“Certo?”, “Sério?”, “Como assim?”
Respostas Neutras
Respostas Neutras
“Ok.”, “Entendi.”, “Compreendi.”
Ativar por padrão – a maioria das conversas se beneficia do uso de fillers.
Teste com seu público-alvo e ajuste as frases para combinar com a personalidade do assistente.
Teste com seu público-alvo e ajuste as frases para combinar com a personalidade do assistente.
Configurações Avançadas
Seleção do Modelo LLM
Escolha o melhor modelo de linguagem para o modo do seu assistente.Consulte o Guia de Seleção de Modelos LLM para recomendações detalhadas. Modelos recomendados por modo:
| Modelo | Pontos Fortes | Melhor Para |
|---|---|---|
| GPT-5 Mini | Raciocínio equilibrado com baixa latência | Pipeline Mode para raciocínio complexo |
| GPT-5 Realtime | Respostas de voz com ultra baixa latência | Speech-to-Speech e Dualplex |
| GPT-4o | Raciocínio avançado e compreensão multimodal | Tarefas complexas (latência maior) |
| Gemini Flash 2.0/2.5 | Ultra-rápido para respostas de voz | Dualplex/Multimodal para latência mínima |
- Velocidade é crítica: Use GPT-5 Realtime ou Gemini Flash 2.0/2.5
- Raciocínio complexo necessário: Use GPT-4o ou GPT-5 Mini com filler audios para compensar a latência
Temperatura do LLM
- Intervalo: 0.0 - 1.0 | Padrão: 0.1
- Ajusta o nível de criatividade da IA ao gerar respostas.
- Valores mais baixos produzem melhores resultados em chamadas de função.
Mais Baixo (0.0-0.3)
Mais estável: Respostas previsíveis, ideal para chamadas de função e casos de uso empresarial.
Mais Alto (0.7-1.0)
Mais aleatório: Respostas criativas e variadas, ideal para conversas informais.
Dito pelo ChatGPT:Comportamento especial: Para os modelos GPT-5 Mini e GPT-5 Nano no Pipeline Mode, a temperatura é ajustada automaticamente para 1.0 para desempenho otimizado.
Configurações de Duração
Controle o tempo e os limites de chamadas para otimizar a experiência do usuário e os custos:Intervalo de Reengajamento
Intervalo de Reengajamento
Intervalo: 7 - 600 segundos | Padrão: 30 segundosA IA tentará reengajar o usuário se nenhuma resposta for detectada dentro desse período.Recomendação: 30-60 segundos para chamadas profissionais.
Duração Maxima de Chamada
Duração Maxima de Chamada
Intervalo: 20 - 1200 segundos | Padrão: 600 segundos (10 minutos)A chamada será encerrada automaticamente se esse valor for atingido.Recomendação: 5-10 minutos para qualificação de leads, a fim de controlar custos.
Duração Maxima de Silêncio
Duração Maxima de Silêncio
Intervalo: 1 - 120 segundos | Padrão: 40 segundosA chamada será encerrada se o usuário não responder dentro desse período.Recomendação: 30-45 segundos para equilibrar paciência e eficiência.
Tempo de Toque
Tempo de Toque
Intervalo: 1 - 60 segundos | Padrão: 30 segundosDetermina por quanto tempo a chamada tocará antes de ser marcada como não atendida.
Útil para evitar caixa postal, definindo um valor menor.
Útil para evitar caixa postal, definindo um valor menor.
Configurações de Proteção de Chamadas
Cancelamento de Ruído
Cancelamento de Ruído
Padrão: AtivadoFiltra ruído de fundo do chamador para um reconhecimento de fala mais claro.
Desative se houver recorte de áudio (clipping).
Desative se houver recorte de áudio (clipping).
Encerrar Chamada na Caixa Postal
Encerrar Chamada na Caixa Postal
Padrão: AtivadoEncerra a chamada imediatamente se for detectada caixa postal em chamadas outbound (economiza custos).
Gravação da Chamada
Gravação da Chamada
Padrão: AtivadoGrava o áudio da chamada para revisão e análise.
Garanta conformidade com as leis locais de gravação.
Garanta conformidade com as leis locais de gravação.
Silêncio Inicial Máximo
Silêncio Inicial Máximo
Intervalo: 1 - 120 segundos | Padrão: 20 segundos (quando ativado)Se ativado, encerra a chamada se não houver resposta do usuário dentro desse período.
Conta apenas do início da chamada até a primeira resposta do usuário.Caso de uso: Detectar se alguém realmente atendeu o telefone.
Conta apenas do início da chamada até a primeira resposta do usuário.Caso de uso: Detectar se alguém realmente atendeu o telefone.
Configurações do Sintetizador
Configure os parâmetros de voz text-to-speech para conversas com som mais natural. Disponível para: apenas modos Pipeline e Dualplex.O modo Speech-to-Speech utiliza geração de voz nativa.
Parâmetros de Ajuste de Voz
Ajuste finamente as características da voz do assistente para desempenho ideal:Estabilidade da Voz
Estabilidade da Voz
Intervalo: 0.0 - 1.0 | Padrão: 0.7Valores mais baixos tornam a voz mais expressiva, mas menos previsível, enquanto valores mais altos tornam a voz mais estável, porém menos emocional.
Mais Expressivo (0.0-0.3)
Entrega dinâmica e variada, porém menos previsível
Menos Estável (0.7-1.0)
Consistente e estável, porém com menor variação emocional
Voice Similarity
Voice Similarity
Intervalo: 0.0 - 1.0 | Padrão: 0.5Determina o quão fiel a IA será à voz original.
Valores mais altos podem incluir ruídos indesejados da gravação original.
Valores mais altos podem incluir ruídos indesejados da gravação original.
Mais Estável (0.0-0.4)
Áudio mais limpo, porém menos fiel à voz original
Mais Similar (0.6-1.0)
Fiel à voz original, mas pode incluir ruído de fundo
Velocidade da Fala
Velocidade da Fala
Range: 0.7 - 1.2 | Default: 1.0Adjust the speed of the AI’s speech for optimal comprehension and user experience.
Mais Lento (0.7-0.85)
Melhor para informações complexas ou para públicos mais velhos
Normal (0.9-1.1)
Ritmo de conversa padrão para a maioria dos casos de uso
Mais Rápido (1.15-1.2)
Conversas rápidas ou cenários com limite de tempo
Configurações do Transcritor
Configure o reconhecimento de fala para texto para obter precisão e velocidade ideais. Disponível para: apenas no modo Pipeline. Os modos Speech-to-Speech e Dualplex utilizam transcrição integrada. Seleção de Provedor Escolha o transcritor mais adequado para seu idioma e caso de uso. O provedor selecionado será usado para transcrever a fala do usuário.Latency: Faster Solid choice for English and major languages.Azure
Precisão: ⭐⭐⭐⭐ Latência: Mais lentaMelhor para máxima fidelidade na transcrição quando a precisão é crítica.
Gladia
Precisão: ⭐⭐⭐Latência: Mais rápidoBom para uso geral na maioria dos idiomas. Suporta configurações multilíngues.
Deepgram
Precisão: ⭐⭐⭐Latência: Mais rápidaBoa opção para inglês e principais idiomas.
Idiomas diferentes, sotaques ou ruído de fundo podem impactar cada provedor de forma diferente. Teste qual funciona melhor para seu idioma e configuração de áudio específicos.
Configuração de Endpoint
AI Turn Detection
Utiliza IA para detectar de forma inteligente quando o interlocutor terminou de falar
Voice Activity Detection (VAD)
Padrão: Detecção tradicional de atividade vocalEscolha como a IA irá detectar o final da frase do usuário.
Voice Activity Detection (VAD)
Controle quando sua assistente começa e para de falar. Consulte o guia de Tratamento de Interrupções para configuração detalhada do VAD.Sensitividade Endpoint
Sensitividade Endpoint
Intervalo: 0 - 5 segundos | Padrão: 0,5Ajuste o tempo que a IA aguardará o usuário falar após a última palavra. Valores menores tornam a IA mais rápida; valores maiores são melhores para frases longas do usuário.0 (Mais rápido): Respostas rápidas, mas pode interromper o usuário.5 (Mais lento): Aguarda mais tempo, reduzindo interrupções.
Sensibilidade à Interrupção
Sensibilidade à Interrupção
Com que facilidade a assistente para quando o interlocutor fala por cima. Controla a sensibilidade para detectar quando alguém está tentando interromper.
Palavras de Interrupção Mínima
Palavras de Interrupção Mínima
Exigir pelo menos N palavras do interlocutor antes de interromper a assistente.Uso: Evita disparos falsos causados por ruído de fundo ou sons breves.

