Skip to main content
Configure as configurações fundamentais do seu assistente de IA, incluindo direção da chamada, números de telefone, seleção de voz e parâmetros técnicos.

Guia de Início Rápido

Pronto para configurar seu primeiro assistente de IA?
Aqui está o fluxo essencial:
  • Escolha a Direção da Chamada:
    Recebida (Inbound) para atender chamadas ou Efetuada (Outbound) para realizar chamadas
  • Defina o Nome do Assistente:
    Um rótulo interno como “Bot de Suporte” ou “Bot de Vendas”
  • Configure os Números de Telefone:
    Atribua números da plataforma, SIP ou Caller ID
  • Selecione a Voz e o Idioma:
    Escolha entre vozes integradas ou clone vozes personalizadas
  • Ajuste as Configurações Avançadas:
    Faça o ajuste fino de modelos, tempos de resposta e parâmetros de áudio
Sempre teste suas alterações realizando uma chamada com o assistente ou executando uma pequena campanha para confirmar que ele está se comportando conforme o esperado.
Siga esta página seção por seção para configurar seu assistente.
Cada configuração inclui explicações detalhadas e boas práticas para ajudá-lo a fazer as escolhas corretas.

Tipo de Assistente

Escolha se o seu assistente irá lidar com chamadas recebidas (inbound) ou chamadas efetuadas (outbound).
Essa escolha fundamental afeta quais outras opções estarão disponíveis.
  • Inbound (Receber chamadas): Lida com chamadas de clientes que entram. Consulte Visão geral de chamadas recebidas.
  • Outbound (Efetuar chamadas): Inicia chamadas para leads ou clientes. Consulte Visão geral de chamadas efetuadas.

Nome do Assistente

Um nome descritivo para identificar seu assistente no painel.
Use algo memorável que descreva o propósito do assistente (ex: “Qualificador de Vendas”, “Bot de Suporte”, “Agendador de Consultas”).

Configuração de Número de Telefone

Seu assistente precisa de um número de telefone para operar.
As opções disponíveis dependem da direção da chamada escolhida.

Para Assistentes Outbound

Você pode usar:
  • Números da plataforma: Números alugados diretamente da plataforma
  • Números SIP: Conecte seu sistema VOIP/PBX existente
  • Somente Caller ID: Verifique a propriedade de um número existente para exibi-lo em chamadas efetuadas

Para Assistentes Inbound

Você pode usar:
  • Números da plataforma: Números alugados diretamente da plataforma
  • Números SIP: Conecte seu sistema VOIP/PBX existente
Observação: Números Caller ID only não podem receber chamadas — eles apenas exibem o identificador em chamadas outbound.

Preços e Custos

  • Números da plataforma: Taxa mensal a partir de US$ 3,99/mês. Veja aluguel de número dedicado para preços detalhados.
  • Integração SIP: Sem taxa mensal, apenas US$ 0,00045/minuto para ponte de IA. Consulte preços de integração SIP.
  • Caller ID: Sem taxa mensal, tarifas por minuto baseadas na região (ex: US$ 0,01/min nos EUA). Veja preços Caller ID.
Consulte Tipos de número de telefone para explicações detalhadas e o guia de integração SIP para configuração VOIP.

Tipo de Motor (Modo de Processamento de Voz)

Escolha como sua IA processará a fala e gerará respostas.
Cada modo é otimizado para diferentes casos de uso. Consulte Modos de Assistente para comparações detalhadas.

Pipeline Mode

Fluxo tradicional Speech-to-Text → LLM → Text-to-Speech.
Oferece máximo controle sobre a seleção de voz e geração de respostas.
Melhor para: raciocínios complexos, chamadas de função e requisitos de voz personalizados.

Speech-to-Speech Mode

Geração direta de fala para fala, sem processamento intermediário de texto.
Oferece um fluxo de conversa mais natural.
Melhor para: conversas rápidas e diálogo fluido.

Dualplex Mode (Beta)

Combina processamento multimodal rápido com saída de voz premium da ElevenLabs.
Melhor para: a maioria dos casos de uso – configuração padrão recomendada.

Configuração de Idioma

Idioma Principal

O idioma principal que seu assistente usará para reconhecimento e síntese de fala. Isso afeta:
  • Precisão do reconhecimento de fala
  • Opções de voz disponíveis
  • Frases de preenchimento (filler audio)
  • Seleção do modelo de voz
Consulte Suporte de Idiomas para ver todos os idiomas e sotaques disponíveis.

Idiomas Secundários

Idiomas adicionais que seu assistente pode compreender e falar. Útil para:
  • Suporte ao cliente multilíngue
  • Empresas internacionais
  • Conversas com alternância de idiomas (code-switching)
Observação: A IA pode detectar automaticamente o idioma do cliente e responder de forma apropriada.

Seleção de Voz da IA

Seu assistente pode escolher entre vozes existentes, clonar vozes personalizadas ou solicitar vozes da biblioteca ElevenLabs.

Opções de Voz

Você tem três maneiras de obter a voz ideal para o seu assistente:
  1. Escolher entre vozes existentes:
    • Vozes profissionais: opções pré-treinadas e de alta qualidade da ElevenLabs
    • Múltiplos sotaques: disponíveis para a maioria dos idiomas
    • Opções de gênero: vozes masculinas e femininas
    • Variedade de tons: de formal e corporativo até casual e conversacional
  2. Clonar uma voz personalizada:
    Crie uma voz exclusiva enviando amostras de áudio.
    Requisitos:
    • Áudio claro e de alta qualidade (1 a 5 minutos recomendados)
    • Formato MP3 ou WAV
    • Ritmo e tom consistentes
    • Mínimo de ruído de fundo
    • Mesma voz usada em toda a gravação
    Processo:
    • Grave você mesmo ou contrate um dublador lendo um texto de amostra
    • Envie o arquivo de áudio nas configurações do assistente
    • Aguarde o treinamento ser concluído (de minutos a algumas horas)
    • Teste a voz clonada antes de usá-la em produção
    Casos de uso:
    • Consistência de marca com o porta-voz da empresa
    • Toque pessoal nas interações com clientes
    • Voz alinhada à persona do negócio
  3. Solicitar da biblioteca ElevenLabs:
    Você pode solicitar vozes específicas da biblioteca pública da ElevenLabs.
    Entre em contato com o suporte para adicioná-las à sua conta.
    Explore a Biblioteca de Vozes ElevenLabs para descobrir milhares de vozes profissionais em diversos idiomas, sotaques e estilos.
Consulte o Guia de Seleção de Voz para instruções detalhadas de configuração.

Configuração de Fuso Horário

Fuso Horário

Defina o fuso horário em que seu assistente irá operar. Isso afeta:
  • Variáveis baseadas em tempo durante conversas
  • Funções de agendamento de compromissos
  • Referências de “hora atual” nos prompts do sistema
  • Carimbos de tempo em registros de chamadas e extração de dados
Importante: Escolha o fuso horário onde sua empresa opera ou onde está a maioria dos clientes.
O assistente usará essa configuração para cálculos e agendamentos relacionados a horário.

Configurações de Aprimoramento de Áudio

Som Ambiente

Som de fundo opcional misturado à voz do assistente, para mascarar eventuais atrasos de processamento e criar uma experiência de áudio mais natural. Opções:
  • Nenhum: sem som de fundo (padrão)
  • Escritório: sons sutis de ambiente de escritório
Controle de volume:
Ajuste o nível do som ambiente em relação à voz.
Valores mais baixos costumam ser melhores — som excessivo pode interferir no reconhecimento de fala.
Desative ou reduza o volume se o assistente não estiver ouvindo o cliente com clareza.

Áudio de Preenchimento (Filler Audio)

Frases curtas de conversação como “mhm”, “okay”, “entendi” que são reproduzidas durante o tempo de processamento da IA.
Consulte o Guia de Áudio de Preenchimento para mais detalhes.

Benefits

  • Elimina silêncios constrangedores durante o processamento
  • Mantém os chamadores engajados
  • Cria um fluxo de conversa mais natural
  • Reduz a taxa de desligamento
Configuração sensível ao idioma:
As frases de preenchimento são configuradas automaticamente para o idioma selecionado.
“Ótimo!”, “Perfeito!”, “Excelente!”
Hmm.”, “Entendi.”, “Ok.”
“Certo?”, “Sério?”, “Como assim?”
“Ok.”, “Entendi.”, “Compreendi.”
Personalização: Você pode editar as frases padrão de cada categoria para combinar com a voz da sua marca ou preferências regionais.
Ativar por padrão – a maioria das conversas se beneficia do uso de fillers.
Teste com seu público-alvo e ajuste as frases para combinar com a personalidade do assistente.

Configurações Avançadas

Seleção do Modelo LLM

Escolha o melhor modelo de linguagem para o modo do seu assistente.
Consulte o Guia de Seleção de Modelos LLM para recomendações detalhadas.
Modelos recomendados por modo:
ModeloPontos FortesMelhor Para
GPT-5 MiniRaciocínio equilibrado com baixa latênciaPipeline Mode para raciocínio complexo
GPT-5 RealtimeRespostas de voz com ultra baixa latênciaSpeech-to-Speech e Dualplex
GPT-4oRaciocínio avançado e compreensão multimodalTarefas complexas (latência maior)
Gemini Flash 2.0/2.5Ultra-rápido para respostas de vozDualplex/Multimodal para latência mínima
Guia Rápido de Seleção:
  • Velocidade é crítica: Use GPT-5 Realtime ou Gemini Flash 2.0/2.5
  • Raciocínio complexo necessário: Use GPT-4o ou GPT-5 Mini com filler audios para compensar a latência

Temperatura do LLM

  • Intervalo: 0.0 - 1.0 | Padrão: 0.1
  • Ajusta o nível de criatividade da IA ao gerar respostas.
  • Valores mais baixos produzem melhores resultados em chamadas de função.

Mais Baixo (0.0-0.3)

Mais estável: Respostas previsíveis, ideal para chamadas de função e casos de uso empresarial.

Mais Alto (0.7-1.0)

Mais aleatório: Respostas criativas e variadas, ideal para conversas informais.
Dito pelo ChatGPT:Comportamento especial: Para os modelos GPT-5 Mini e GPT-5 Nano no Pipeline Mode, a temperatura é ajustada automaticamente para 1.0 para desempenho otimizado.

Configurações de Duração

Controle o tempo e os limites de chamadas para otimizar a experiência do usuário e os custos:
Intervalo: 7 - 600 segundos | Padrão: 30 segundosA IA tentará reengajar o usuário se nenhuma resposta for detectada dentro desse período.Recomendação: 30-60 segundos para chamadas profissionais.
Intervalo: 20 - 1200 segundos | Padrão: 600 segundos (10 minutos)A chamada será encerrada automaticamente se esse valor for atingido.Recomendação: 5-10 minutos para qualificação de leads, a fim de controlar custos.
Intervalo: 1 - 120 segundos | Padrão: 40 segundosA chamada será encerrada se o usuário não responder dentro desse período.Recomendação: 30-45 segundos para equilibrar paciência e eficiência.
Intervalo: 1 - 60 segundos | Padrão: 30 segundosDetermina por quanto tempo a chamada tocará antes de ser marcada como não atendida.
Útil para evitar caixa postal, definindo um valor menor.
Otimização de custos: Limites de duração menores ajudam a controlar os custos por minuto, especialmente importante em campanhas de alto volume.

Configurações de Proteção de Chamadas

Padrão: AtivadoFiltra ruído de fundo do chamador para um reconhecimento de fala mais claro.
Desative se houver recorte de áudio (clipping).
Padrão: AtivadoEncerra a chamada imediatamente se for detectada caixa postal em chamadas outbound (economiza custos).
Padrão: AtivadoGrava o áudio da chamada para revisão e análise.
Garanta conformidade com as leis locais de gravação.
Intervalo: 1 - 120 segundos | Padrão: 20 segundos (quando ativado)Se ativado, encerra a chamada se não houver resposta do usuário dentro desse período.
Conta apenas do início da chamada até a primeira resposta do usuário.
Caso de uso: Detectar se alguém realmente atendeu o telefone.

Configurações do Sintetizador

Configure os parâmetros de voz text-to-speech para conversas com som mais natural. Disponível para: apenas modos Pipeline e Dualplex.
O modo Speech-to-Speech utiliza geração de voz nativa.

Parâmetros de Ajuste de Voz

Ajuste finamente as características da voz do assistente para desempenho ideal:
Intervalo: 0.0 - 1.0 | Padrão: 0.7Valores mais baixos tornam a voz mais expressiva, mas menos previsível, enquanto valores mais altos tornam a voz mais estável, porém menos emocional.

Mais Expressivo (0.0-0.3)

Entrega dinâmica e variada, porém menos previsível

Menos Estável (0.7-1.0)

Consistente e estável, porém com menor variação emocional
Intervalo: 0.0 - 1.0 | Padrão: 0.5Determina o quão fiel a IA será à voz original.
Valores mais altos podem incluir ruídos indesejados da gravação original.

Mais Estável (0.0-0.4)

Áudio mais limpo, porém menos fiel à voz original

Mais Similar (0.6-1.0)

Fiel à voz original, mas pode incluir ruído de fundo
Para vozes clonadas: Comece em 0.5 e aumente gradualmente.
Valores mais altos de similaridade podem introduzir artefatos indesejados da gravação original.
Range: 0.7 - 1.2 | Default: 1.0Adjust the speed of the AI’s speech for optimal comprehension and user experience.

Mais Lento (0.7-0.85)

Melhor para informações complexas ou para públicos mais velhos

Normal (0.9-1.1)

Ritmo de conversa padrão para a maioria dos casos de uso

Mais Rápido (1.15-1.2)

Conversas rápidas ou cenários com limite de tempo

Configurações do Transcritor

Configure o reconhecimento de fala para texto para obter precisão e velocidade ideais. Disponível para: apenas no modo Pipeline. Os modos Speech-to-Speech e Dualplex utilizam transcrição integrada. Seleção de Provedor Escolha o transcritor mais adequado para seu idioma e caso de uso. O provedor selecionado será usado para transcrever a fala do usuário.Latency: Faster Solid choice for English and major languages.

Azure

Precisão: ⭐⭐⭐⭐ Latência: Mais lentaMelhor para máxima fidelidade na transcrição quando a precisão é crítica.

Gladia

Precisão: ⭐⭐⭐Latência: Mais rápidoBom para uso geral na maioria dos idiomas. Suporta configurações multilíngues.

Deepgram

Precisão: ⭐⭐⭐Latência: Mais rápidaBoa opção para inglês e principais idiomas.
Idiomas diferentes, sotaques ou ruído de fundo podem impactar cada provedor de forma diferente. Teste qual funciona melhor para seu idioma e configuração de áudio específicos.

Configuração de Endpoint

AI Turn Detection

Utiliza IA para detectar de forma inteligente quando o interlocutor terminou de falar

Voice Activity Detection (VAD)

Padrão: Detecção tradicional de atividade vocalEscolha como a IA irá detectar o final da frase do usuário.

Voice Activity Detection (VAD)

Controle quando sua assistente começa e para de falar. Consulte o guia de Tratamento de Interrupções para configuração detalhada do VAD.
Ajuste essas configurações finamente se estiver enfrentando problemas de interrupção ou respostas lentas.
Intervalo: 0 - 5 segundos | Padrão: 0,5Ajuste o tempo que a IA aguardará o usuário falar após a última palavra. Valores menores tornam a IA mais rápida; valores maiores são melhores para frases longas do usuário.0 (Mais rápido): Respostas rápidas, mas pode interromper o usuário.5 (Mais lento): Aguarda mais tempo, reduzindo interrupções.
Com que facilidade a assistente para quando o interlocutor fala por cima. Controla a sensibilidade para detectar quando alguém está tentando interromper.
Exigir pelo menos N palavras do interlocutor antes de interromper a assistente.Uso: Evita disparos falsos causados por ruído de fundo ou sons breves.
Dica profissional: Comece com as configurações padrão do VAD e ajuste com base em testes reais de chamadas. Aumente a sensibilidade do endpoint se os interlocutores forem interrompidos; diminua se as respostas parecerem lentas.