Movidos Por IA · Recursos

Calcule o custo de cada Interação de IA via WhatsApp

Tabela de preços brutos dos modelos mais usados em chat e atendimento, em dólar (USD), direto do OpenRouter. Use a calculadora abaixo para estimar quanto custa uma mensagem com base em tokens de entrada e saída já convertidos em R$ com IOF e Spread de cartão de crédito.

Calculadora de custo por interação

BRL no cartão (com IOF + spread) · USD bruto OpenRouter pra referência
live

Taxa efetiva no cartão: = cotação × (1 + spread) × (1 + IOF)

Cotação ao vivo · AwesomeAPI

Custo desta interação

$0.003500

Claude Haiku 4.5 · cartão BRL

Custo por atendimento

$0.0350

10 interações · cartão BRL

Custo de 1.000 interações

$3.50

mesmo perfil de tokens · cartão BRL

Como o cálculo é feito

custo = (prompt × $1 + completion × $5) / 1M

= (1000 × $1 + 500 × $5) / 1.000.000 = $0.003500

em R$ no cartão = $0.003500 × × (1 + 0,040) × (1 + 0,035) =

Como funciona cada interação

Da mensagem do lead à resposta da IA

O lead manda uma mensagem no WhatsApp. O agente combina isso com o system prompt + histórico e gera a resposta via LLM. Tudo em segundos.

MMaya · Atendimentoonlineoi, vi vocês no instagram.vocês fazem CBUQ?14:22Maya está digitando...1LEAD ENVIAMensagem chega no WhatsAppAGENTE · ENGINESystem promptIdentidade, persona, regras do negócio, exemplos…Histórico da conversaÚltimas N mensagens entre lead e IA…Mensagem nova do lead“oi, vi vocês no instagram. vocês fazem CBUQ?”LLMclaude haiku 4.52AGENTE PROCESSALê system prompt + histórico + msg novaMMaya · Atendimentoonlineoi, vi vocês no instagram.vocês fazem CBUQ?14:22oi! sim, fazemos CBUQ. pra tepassar o melhor preço, qual ovolume aproximado e o localda obra?14:22 ✓3IA RESPONDEMensagem volta pro lead pelo WhatsApp
IN

Input · prompt token

O que entra no LLM

Tudo que o agente envia pro modelo processar: o system prompt (identidade, persona, regras de negócio), o histórico da conversa e a nova mensagem do lead. É a base do raciocínio — quanto mais contexto você dá, mais inputs faturados.

Ex.: Claude Haiku 4.5 cobra $1,00 por milhão de tokens de entrada.

OUT

Output · completion token

O que sai do LLM

A resposta gerada pelo modelo — texto novo, criado token a token. Costuma ser menor em volume que o input, mas mais cara por token (porque o modelo precisa raciocinar e criar). Por isso resumir respostas longas economiza muito.

Ex.: Claude Haiku 4.5 cobra $5,00 por milhão de tokens de saída — 5× mais que o input.

Cache · prompt caching

Input reaproveitado do cache

Quando o system prompt + parte do histórico se repetem entre interações (típico em chat de atendimento), o provedor guarda esse bloco em cache por alguns minutos. As interações seguintes pagam 10% do preço normal (Anthropic) ou 50% (OpenAI) pelos tokens cacheados.

Ex.: Haiku 4.5 cobra $0,10 por milhão de cache read — 10× mais barato que o input fresh.

Modelos recomendados

Tabela de preços USD por milhão de tokens

Preço bruto cobrado pelo OpenRouter. O preço final na sua conta Movidos pode variar conforme o seu plano. Atualizamos esta tabela quando os preços oficiais mudarem.

ModeloProvedorPromptCache read ↻Cache write ✦CompletionExemplo · 1k+500Recomendação
Claude Haiku 4.5
Modelo padrão do Atendimento Movidos. Rápido, barato, qualidade alta para qualificação por WhatsApp.
Anthropic$1.00/M$0.100/M$1.25/M$5.00/M$0.003500Padrão
Claude Sonnet 4.5
Conversas complexas com contexto longo, raciocínio multi-step, follow-up qualitativo.
Anthropic$3.00/M$0.300/M$3.75/M$15.00/M$0.0105Premium
Claude Opus 4.5
Reservado a casos críticos — análise estratégica, copy de alto valor. Custo significativo.
Anthropic$15.00/M$1.500/M$18.75/M$75.00/M$0.0525Top tier
GPT-4o
Multi-modal (visão), boa pra anexos. Preço médio entre Haiku e Sonnet.
OpenAI$2.50/M$1.250/M$10.00/M$0.007500Premium
GPT-4o Mini
Mais barato da lista. Bom pra classificação simples e respostas curtas.
OpenAI$0.15/M$0.075/M$0.60/M$0.000450Econômico
Perplexity Sonar Pro
Search-first. Use para pesquisar empresas/sites em tempo real (BDR / análise).
Perplexity$3.00/M$15.00/M$0.0105Pesquisa
GPT-4.1
Geração 4.1 com contexto longo (1M tokens). Boa pra análise de conteúdo extenso e tarefas multi-step.
OpenAI$2.00/M$0.500/M$8.00/M$0.006000Premium
GPT-4.1 Mini
Versão econômica do 4.1, mantém contexto longo. Forte candidato pra atendimento de alto volume.
OpenAI$0.40/M$0.100/M$1.60/M$0.001200Custo-benefício
GPT-4.1 Nano
Mais barato da linha 4.1. Bom pra classificação, roteamento e respostas curtas.
OpenAI$0.10/M$0.025/M$0.40/M$0.000300Econômico
Gemini 2.5 Pro
Flagship do Google. Multi-modal nativo, contexto até 2M tokens. Boa em raciocínio e código.
Google$1.25/M$0.310/M$10.00/M$0.006250Premium
Gemini 2.5 Flash
Versão rápida e barata da geração 2.5. Próximo do Haiku em custo, com contexto bem maior.
Google$0.30/M$0.075/M$2.50/M$0.001550Custo-benefício
Gemini 2.5 Flash Lite
Versão enxuta do Flash. Sem prompt caching declarado. Boa pra tarefas leves de qualificação.
Google$0.10/M$0.40/M$0.000300Econômico
Gemini 2.0 Flash
Geração anterior, ainda muito usada. Preço idêntico ao Flash Lite mas com cache disponível.
Google$0.10/M$0.025/M$0.40/M$0.000300Econômico

*Exemplo de cálculo considera 1.000 tokens de entrada (prompt) + 500 tokens de saída (completion) — perfil típico de uma resposta curta de WhatsApp. 1 token ≈ 4 caracteres em português. Cache read ↻ = preço quando a parte estável do prompt é reaproveitada do cache do provedor. Cache write ✦ = pequena taxa única na primeira interação que monta o cache. Modelos sem prompt caching (ex.: Perplexity) mostram “—”.

O que é OpenRouter

Um único endpoint para vários modelos

OpenRouter agrupa LLMs de Anthropic, OpenAI, Google, Meta e outros sob uma só API e cobra por uso real, em tokens. Você não fica preso a um provedor — troca o modelo via parâmetro.

Como tokens funcionam

Prompt + completion = total faturado

Tokens são fragmentos de texto (≈ 4 caracteres em português). O custo é calculado separadamente para o que você envia (prompt) e o que o modelo responde (completion). A saída costuma ser mais cara que a entrada.