Tabela de preços brutos dos modelos mais usados em chat e atendimento, em dólar (USD), direto do OpenRouter. Use a calculadora abaixo para estimar quanto custa uma mensagem com base em tokens de entrada e saída já convertidos em R$ com IOF e Spread de cartão de crédito.
Taxa efetiva no cartão: … = cotação × (1 + spread) × (1 + IOF)
Cotação ao vivo · AwesomeAPI
Custo desta interação
$0.003500
Claude Haiku 4.5 · cartão BRL
Custo por atendimento
$0.0350
10 interações · cartão BRL
Custo de 1.000 interações
$3.50
mesmo perfil de tokens · cartão BRL
Como o cálculo é feito
custo = (prompt × $1 + completion × $5) / 1M
= (1000 × $1 + 500 × $5) / 1.000.000 = $0.003500
em R$ no cartão = $0.003500 × … × (1 + 0,040) × (1 + 0,035) = …
O lead manda uma mensagem no WhatsApp. O agente combina isso com o system prompt + histórico e gera a resposta via LLM. Tudo em segundos.
Input · prompt token
O que entra no LLM
Tudo que o agente envia pro modelo processar: o system prompt (identidade, persona, regras de negócio), o histórico da conversa e a nova mensagem do lead. É a base do raciocínio — quanto mais contexto você dá, mais inputs faturados.
Ex.: Claude Haiku 4.5 cobra $1,00 por milhão de tokens de entrada.
Output · completion token
O que sai do LLM
A resposta gerada pelo modelo — texto novo, criado token a token. Costuma ser menor em volume que o input, mas mais cara por token (porque o modelo precisa raciocinar e criar). Por isso resumir respostas longas economiza muito.
Ex.: Claude Haiku 4.5 cobra $5,00 por milhão de tokens de saída — 5× mais que o input.
Cache · prompt caching
Input reaproveitado do cache
Quando o system prompt + parte do histórico se repetem entre interações (típico em chat de atendimento), o provedor guarda esse bloco em cache por alguns minutos. As interações seguintes pagam 10% do preço normal (Anthropic) ou 50% (OpenAI) pelos tokens cacheados.
Ex.: Haiku 4.5 cobra $0,10 por milhão de cache read — 10× mais barato que o input fresh.
Preço bruto cobrado pelo OpenRouter. O preço final na sua conta Movidos pode variar conforme o seu plano. Atualizamos esta tabela quando os preços oficiais mudarem.
| Modelo | Provedor | Prompt | Cache read ↻ | Cache write ✦ | Completion | Exemplo · 1k+500 | Recomendação |
|---|---|---|---|---|---|---|---|
Claude Haiku 4.5 Modelo padrão do Atendimento Movidos. Rápido, barato, qualidade alta para qualificação por WhatsApp. | Anthropic | $1.00/M | $0.100/M | $1.25/M | $5.00/M | $0.003500 | Padrão |
Claude Sonnet 4.5 Conversas complexas com contexto longo, raciocínio multi-step, follow-up qualitativo. | Anthropic | $3.00/M | $0.300/M | $3.75/M | $15.00/M | $0.0105 | Premium |
Claude Opus 4.5 Reservado a casos críticos — análise estratégica, copy de alto valor. Custo significativo. | Anthropic | $15.00/M | $1.500/M | $18.75/M | $75.00/M | $0.0525 | Top tier |
GPT-4o Multi-modal (visão), boa pra anexos. Preço médio entre Haiku e Sonnet. | OpenAI | $2.50/M | $1.250/M | — | $10.00/M | $0.007500 | Premium |
GPT-4o Mini Mais barato da lista. Bom pra classificação simples e respostas curtas. | OpenAI | $0.15/M | $0.075/M | — | $0.60/M | $0.000450 | Econômico |
Perplexity Sonar Pro Search-first. Use para pesquisar empresas/sites em tempo real (BDR / análise). | Perplexity | $3.00/M | — | — | $15.00/M | $0.0105 | Pesquisa |
GPT-4.1 Geração 4.1 com contexto longo (1M tokens). Boa pra análise de conteúdo extenso e tarefas multi-step. | OpenAI | $2.00/M | $0.500/M | — | $8.00/M | $0.006000 | Premium |
GPT-4.1 Mini Versão econômica do 4.1, mantém contexto longo. Forte candidato pra atendimento de alto volume. | OpenAI | $0.40/M | $0.100/M | — | $1.60/M | $0.001200 | Custo-benefício |
GPT-4.1 Nano Mais barato da linha 4.1. Bom pra classificação, roteamento e respostas curtas. | OpenAI | $0.10/M | $0.025/M | — | $0.40/M | $0.000300 | Econômico |
Gemini 2.5 Pro Flagship do Google. Multi-modal nativo, contexto até 2M tokens. Boa em raciocínio e código. | $1.25/M | $0.310/M | — | $10.00/M | $0.006250 | Premium | |
Gemini 2.5 Flash Versão rápida e barata da geração 2.5. Próximo do Haiku em custo, com contexto bem maior. | $0.30/M | $0.075/M | — | $2.50/M | $0.001550 | Custo-benefício | |
Gemini 2.5 Flash Lite Versão enxuta do Flash. Sem prompt caching declarado. Boa pra tarefas leves de qualificação. | $0.10/M | — | — | $0.40/M | $0.000300 | Econômico | |
Gemini 2.0 Flash Geração anterior, ainda muito usada. Preço idêntico ao Flash Lite mas com cache disponível. | $0.10/M | $0.025/M | — | $0.40/M | $0.000300 | Econômico |
*Exemplo de cálculo considera 1.000 tokens de entrada (prompt) + 500 tokens de saída (completion) — perfil típico de uma resposta curta de WhatsApp. 1 token ≈ 4 caracteres em português. Cache read ↻ = preço quando a parte estável do prompt é reaproveitada do cache do provedor. Cache write ✦ = pequena taxa única na primeira interação que monta o cache. Modelos sem prompt caching (ex.: Perplexity) mostram “—”.
O que é OpenRouter
OpenRouter agrupa LLMs de Anthropic, OpenAI, Google, Meta e outros sob uma só API e cobra por uso real, em tokens. Você não fica preso a um provedor — troca o modelo via parâmetro.
Como tokens funcionam
Tokens são fragmentos de texto (≈ 4 caracteres em português). O custo é calculado separadamente para o que você envia (prompt) e o que o modelo responde (completion). A saída costuma ser mais cara que a entrada.