Passo-a-passo detalhado do skill, referenciando as fases cognitivas:
1SENSE — Receber e estruturar o input completo
Coletar system prompt, user messages, assistant turns e tool definitions
Identificar o modelo/provider alvo para selecionar o tokenizer correto
Separar input tokens (system + user + history) de output tokens estimados
2ACT — Contagem precisa por provider
**OpenAI**: `tiktoken.encoding_for_model("gpt-4o")` → tokenizar cada seção
**Anthropic**: `client.messages.count_tokens(model="claude-opus-4", messages=[...])` via API
**Gemini**: `model.count_tokens(prompt)` via google.generativeai SDK
Somar tokens ocultos: ~3 tokens/turn para role formatting em conversas multiturn
Calcular custo: `input_tokens × input_price + output_tokens × output_price`
3CONTEXTUALIZE — Comparar com limites do modelo
GPT-4o: 128K context | GPT-4-turbo: 128K | Claude Opus 4: 200K | Gemini 1.5 Pro: 2M
Calcular percentual usado: `(total_tokens / context_limit) × 100`
Identificar se prompt caching está disponível (mensagens > 1K tokens no Claude)
4EVALUATE — Identificar ineficiências e oportunidades
Classificar por impacto: output tokens > input tokens no custo
Detectar tokens redundantes: repetição de context, exemplos desnecessários
Avaliar ROI de prompt caching (90% desconto em 1M+ tokens cacheados)
5RECOMMEND — Produzir relatório e sugestões
Tabela de breakdown: tokens por seção, custo por provider, total estimado
Sugestões priorizadas: comprimir history → reduzir system prompt → caching
Comparativo de custo entre modelos para o mesmo prompt
6REFLECT — Validação e telemetria
Reportar discrepância entre estimativa e billing real (tipicamente < 5%)
Registrar telemetria via mcp-skillschain com `inputTokens` e `outputTokens`