AgentsMédio

Eval Harness Skill

poraffaan-m·affaan-m· v1.0.0 · atualizado em 2026-04-10

Score

Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles

eval-driven-developmenttestingai-evaluationregression-testingcapability-testingcode-qualityllm-development

0Stars

0Forks

0Usos

Fork

Documento do Skill

SKILL.mdeval-harness/workflow

Define Evals: — Before coding, define capability and regression evals with clear success criteria.

Implement Code: — Write code to pass the defined evals.

Run Evals: — Execute the evals using appropriate graders (code, model, human).

Analyze Results: — Review the eval report and identify areas for improvement.

Iterate: — Modify code and rerun evals until success criteria are met.

Report: — Generate a final eval report summarizing the results.

Telemetria de Agentes

Execuções

total

Taxa de Sucesso

últimos 30d

Latência Média

0.0s

p50

Alucinação

0.0%

detecção

Tokens Entrada

avg 0/exec

Tokens Saída

avg 0/exec

Uso por Plataforma

Skills Relacionados

Compõe com ←Continuous Agent Loop

70%

Similar aRemembering Conversations

Árvore do Skill

Eval Harness Skill

eval-harness

Fases Cognitivas5

1.SENSE

2.CONTEXTUALIZE

3.EVALUATE

4.REFLECT

5.ACT

Triggers8

evaluate AI agent performancerun capability evalsdefine regression tests for AIcheck AI feature implementationgenerate eval reportimplement eval-driven developmenttrack AI reliabilityassess AI code quality

Avaliar este Skill

Score Breakdown

⭐Avaliação Humana0%

🤖Sucesso de Agentes0%

🕐Atualidade100%

🔗Saúde de Dependências100%

🕸️Centralidade no Grafo0%

🛡️Segurança50%

CompositeScore = α·Humano + β·Agente + γ·Recência + δ·Deps + ε·Centralidade + ζ·Segurança

Instalação

$ synaptic mcp download eval-harness

$ synaptic skills detail eval-harness

$ synaptic skills live eval-harness

Dependências

npm grep

Links

GitHub Repository