AgentsAvançado

Eval Audit

porhamelsmu·hamelsmu· v1.0.0 · atualizado em 2026-04-11

Score

This skill evaluates and audits code or system configurations. It identifies potential vulnerabilities, inefficiencies, and deviations from established best practices.

llm-evaluationai-auditerror-analysisjudge-validationpipeline-hygieneeval-infrastructure

Linguagens

Python

0Stars

0Forks

0Usos

Fork

Documento do Skill

SKILL.mdeval-audit/workflow

Gather Eval Artifacts: — Collect traces, evaluator configs, judge prompts, labeled data, and metrics dashboards.

Connect to Infrastructure: — Access artifacts via an observability MCP server or local files.

Error Analysis: — Check for systematic error analysis on real or synthetic traces.

Evaluator Design: — Inspect evaluator design, focusing on binary pass/fail criteria and specific failure modes.

Judge Validation: — Validate LLM judges against human labels using TPR/TNR.

Human Review Process: — Evaluate the human review process, ensuring domain expertise and full trace visibility.

Labeled Data: — Assess the quantity and quality of labeled data, suggesting sampling strategies.

Pipeline Hygiene: — Verify that error analysis is re-run after significant changes and evaluators are maintained.

Telemetria de Agentes

Execuções

total

Taxa de Sucesso

últimos 30d

Latência Média

0.0s

p50

Alucinação

0.0%

detecção

Tokens Entrada

avg 0/exec

Tokens Saída

avg 0/exec

Uso por Plataforma

Skills Relacionados

Compõe comError Analysis

70%

Similar aAmazon Product Finder

60%

Similar aX Research

60%

Similar aBNB Chain MCP Skill

60%

Árvore do Skill

Eval Audit

eval-audit

Fases Cognitivas6

1.SENSE

2.CONTEXTUALIZE

3.HYPOTHESIZE

4.EVALUATE

5.RECOMMEND

6.REFLECT

Triggers7

audit my LLM evaluation pipelinefind problems in my LLM evalsimprove my LLM evaluation processdiagnose issues with my AI evaluatorscheck my LLM judge promptsvalidate my LLM evaluation setupreview my LLM eval artifacts

Avaliar este Skill

Score Breakdown

⭐Avaliação Humana0%

🤖Sucesso de Agentes0%

🕐Atualidade100%

🔗Saúde de Dependências100%

🕸️Centralidade no Grafo0%

🛡️Segurança50%

CompositeScore = α·Humano + β·Agente + γ·Recência + δ·Deps + ε·Centralidade + ζ·Segurança

Instalação

$ synaptic mcp download eval-audit

$ synaptic skills detail eval-audit

$ synaptic skills live eval-audit

Links

GitHub Repository