llm-evaluation-framework AI Agent Skills Search Results

sprint-review

rhesis-ai

Resumen localizado: Bring engineers, PMs, and domain experts together to generate tests, simulate (adversarial) conversations, and trace every failure to its root cause. It covers generative-ai, llm-evaluation, llm-evaluation-framework workflows. This AI agent skill supports Claude Code, Cursor

★ 312

⑂ 0

Inteligencia Artificial

pr-review

gonzoblasco

Resumen localizado: 🔬 Advanced LLM evaluation framework for testing and comparing prompt variants with an AI Judge. It covers ai-testing, anthropic, llm-evaluation workflows. This AI agent skill supports Claude Code, Cursor, and Windsurf workflows.

★ 0

⑂ 0

Inteligencia Artificial

eval-harness

[ Destacado ]

affaan-m

Eval Harness es un marco de evaluación para sesiones de Claude Code que permite medir la confiabilidad y el rendimiento de los agentes de AI

★ 171.1k

⑂ 0

Desarrollador

eval-harness

j7-dev

Resumen localizado: rewrite everything-claude-code for github-copilot # Eval Harness Skill A formal evaluation framework for Copilot CLI sessions, implementing eval-driven development (EDD) principles. This AI agent skill supports Claude Code, Cursor, and Windsurf workflows.

★ 8

⑂ 0

Desarrollador

prompt-engineer

Jeffallan

Resumen localizado: Use when designing prompts for LLMs, optimizing model performance, building evaluation frameworks, or implementing advanced prompting techniques like chain-of-thought, few-shot learning, or structured outputs. This AI agent skill supports Claude Code, Cursor, and Windsurf

★ 0

⑂ 0

Desarrollador

agent-evaluation

oimiragieo

Resumen localizado: Agents evaluate outputs, compute a weighted composite score, and emit a structured verdict with evidence citations. This AI agent skill supports Claude Code, Cursor, and Windsurf workflows.

★ 14

⑂ 0

Desarrollador

Explorando:

sprint-review

pr-review

eval-harness

eval-harness

prompt-engineer

agent-evaluation