llm-evaluate — for Claude Code llm-evaluate, lucidlabs-agent-kit, community, for Claude Code, ide skills, init-project, Evaluation, Evaluiert, LLM-Modelle, basierend

v1.0.0

À propos de ce Skill

Scenario recommande: Ideal for AI agents that need llm model evaluation. Resume localise: AI Agent Starter Kit - Production-ready boilerplate for AI-powered applications with Next.js, Mastra, Convex, and n8n # LLM Model Evaluation Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.

Fonctionnalités

LLM Model Evaluation
Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.
Während /init-project bei der Komplexitätsbewertung
Bei Kosten-Optimierung bestehender Projekte
Wenn neue Modelle erscheinen (regelmäßig checken)

# Sujets clés

lucidlabs-hq lucidlabs-hq
[1]
[1]
Mis à jour: 4/24/2026

Skill Overview

Start with fit, limitations, and setup before diving into the repository.

Scenario recommande: Ideal for AI agents that need llm model evaluation. Resume localise: AI Agent Starter Kit - Production-ready boilerplate for AI-powered applications with Next.js, Mastra, Convex, and n8n # LLM Model Evaluation Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.

Pourquoi utiliser cette compétence

Recommandation: llm-evaluate helps agents llm model evaluation. AI Agent Starter Kit - Production-ready boilerplate for AI-powered applications with Next.js, Mastra, Convex, and n8n # LLM Model Evaluation Evaluiert

Meilleur pour

Scenario recommande: Ideal for AI agents that need llm model evaluation.

Cas d'utilisation exploitables for llm-evaluate

Cas d'usage: LLM Model Evaluation
Cas d'usage: Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis
Cas d'usage: Während /init-project bei der Komplexitätsbewertung

! Sécurité et Limitations

  • Limitation: Requires repository-specific context from the skill documentation
  • Limitation: Works best when the underlying tools and dependencies are already configured

About The Source

The section below is adapted from the upstream repository. Use it as supporting material alongside the fit, use-case, and installation summary on this page.

Démo Labs

Browser Sandbox Environment

⚡️ Ready to unleash?

Experience this Agent in a zero-setup browser environment powered by WebContainers. No installation required.

Boot Container Sandbox

FAQ et étapes d’installation

These questions and steps mirror the structured data on this page for better search understanding.

? Questions fréquentes

Qu’est-ce que llm-evaluate ?

Scenario recommande: Ideal for AI agents that need llm model evaluation. Resume localise: AI Agent Starter Kit - Production-ready boilerplate for AI-powered applications with Next.js, Mastra, Convex, and n8n # LLM Model Evaluation Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.

Comment installer llm-evaluate ?

Exécutez la commande : npx killer-skills add lucidlabs-hq/lucidlabs-agent-kit. Elle fonctionne avec Cursor, Windsurf, VS Code, Claude Code et plus de 19 autres IDE.

Quels sont les cas d’usage de llm-evaluate ?

Les principaux cas d’usage incluent : Cas d'usage: LLM Model Evaluation, Cas d'usage: Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis, Cas d'usage: Während /init-project bei der Komplexitätsbewertung.

Quels IDE sont compatibles avec llm-evaluate ?

Cette skill est compatible avec Cursor, Windsurf, VS Code, Trae, Claude Code, OpenClaw, Aider, Codex, OpenCode, Goose, Cline, Roo Code, Kiro, Augment Code, Continue, GitHub Copilot, Sourcegraph Cody, and Amazon Q Developer. Utilisez la CLI Killer-Skills pour une installation unifiée.

Y a-t-il des limites pour llm-evaluate ?

Limitation: Requires repository-specific context from the skill documentation. Limitation: Works best when the underlying tools and dependencies are already configured.

Comment installer ce skill

  1. 1. Ouvrir le terminal

    Ouvrez le terminal ou la ligne de commande dans le dossier du projet.

  2. 2. Lancer la commande d’installation

    Exécutez : npx killer-skills add lucidlabs-hq/lucidlabs-agent-kit. La CLI détectera automatiquement votre IDE ou votre agent et configurera la skill.

  3. 3. Commencer à utiliser le skill

    Le skill est maintenant actif. Votre agent IA peut utiliser llm-evaluate immédiatement dans le projet.

! Source Notes

This page is still useful for installation and source reference. Before using it, compare the fit, limitations, and upstream repository notes above.

Upstream Repository Material

The section below is adapted from the upstream repository. Use it as supporting material alongside the fit, use-case, and installation summary on this page.

Upstream Source

llm-evaluate

Install llm-evaluate, an AI agent skill for AI agent workflows and automation. Explore features, use cases, limitations, and setup guidance.

SKILL.md
Readonly
Upstream Repository Material
The section below is adapted from the upstream repository. Use it as supporting material alongside the fit, use-case, and installation summary on this page.
Upstream Source

LLM Model Evaluation

Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.


Wann nutzen?

  • Während /init-project bei der Komplexitätsbewertung
  • Bei Kosten-Optimierung bestehender Projekte
  • Wenn neue Modelle erscheinen (regelmäßig checken)
  • Vor größeren Production-Deployments

Step 1: Use Case verstehen

Falls kein Argument übergeben, frage:

Was ist dein Use Case?

Beispiele:
• "Chat-Bot für Kundenservice" (High-Volume, schnelle Antworten)
• "Dokumenten-Analyse" (Langer Context, Reasoning)
• "Code-Generierung" (Präzision wichtig)
• "GDPR-konforme EU-App" (Compliance)
• "Budget-Projekt" (Kosten minimieren)

Step 2: Aktuelle Preise holen

WICHTIG: Preise ändern sich häufig. Hole aktuelle Daten.

2.1 Web Search für aktuelle Preise

Suche nach aktuellen Preisen mit WebSearch:

Query: "[Provider] API pricing 2026"

Für jeden Provider:

  • Anthropic Claude pricing
  • OpenAI GPT pricing
  • Google Gemini pricing
  • DeepSeek pricing
  • xAI Grok pricing
  • Mistral pricing

2.2 Pricing Endpoints (falls verfügbar)

Einige Provider haben öffentliche Pricing-Pages:

ProviderPricing URL
Anthropichttps://www.anthropic.com/pricing
OpenAIhttps://openai.com/api/pricing
Googlehttps://ai.google.dev/pricing
DeepSeekhttps://platform.deepseek.com/api-docs/pricing
Mistralhttps://mistral.ai/technology/#pricing
xAIhttps://x.ai/api

2.3 Fallback: Cached Reference

Falls Web-Fetch fehlschlägt, nutze .claude/reference/llm-configuration.md als Fallback (aber weise auf möglicherweise veraltete Daten hin).


Step 3: Modelle bewerten

3.1 Bewertungskriterien

KriteriumGewichtungBeschreibung
Kosten30%Input + Output Tokens
Qualität30%Benchmark-Scores, Erfahrungswerte
Latenz20%Time to first token, Throughput
Context10%Max Context Window
Features10%Vision, Tools, Streaming

3.2 Use Case Mapping

Use CaseWichtigUnwichtig
Chat-BotLatenz, KostenContext
Dokument-AnalyseContext, QualitätLatenz
Code-GenQualitätKosten
High-VolumeKosten, LatenzQualität
GDPRComplianceKosten

Step 4: Empfehlung ausgeben

4.1 Empfehlungs-Template

┌─────────────────────────────────────────────────────────────────────────────┐
│  LLM EVALUATION - [Use Case]                                                │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  📅 Preise Stand: [Datum der Abfrage]                                       │
│                                                                             │
│  TOP 3 EMPFEHLUNGEN:                                                        │
│                                                                             │
│  🥇 #1: [Modell]                                                            │
│      Provider: [Provider]                                                   │
│      Input:    $[X]/1M tokens                                               │
│      Output:   $[X]/1M tokens                                               │
│      Context:  [X]K                                                         │
│      Score:    [X]/100 (basierend auf Use Case)                             │
│      Warum:    [Begründung]                                                 │
│                                                                             │
│  🥈 #2: [Modell]                                                            │
│      ...                                                                    │
│                                                                             │
│  🥉 #3: [Modell]                                                            │
│      ...                                                                    │
│                                                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  KOSTEN-SCHÄTZUNG (bei 1M Requests/Monat, 1000 Tokens avg):                │
│                                                                             │
│  Modell #1: ~$[X]/Monat                                                     │
│  Modell #2: ~$[X]/Monat                                                     │
│  Modell #3: ~$[X]/Monat                                                     │
│                                                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  FALLBACK-STRATEGIE:                                                        │
│                                                                             │
│  Primary:  [Modell #1]                                                      │
│  Fallback: [Modell #2]                                                      │
│  Budget:   [Modell #3]                                                      │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

4.2 Portkey Config generieren

Falls gewünscht, generiere die Portkey-Konfiguration:

typescript
1// Empfohlene Portkey Konfiguration für [Use Case] 2const config = { 3 strategy: { 4 mode: 'fallback', 5 }, 6 targets: [ 7 { provider: '[primary]', model: '[model]' }, 8 { provider: '[fallback]', model: '[model]' }, 9 ], 10 cache: { 11 mode: 'semantic', 12 ttl: 3600, 13 }, 14};

Step 5: Dokumentation aktualisieren

Falls signifikante Preisänderungen gefunden wurden:

  1. Weise den User darauf hin
  2. Frage ob .claude/reference/llm-configuration.md aktualisiert werden soll
  3. Bei "Ja": Update die Preistabellen

Automatische Intervall-Checks

Weekly Reminder

Dieser Skill sollte regelmäßig genutzt werden:

Empfehlung: Führe /llm-evaluate monatlich aus um:
- Neue Modelle zu entdecken
- Preisänderungen zu berücksichtigen
- Kosten-Optimierung zu prüfen

Bei Projekt-Init

Während /init-project wird dieser Skill automatisch bei der Komplexitätsbewertung (Step 0.2) aufgerufen um das optimale Modell für den Use Case zu empfehlen.


Modell-Datenbank (Referenz)

Anthropic

ModellInput/1MOutput/1MContextStärken
Claude Opus 4.5$15$75200KBest reasoning
Claude Sonnet 4$3$15200KBest coding
Claude Haiku 3.5$0.25$1.25200KFast, cheap

OpenAI

ModellInput/1MOutput/1MContextStärken
GPT-4o$5$15128KMultimodal
GPT-4o-mini$0.15$0.60128KBudget GPT-4
o1$15$60200KDeep reasoning

Google

ModellInput/1MOutput/1MContextStärken
Gemini 2.0 Pro$7$211MLong context
Gemini 2.0 Flash$0.10$0.401MFast, cheap
Gemini Flash 8B$0.04$0.151MUltra cheap

DeepSeek

ModellInput/1MOutput/1MContextStärken
DeepSeek V3$0.27$1.1064KOpen-weight
DeepSeek R1$0.55$2.1964KReasoning

xAI

ModellInput/1MOutput/1MContextStärken
Grok 2$2$10128KRealtime data
Grok 2 Vision$2$1032KImage understanding

Mistral

ModellInput/1MOutput/1MContextStärken
Mistral Large$2$6128KEU-hosted
Codestral$0.30$0.90256KCode
Mistral Small$0.20$0.60128KBudget

Beispiel-Ausführung

User: /llm-evaluate Chat-Bot für Kundenservice

Claude:
┌─────────────────────────────────────────────────────────────────────────────┐
│  LLM EVALUATION - Customer Service Chat Bot                                 │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  📅 Preise Stand: Januar 2026                                               │
│                                                                             │
│  TOP 3 EMPFEHLUNGEN:                                                        │
│                                                                             │
│  🥇 #1: Claude Haiku 3.5                                                    │
│      Provider: Anthropic                                                    │
│      Input:    $0.25/1M tokens                                              │
│      Output:   $1.25/1M tokens                                              │
│      Context:  200K                                                         │
│      Score:    92/100                                                       │
│      Warum:    Schnell, günstig, gute Qualität für Chat                     │
│                                                                             │
│  🥈 #2: Gemini 2.0 Flash                                                    │
│      Provider: Google                                                       │
│      Input:    $0.10/1M tokens                                              │
│      Output:   $0.40/1M tokens                                              │
│      Context:  1M                                                           │
│      Score:    88/100                                                       │
│      Warum:    Noch günstiger, aber weniger konsistent                      │
│                                                                             │
│  🥉 #3: DeepSeek V3                                                         │
│      Provider: DeepSeek                                                     │
│      Input:    $0.27/1M tokens                                              │
│      Output:   $1.10/1M tokens                                              │
│      Context:  64K                                                          │
│      Score:    82/100                                                       │
│      Warum:    Sehr günstig, aber China-based (Compliance?)                 │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

Integration mit init-project

Dieser Skill wird automatisch während /init-project aufgerufen:

  1. User beschreibt Projekt (Step 0.1)
  2. Komplexitätsstufe wird ermittelt (Step 0.2)
  3. /llm-evaluate läuft im Hintergrund
  4. Stack-Empfehlung inkl. LLM-Empfehlung (Step 0.3)

Version: 1.0 Last Updated: January 2026

Compétences associées

Looking for an alternative to llm-evaluate or another community skill for your workflow? Explore these related open-source skills.

Voir tout

openclaw-release-maintainer

Logo of openclaw
openclaw

Resume localise: 🦞 # OpenClaw Release Maintainer Use this skill for release and publish-time workflow. It covers ai, assistant, crustacean workflows. This AI agent skill supports Claude Code, Cursor, and Windsurf workflows.

widget-generator

Logo of f
f

Resume localise: Generate customizable widget plugins for the prompts.chat feed system # Widget Generator Skill This skill guides creation of widget plugins for prompts.chat. It covers ai, artificial-intelligence, awesome-list workflows. This AI agent skill supports Claude Code, Cursor, and

flags

Logo of vercel
vercel

Resume localise: The React Framework # Feature Flags Use this skill when adding or changing framework feature flags in Next.js internals. It covers blog, browser, compiler workflows. This AI agent skill supports Claude Code, Cursor, and Windsurf workflows.

138.4k
0
Navigateur

pr-review

Logo of pytorch
pytorch

Resume localise: Usage Modes No Argument If the user invokes /pr-review with no arguments, do not perform a review. It covers autograd, deep-learning, gpu workflows. This AI agent skill supports Claude Code, Cursor, and Windsurf workflows.

98.6k
0
Développeur