LLM Evaluate

init-project

v1.0.0

Über diesen Skill

Install LLM Evaluate, an AI agent skill for AI agent workflows and automation. Explore features, use cases, limitations, and setup guidance.

Funktionen

LLM Model Evaluation
Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.
Während /init-project bei der Komplexitätsbewertung
Bei Kosten-Optimierung bestehender Projekte
Wenn neue Modelle erscheinen (regelmäßig checken)

# Kernthemen

lucidlabs-hq lucidlabs-hq
[1]
[1]
Aktualisiert: 4/24/2026

Skill Overview

Start with fit, limitations, and setup before diving into the repository.

Install LLM Evaluate, an AI agent skill for AI agent workflows and automation. Explore features, use cases, limitations, and setup guidance.

Warum diese Fähigkeit verwenden

Empfehlung: llm-evaluate helps agents llm model evaluation. AI Agent Starter Kit - Production-ready boilerplate for AI-powered applications with Next.js, Mastra, Convex, and n8n # LLM Model Evaluation Evaluiert

Am besten geeignet für

Geeigneter Einsatz: llm model evaluation.

Handlungsfähige Anwendungsfälle for LLM Evaluate

Anwendungsfall: LLM Model Evaluation
Anwendungsfall: Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis
Anwendungsfall: Während /init-project bei der Komplexitätsbewertung

! Sicherheit & Einschränkungen

  • Einschraenkung: Requires repository-specific context from the skill documentation
  • Einschraenkung: Works best when the underlying tools and dependencies are already configured

About The Source

The section below is adapted from the upstream repository. Use it as supporting material alongside the fit, use-case, and installation summary on this page.

Labs-Demo

Browser Sandbox Environment

⚡️ Ready to unleash?

Experience this Agent in a zero-setup browser environment powered by WebContainers. No installation required.

Boot Container Sandbox

FAQ und Installationsschritte

These questions and steps mirror the structured data on this page for better search understanding.

? Häufige Fragen

Was ist LLM Evaluate?

Install LLM Evaluate, an AI agent skill for AI agent workflows and automation. Explore features, use cases, limitations, and setup guidance.

Wie installiere ich LLM Evaluate?

Führen Sie den Befehl aus: npx killer-skills add lucidlabs-hq/lucidlabs-agent-kit/llm-evaluate. Er funktioniert mit Cursor, Windsurf, VS Code, Claude Code und mehr als 19 weiteren IDEs.

Wofür kann ich LLM Evaluate verwenden?

Wichtige Einsatzbereiche sind: Anwendungsfall: LLM Model Evaluation, Anwendungsfall: Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis, Anwendungsfall: Während /init-project bei der Komplexitätsbewertung.

Welche IDEs sind mit LLM Evaluate kompatibel?

Dieser Skill ist mit Cursor, Windsurf, VS Code, Trae, Claude Code, OpenClaw, Aider, Codex, OpenCode, Goose, Cline, Roo Code, Kiro, Augment Code, Continue, GitHub Copilot, Sourcegraph Cody, and Amazon Q Developer kompatibel. Nutzen Sie die Killer-Skills CLI für eine einheitliche Installation.

Gibt es Einschränkungen bei LLM Evaluate?

Einschraenkung: Requires repository-specific context from the skill documentation. Einschraenkung: Works best when the underlying tools and dependencies are already configured.

So installieren Sie den Skill

  1. 1. Terminal öffnen

    Öffnen Sie Ihr Terminal oder die Kommandozeile im Projektverzeichnis.

  2. 2. Installationsbefehl ausführen

    Führen Sie aus: npx killer-skills add lucidlabs-hq/lucidlabs-agent-kit/llm-evaluate. Die CLI erkennt Ihre IDE oder Ihren Agenten automatisch und richtet den Skill ein.

  3. 3. Skill verwenden

    Der Skill ist jetzt aktiv. Ihr KI-Agent kann LLM Evaluate sofort im aktuellen Projekt verwenden.

! Source Notes

This page is still useful for installation and source reference. Before using it, compare the fit, limitations, and upstream repository notes above.

Upstream Repository Material

The section below is adapted from the upstream repository. Use it as supporting material alongside the fit, use-case, and installation summary on this page.

Upstream Source

LLM Evaluate

Install LLM Evaluate, an AI agent skill for AI agent workflows and automation. Explore features, use cases, limitations, and setup guidance.

SKILL.md
Readonly
Upstream Repository Material
The section below is adapted from the upstream repository. Use it as supporting material alongside the fit, use-case, and installation summary on this page.
Upstream Source

LLM Model Evaluation

Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.


Wann nutzen?

  • Während /init-project bei der Komplexitätsbewertung
  • Bei Kosten-Optimierung bestehender Projekte
  • Wenn neue Modelle erscheinen (regelmäßig checken)
  • Vor größeren Production-Deployments

Step 1: Use Case verstehen

Falls kein Argument übergeben, frage:

Was ist dein Use Case?

Beispiele:
• "Chat-Bot für Kundenservice" (High-Volume, schnelle Antworten)
• "Dokumenten-Analyse" (Langer Context, Reasoning)
• "Code-Generierung" (Präzision wichtig)
• "GDPR-konforme EU-App" (Compliance)
• "Budget-Projekt" (Kosten minimieren)

Step 2: Aktuelle Preise holen

WICHTIG: Preise ändern sich häufig. Hole aktuelle Daten.

2.1 Web Search für aktuelle Preise

Suche nach aktuellen Preisen mit WebSearch:

Query: "[Provider] API pricing 2026"

Für jeden Provider:

  • Anthropic Claude pricing
  • OpenAI GPT pricing
  • Google Gemini pricing
  • DeepSeek pricing
  • xAI Grok pricing
  • Mistral pricing

2.2 Pricing Endpoints (falls verfügbar)

Einige Provider haben öffentliche Pricing-Pages:

ProviderPricing URL
Anthropichttps://www.anthropic.com/pricing
OpenAIhttps://openai.com/api/pricing
Googlehttps://ai.google.dev/pricing
DeepSeekhttps://platform.deepseek.com/api-docs/pricing
Mistralhttps://mistral.ai/technology/#pricing
xAIhttps://x.ai/api

2.3 Fallback: Cached Reference

Falls Web-Fetch fehlschlägt, nutze .claude/reference/llm-configuration.md als Fallback (aber weise auf möglicherweise veraltete Daten hin).


Step 3: Modelle bewerten

3.1 Bewertungskriterien

KriteriumGewichtungBeschreibung
Kosten30%Input + Output Tokens
Qualität30%Benchmark-Scores, Erfahrungswerte
Latenz20%Time to first token, Throughput
Context10%Max Context Window
Features10%Vision, Tools, Streaming

3.2 Use Case Mapping

Use CaseWichtigUnwichtig
Chat-BotLatenz, KostenContext
Dokument-AnalyseContext, QualitätLatenz
Code-GenQualitätKosten
High-VolumeKosten, LatenzQualität
GDPRComplianceKosten

Step 4: Empfehlung ausgeben

4.1 Empfehlungs-Template

┌─────────────────────────────────────────────────────────────────────────────┐
│  LLM EVALUATION - [Use Case]                                                │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  📅 Preise Stand: [Datum der Abfrage]                                       │
│                                                                             │
│  TOP 3 EMPFEHLUNGEN:                                                        │
│                                                                             │
│  🥇 #1: [Modell]                                                            │
│      Provider: [Provider]                                                   │
│      Input:    $[X]/1M tokens                                               │
│      Output:   $[X]/1M tokens                                               │
│      Context:  [X]K                                                         │
│      Score:    [X]/100 (basierend auf Use Case)                             │
│      Warum:    [Begründung]                                                 │
│                                                                             │
│  🥈 #2: [Modell]                                                            │
│      ...                                                                    │
│                                                                             │
│  🥉 #3: [Modell]                                                            │
│      ...                                                                    │
│                                                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  KOSTEN-SCHÄTZUNG (bei 1M Requests/Monat, 1000 Tokens avg):                │
│                                                                             │
│  Modell #1: ~$[X]/Monat                                                     │
│  Modell #2: ~$[X]/Monat                                                     │
│  Modell #3: ~$[X]/Monat                                                     │
│                                                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  FALLBACK-STRATEGIE:                                                        │
│                                                                             │
│  Primary:  [Modell #1]                                                      │
│  Fallback: [Modell #2]                                                      │
│  Budget:   [Modell #3]                                                      │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

4.2 Portkey Config generieren

Falls gewünscht, generiere die Portkey-Konfiguration:

typescript
1// Empfohlene Portkey Konfiguration für [Use Case] 2const config = { 3 strategy: { 4 mode: 'fallback', 5 }, 6 targets: [ 7 { provider: '[primary]', model: '[model]' }, 8 { provider: '[fallback]', model: '[model]' }, 9 ], 10 cache: { 11 mode: 'semantic', 12 ttl: 3600, 13 }, 14};

Step 5: Dokumentation aktualisieren

Falls signifikante Preisänderungen gefunden wurden:

  1. Weise den User darauf hin
  2. Frage ob .claude/reference/llm-configuration.md aktualisiert werden soll
  3. Bei "Ja": Update die Preistabellen

Automatische Intervall-Checks

Weekly Reminder

Dieser Skill sollte regelmäßig genutzt werden:

Empfehlung: Führe /llm-evaluate monatlich aus um:
- Neue Modelle zu entdecken
- Preisänderungen zu berücksichtigen
- Kosten-Optimierung zu prüfen

Bei Projekt-Init

Während /init-project wird dieser Skill automatisch bei der Komplexitätsbewertung (Step 0.2) aufgerufen um das optimale Modell für den Use Case zu empfehlen.


Modell-Datenbank (Referenz)

Anthropic

ModellInput/1MOutput/1MContextStärken
Claude Opus 4.5$15$75200KBest reasoning
Claude Sonnet 4$3$15200KBest coding
Claude Haiku 3.5$0.25$1.25200KFast, cheap

OpenAI

ModellInput/1MOutput/1MContextStärken
GPT-4o$5$15128KMultimodal
GPT-4o-mini$0.15$0.60128KBudget GPT-4
o1$15$60200KDeep reasoning

Google

ModellInput/1MOutput/1MContextStärken
Gemini 2.0 Pro$7$211MLong context
Gemini 2.0 Flash$0.10$0.401MFast, cheap
Gemini Flash 8B$0.04$0.151MUltra cheap

DeepSeek

ModellInput/1MOutput/1MContextStärken
DeepSeek V3$0.27$1.1064KOpen-weight
DeepSeek R1$0.55$2.1964KReasoning

xAI

ModellInput/1MOutput/1MContextStärken
Grok 2$2$10128KRealtime data
Grok 2 Vision$2$1032KImage understanding

Mistral

ModellInput/1MOutput/1MContextStärken
Mistral Large$2$6128KEU-hosted
Codestral$0.30$0.90256KCode
Mistral Small$0.20$0.60128KBudget

Beispiel-Ausführung

User: /llm-evaluate Chat-Bot für Kundenservice

Claude:
┌─────────────────────────────────────────────────────────────────────────────┐
│  LLM EVALUATION - Customer Service Chat Bot                                 │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  📅 Preise Stand: Januar 2026                                               │
│                                                                             │
│  TOP 3 EMPFEHLUNGEN:                                                        │
│                                                                             │
│  🥇 #1: Claude Haiku 3.5                                                    │
│      Provider: Anthropic                                                    │
│      Input:    $0.25/1M tokens                                              │
│      Output:   $1.25/1M tokens                                              │
│      Context:  200K                                                         │
│      Score:    92/100                                                       │
│      Warum:    Schnell, günstig, gute Qualität für Chat                     │
│                                                                             │
│  🥈 #2: Gemini 2.0 Flash                                                    │
│      Provider: Google                                                       │
│      Input:    $0.10/1M tokens                                              │
│      Output:   $0.40/1M tokens                                              │
│      Context:  1M                                                           │
│      Score:    88/100                                                       │
│      Warum:    Noch günstiger, aber weniger konsistent                      │
│                                                                             │
│  🥉 #3: DeepSeek V3                                                         │
│      Provider: DeepSeek                                                     │
│      Input:    $0.27/1M tokens                                              │
│      Output:   $1.10/1M tokens                                              │
│      Context:  64K                                                          │
│      Score:    82/100                                                       │
│      Warum:    Sehr günstig, aber China-based (Compliance?)                 │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

Integration mit init-project

Dieser Skill wird automatisch während /init-project aufgerufen:

  1. User beschreibt Projekt (Step 0.1)
  2. Komplexitätsstufe wird ermittelt (Step 0.2)
  3. /llm-evaluate läuft im Hintergrund
  4. Stack-Empfehlung inkl. LLM-Empfehlung (Step 0.3)

Version: 1.0 Last Updated: January 2026

Verwandte Fähigkeiten

Looking for an alternative to LLM Evaluate or another community skill for your workflow? Explore these related open-source skills.

Alle anzeigen

openclaw-release-maintainer

Logo of openclaw
openclaw

Lokalisierte Zusammenfassung: 🦞 # OpenClaw Release Maintainer Use this skill for release and publish-time workflow. It covers ai, assistant, crustacean workflows. Claude Code, Cursor, and Windsurf workflows.

333.8k
0
Künstliche Intelligenz

widget-generator

Logo of f
f

Lokalisierte Zusammenfassung: Generate customizable widget plugins for the prompts.chat feed system # Widget Generator Skill This skill guides creation of widget plugins for prompts.chat. It covers ai, artificial-intelligence, awesome-list workflows. Claude Code

149.6k
0
Künstliche Intelligenz

flags

Logo of vercel
vercel

Lokalisierte Zusammenfassung: The React Framework # Feature Flags Use this skill when adding or changing framework feature flags in Next.js internals. It covers blog, browser, compiler workflows. Claude Code, Cursor, and Windsurf workflows.

138.4k
0
Browser

pr-review

Logo of pytorch
pytorch

Lokalisierte Zusammenfassung: Usage Modes No Argument If the user invokes /pr-review with no arguments, do not perform a review. It covers autograd, deep-learning, gpu workflows. Claude Code, Cursor, and Windsurf workflows.

98.6k
0
Entwickler