Qu’est-ce que llm-evaluate ?

Scenario recommande: Ideal for AI agents that need llm model evaluation. Resume localise: AI Agent Starter Kit - Production-ready boilerplate for AI-powered applications with Next.js, Mastra, Convex, and n8n # LLM Model Evaluation Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.

Comment installer llm-evaluate ?

Exécutez la commande : npx killer-skills add lucidlabs-hq/lucidlabs-agent-kit. Elle fonctionne avec Cursor, Windsurf, VS Code, Claude Code et plus de 19 autres IDE.

Quels IDE sont compatibles avec llm-evaluate ?

Cette skill est compatible avec Cursor, Windsurf, VS Code, Trae, Claude Code, OpenClaw, Aider, Codex, OpenCode, Goose, Cline, Roo Code, Kiro, Augment Code, Continue, GitHub Copilot, Sourcegraph Cody, and Amazon Q Developer. Utilisez la CLI Killer-Skills pour une installation unifiée.

Y a-t-il des limites pour llm-evaluate ?

Limitation: Requires repository-specific context from the skill documentation. Limitation: Works best when the underlying tools and dependencies are already configured.

LLM Model Evaluation

Name: llm-evaluate
Availability: InStock
Author: lucidlabs-hq

Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.

Wann nutzen?

Während /init-project bei der Komplexitätsbewertung
Bei Kosten-Optimierung bestehender Projekte
Wenn neue Modelle erscheinen (regelmäßig checken)
Vor größeren Production-Deployments

Step 1: Use Case verstehen

Falls kein Argument übergeben, frage:

Was ist dein Use Case?

Beispiele:
• "Chat-Bot für Kundenservice" (High-Volume, schnelle Antworten)
• "Dokumenten-Analyse" (Langer Context, Reasoning)
• "Code-Generierung" (Präzision wichtig)
• "GDPR-konforme EU-App" (Compliance)
• "Budget-Projekt" (Kosten minimieren)

Step 2: Aktuelle Preise holen

WICHTIG: Preise ändern sich häufig. Hole aktuelle Daten.

2.1 Web Search für aktuelle Preise

Suche nach aktuellen Preisen mit WebSearch:

Query: "[Provider] API pricing 2026"

Für jeden Provider:

Anthropic Claude pricing
OpenAI GPT pricing
Google Gemini pricing
DeepSeek pricing
xAI Grok pricing
Mistral pricing

2.2 Pricing Endpoints (falls verfügbar)

Einige Provider haben öffentliche Pricing-Pages:

Provider	Pricing URL
Anthropic	https://www.anthropic.com/pricing
OpenAI	https://openai.com/api/pricing
Google	https://ai.google.dev/pricing
DeepSeek	https://platform.deepseek.com/api-docs/pricing
Mistral	https://mistral.ai/technology/#pricing
xAI	https://x.ai/api

2.3 Fallback: Cached Reference

Falls Web-Fetch fehlschlägt, nutze .claude/reference/llm-configuration.md als Fallback (aber weise auf möglicherweise veraltete Daten hin).

Step 3: Modelle bewerten

3.1 Bewertungskriterien

Kriterium	Gewichtung	Beschreibung
Kosten	30%	Input + Output Tokens
Qualität	30%	Benchmark-Scores, Erfahrungswerte
Latenz	20%	Time to first token, Throughput
Context	10%	Max Context Window
Features	10%	Vision, Tools, Streaming

3.2 Use Case Mapping

Use Case	Wichtig	Unwichtig
Chat-Bot	Latenz, Kosten	Context
Dokument-Analyse	Context, Qualität	Latenz
Code-Gen	Qualität	Kosten
High-Volume	Kosten, Latenz	Qualität
GDPR	Compliance	Kosten

Step 4: Empfehlung ausgeben

4.1 Empfehlungs-Template

┌─────────────────────────────────────────────────────────────────────────────┐
│  LLM EVALUATION - [Use Case]                                                │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  📅 Preise Stand: [Datum der Abfrage]                                       │
│                                                                             │
│  TOP 3 EMPFEHLUNGEN:                                                        │
│                                                                             │
│  🥇 #1: [Modell]                                                            │
│      Provider: [Provider]                                                   │
│      Input:    $[X]/1M tokens                                               │
│      Output:   $[X]/1M tokens                                               │
│      Context:  [X]K                                                         │
│      Score:    [X]/100 (basierend auf Use Case)                             │
│      Warum:    [Begründung]                                                 │
│                                                                             │
│  🥈 #2: [Modell]                                                            │
│      ...                                                                    │
│                                                                             │
│  🥉 #3: [Modell]                                                            │
│      ...                                                                    │
│                                                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  KOSTEN-SCHÄTZUNG (bei 1M Requests/Monat, 1000 Tokens avg):                │
│                                                                             │
│  Modell #1: ~$[X]/Monat                                                     │
│  Modell #2: ~$[X]/Monat                                                     │
│  Modell #3: ~$[X]/Monat                                                     │
│                                                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  FALLBACK-STRATEGIE:                                                        │
│                                                                             │
│  Primary:  [Modell #1]                                                      │
│  Fallback: [Modell #2]                                                      │
│  Budget:   [Modell #3]                                                      │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

4.2 Portkey Config generieren

Falls gewünscht, generiere die Portkey-Konfiguration:

typescript
1// Empfohlene Portkey Konfiguration für [Use Case]
2const config = {
3  strategy: {
4    mode: 'fallback',
5  },
6  targets: [
7    { provider: '[primary]', model: '[model]' },
8    { provider: '[fallback]', model: '[model]' },
9  ],
10  cache: {
11    mode: 'semantic',
12    ttl: 3600,
13  },
14};

Step 5: Dokumentation aktualisieren

Falls signifikante Preisänderungen gefunden wurden:

Weise den User darauf hin
Frage ob .claude/reference/llm-configuration.md aktualisiert werden soll
Bei "Ja": Update die Preistabellen

Automatische Intervall-Checks

Weekly Reminder

Dieser Skill sollte regelmäßig genutzt werden:

Empfehlung: Führe /llm-evaluate monatlich aus um:
- Neue Modelle zu entdecken
- Preisänderungen zu berücksichtigen
- Kosten-Optimierung zu prüfen

Bei Projekt-Init

Während /init-project wird dieser Skill automatisch bei der Komplexitätsbewertung (Step 0.2) aufgerufen um das optimale Modell für den Use Case zu empfehlen.

Modell-Datenbank (Referenz)

Anthropic

Modell	Input/1M	Output/1M	Context	Stärken
Claude Opus 4.5	$15	$75	200K	Best reasoning
Claude Sonnet 4	$3	$15	200K	Best coding
Claude Haiku 3.5	$0.25	$1.25	200K	Fast, cheap

OpenAI

Modell	Input/1M	Output/1M	Context	Stärken
GPT-4o	$5	$15	128K	Multimodal
GPT-4o-mini	$0.15	$0.60	128K	Budget GPT-4
o1	$15	$60	200K	Deep reasoning

Google

Modell	Input/1M	Output/1M	Context	Stärken
Gemini 2.0 Pro	$7	$21	1M	Long context
Gemini 2.0 Flash	$0.10	$0.40	1M	Fast, cheap
Gemini Flash 8B	$0.04	$0.15	1M	Ultra cheap

DeepSeek

Modell	Input/1M	Output/1M	Context	Stärken
DeepSeek V3	$0.27	$1.10	64K	Open-weight
DeepSeek R1	$0.55	$2.19	64K	Reasoning

xAI

Modell	Input/1M	Output/1M	Context	Stärken
Grok 2	$2	$10	128K	Realtime data
Grok 2 Vision	$2	$10	32K	Image understanding

Mistral

Modell	Input/1M	Output/1M	Context	Stärken
Mistral Large	$2	$6	128K	EU-hosted
Codestral	$0.30	$0.90	256K	Code
Mistral Small	$0.20	$0.60	128K	Budget

Beispiel-Ausführung

User: /llm-evaluate Chat-Bot für Kundenservice

Claude:
┌─────────────────────────────────────────────────────────────────────────────┐
│  LLM EVALUATION - Customer Service Chat Bot                                 │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  📅 Preise Stand: Januar 2026                                               │
│                                                                             │
│  TOP 3 EMPFEHLUNGEN:                                                        │
│                                                                             │
│  🥇 #1: Claude Haiku 3.5                                                    │
│      Provider: Anthropic                                                    │
│      Input:    $0.25/1M tokens                                              │
│      Output:   $1.25/1M tokens                                              │
│      Context:  200K                                                         │
│      Score:    92/100                                                       │
│      Warum:    Schnell, günstig, gute Qualität für Chat                     │
│                                                                             │
│  🥈 #2: Gemini 2.0 Flash                                                    │
│      Provider: Google                                                       │
│      Input:    $0.10/1M tokens                                              │
│      Output:   $0.40/1M tokens                                              │
│      Context:  1M                                                           │
│      Score:    88/100                                                       │
│      Warum:    Noch günstiger, aber weniger konsistent                      │
│                                                                             │
│  🥉 #3: DeepSeek V3                                                         │
│      Provider: DeepSeek                                                     │
│      Input:    $0.27/1M tokens                                              │
│      Output:   $1.10/1M tokens                                              │
│      Context:  64K                                                          │
│      Score:    82/100                                                       │
│      Warum:    Sehr günstig, aber China-based (Compliance?)                 │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

Integration mit init-project

Dieser Skill wird automatisch während /init-project aufgerufen:

User beschreibt Projekt (Step 0.1)
Komplexitätsstufe wird ermittelt (Step 0.2)
/llm-evaluate läuft im Hintergrund
Stack-Empfehlung inkl. LLM-Empfehlung (Step 0.3)

Version: 1.0 Last Updated: January 2026

llm-evaluate — for Claude Code llm-evaluate, lucidlabs-agent-kit, community, for Claude Code, ide skills, init-project, Evaluation, Evaluiert, LLM-Modelle, basierend

À propos de ce Skill

Fonctionnalités

# Sujets clés

Skill Overview

Pourquoi utiliser cette compétence

Meilleur pour

↓ Cas d'utilisation exploitables for llm-evaluate

! Sécurité et Limitations

About The Source

Browser Sandbox Environment

⚡️ Ready to unleash?

FAQ et étapes d’installation

? Questions fréquentes