VIBE Framework
Plugin open source per Claude Code che indaga sistematicamente i modi di fallimento del codice AI-generato in produzione: 22 vincoli meccanici, 11 agenti di audit in contesti isolati, 14 skill di dominio. Ogni componente validato empiricamente, revocabile.
Sfida
Il codice generato da AI in produzione ha modi di fallimento sistematici e poco discussi: sicofanzia che diventa errore tecnico, citazioni file:linea fabbricate dal modello, prototipi che superano la demo e cedono al primo edge case, perdita delle correzioni dell'utente tra sessioni. Sono problemi del modello, non dell'utente — e non si correggono affinando i prompt.
Approccio
- Otto skill di dominio: security (Heimdall), testing con 8 persona Playwright (Emmet), UI con vincoli anti-AI-pattern (Seurat), SEO+GEO (Ghostwriter), CRO con benchmark competitor (Baptist), video programmatici (Orson), documenti Office+PDF (Scribe), meta-skill per creare e auditare skill (Forge)
- 22 hook handler distribuiti su 9 eventi del ciclo di vita di Claude Code, scritti come regex ed exit code. Quattro categorie di intervento: anti-derive retoriche (rhetoric guard 87 pattern, oracle gate per claim file:linea, side-effect verify, pragmatic priming), sicurezza e scope (blocco a livello shell di comandi distruttivi e di force push, scope-guard cross-project, scan post-edit su 31 pattern di credenziali e injection), disciplina di lettura (read-discipline, read-before-edit), qualità del codice (lint, complexity watch, ADR surface)
- Undici agenti: 4 general-purpose (reviewer, researcher, decomposer per atomic decomposition, pragmatic) e 7 domain audit, in worktree isolate con memoria persistente in `.claude/agent-memory/` — la separazione di contesto è il controllo sperimentale del self-review bias
- Audit orchestrator (`/vibe:audit`): delta analysis tra audit successivi, regression detection, proposta di project-rule quando lo stesso issue ricorre 3+ volte
- Per-skill empirical model assignment: Opus 4.7 / Opus 4.6 / Sonnet 4.6 / Haiku 4.5 in base ai benchmark A/B in cieco (Tessl-style 880-eval). Validazione ripetuta a ogni release; rotazione quando i numeri smettono di reggere
- Protocollo di ricerca competitor condiviso tra Ghostwriter, Seurat e Baptist su 5 lingue di default (EN, ZH, ES, PT, FR), 11 con `--global`, cache 30 giorni
- Componenti rimossi nel ciclo 5.x dopo audit dei loro file di output reali (correction-capture, auto-dream, tips-engine, cost-tracker): 19 giorni di dati, 50% di FP, zero consolidamenti — la rimozione è parte della metodologia
- 309 test automatizzati su struttura plugin, skill, agenti, hook (sicurezza, lint, scan, complexity watch, oracle gate, ADR surface, Grep/Glob enrichment), 31 pattern di sicurezza, frontmatter, scope-guard, migrazione v1
Risultati
Framework open source rilasciato come plugin Claude Code, MIT, alla v5.7.0 dal 2 maggio 2026. Indaga sistematicamente i modi di fallimento del codice AI-generato in produzione — sicofanzia, citazioni fabbricate, derive retoriche, amnesia tra sessioni, regressioni di sicurezza — con vincoli meccanici, audit in contesti isolati, e validazione empirica per ogni componente. La revocabilità delle scelte è parte della metodologia.
La generazione di codice via interazione con un modello linguistico — il vibe coding — è oggi la modalità di scrittura software a più rapida diffusione. I suoi modi di fallimento, meno discussi della sua diffusione, sono sistematici: sicofanzia che diventa errore tecnico, citazioni file:linea non corrispondenti alla tool call effettiva della sessione, prototipi che superano la demo e cedono al primo edge case in produzione, perdita delle correzioni dell'utente tra sessioni successive.
VIBE Framework è un'indagine sistematica su una domanda specifica: quali vincoli meccanici, interposti tra un modello linguistico e il codice che produce in produzione, riducono questi modi di fallimento in modo verificabile. L'ipotesi sottostante è che la riduzione non si ottenga affinando i prompt — che il modello può ignorare — ma installando gates: regex, exit code, agenti che valutano l'output in contesti isolati. Il framework è la materializzazione di quell'ipotesi: plugin open source per Claude Code, MIT, alla v5.7.0 dal 2 maggio 2026, con benchmark fixture pubblici (tests/model-validation/) che ne misurano la tenuta a ogni release.
Tre principi orientano la metodologia, costanti dalla v3. Intelligence di mercato al posto di ipotesi: la ricerca competitor — su 5 lingue di default (EN, ZH, ES, PT, FR), 11 con --global — precede la generazione di copy, design o disegno di funnel di conversione. Disciplina di processo al posto di conoscenza: le skill non aggiungono conoscenza al modello — la conosce già — ma impongono passaggi di ragionamento misurabili (modeling dell'audience, generazione di opzioni multiple, detection di pattern anti-AI) prima della consegna. Quality gate meccanici: 22 hook regex/exit-code distribuiti su 9 eventi del ciclo di vita di Claude Code. La validazione è continua: nel ciclo 5.x quattro hook di versioni precedenti (correction-capture, auto-dream, tips-engine, cost-tracker) sono stati rimossi dopo audit dei loro file di output reali — 19 giorni di dati, 50% di falsi positivi, zero consolidamenti. La capacità di revocare componenti che non reggono il dato è parte della metodologia.
I vincoli sono specifici e misurabili. Un hook intercetta le citazioni file:linea non presenti nelle tool call della sessione e blocca. Un altro cattura le promesse di scrittura ("salvo X") non seguite dall'invocazione effettiva. Un terzo impedisce a una sessione scoped a un progetto di leggere file .env di progetti vicini. Un quarto, alla terza ripetizione di errore consecutivo, forza la replanificazione invece del retry. In parallelo, undici agenti — quattro general-purpose, sette domain audit — operano in worktree isolate con memoria persistente: la separazione di contesto funziona come controllo sperimentale, il reviewer che non ha visto l'implementazione non può confermare il proprio bias di self-review. L'orchestratore /vibe:audit confronta audit successivi, identifica regressioni, propone project-rule quando lo stesso issue ricorre 3+ volte. L'assegnazione del modello per skill — Opus 4.7 per i task creativi, Sonnet 4.6 per l'esecuzione strutturata, Haiku 4.5 per la ricerca ad alto volume — è validata a ogni release tramite benchmark A/B in cieco con rubrica Tessl-style su 880 valutazioni: una scelta empirica, revocabile quando i numeri smettono di reggere.