VIBE Framework | TORA NO AI

Sfida

Il codice generato da AI in produzione ha modi di fallimento sistematici e poco discussi: sicofanzia che diventa errore tecnico, citazioni file:linea fabbricate dal modello, prototipi che superano la demo e cedono al primo edge case, perdita delle correzioni dell'utente tra sessioni. Sono problemi del modello, non dell'utente — e non si correggono affinando i prompt.

Approccio

Otto skill di dominio: security (Heimdall), testing con 8 persona Playwright (Emmet), UI con vincoli anti-AI-pattern (Seurat), SEO+GEO (Ghostwriter), CRO con benchmark competitor (Baptist), video programmatici (Orson), documenti Office+PDF (Scribe), meta-skill per creare e auditare skill (Forge)

22 hook handler distribuiti su 9 eventi del ciclo di vita di Claude Code, scritti come regex ed exit code. Quattro categorie di intervento: anti-derive retoriche (rhetoric guard 87 pattern, oracle gate per claim file:linea, side-effect verify, pragmatic priming), sicurezza e scope (blocco a livello shell di comandi distruttivi e di force push, scope-guard cross-project, scan post-edit su 31 pattern di credenziali e injection), disciplina di lettura (read-discipline, read-before-edit), qualità del codice (lint, complexity watch, ADR surface)

Undici agenti: 4 general-purpose (reviewer, researcher, decomposer per atomic decomposition, pragmatic) e 7 domain audit, in worktree isolate con memoria persistente in `.claude/agent-memory/` — la separazione di contesto è il controllo sperimentale del self-review bias

Audit orchestrator (`/vibe:audit`): delta analysis tra audit successivi, regression detection, proposta di project-rule quando lo stesso issue ricorre 3+ volte

Per-skill empirical model assignment: Opus 4.7 / Opus 4.6 / Sonnet 4.6 / Haiku 4.5 in base ai benchmark A/B in cieco (Tessl-style 880-eval). Validazione ripetuta a ogni release; rotazione quando i numeri smettono di reggere

Protocollo di ricerca competitor condiviso tra Ghostwriter, Seurat e Baptist su 5 lingue di default (EN, ZH, ES, PT, FR), 11 con `--global`, cache 30 giorni

Componenti rimossi nel ciclo 5.x dopo audit dei loro file di output reali (correction-capture, auto-dream, tips-engine, cost-tracker): 19 giorni di dati, 50% di FP, zero consolidamenti — la rimozione è parte della metodologia

309 test automatizzati su struttura plugin, skill, agenti, hook (sicurezza, lint, scan, complexity watch, oracle gate, ADR surface, Grep/Glob enrichment), 31 pattern di sicurezza, frontmatter, scope-guard, migrazione v1

Risultati

Framework open source rilasciato come plugin Claude Code, MIT, alla v5.7.0 dal 2 maggio 2026. Indaga sistematicamente i modi di fallimento del codice AI-generato in produzione — sicofanzia, citazioni fabbricate, derive retoriche, amnesia tra sessioni, regressioni di sicurezza — con vincoli meccanici, audit in contesti isolati, e validazione empirica per ogni componente. La revocabilità delle scelte è parte della metodologia.

La generazione di codice via interazione con un modello linguistico — il vibe coding — è oggi la modalità di scrittura software a più rapida diffusione. I suoi modi di fallimento, meno discussi della sua diffusione, sono sistematici: sicofanzia che diventa errore tecnico, citazioni file:linea non corrispondenti alla tool call effettiva della sessione, prototipi che superano la demo e cedono al primo edge case in produzione, perdita delle correzioni dell'utente tra sessioni successive.

VIBE Framework è un'indagine sistematica su una domanda specifica: quali vincoli meccanici, interposti tra un modello linguistico e il codice che produce in produzione, riducono questi modi di fallimento in modo verificabile. L'ipotesi sottostante è che la riduzione non si ottenga affinando i prompt — che il modello può ignorare — ma installando gates: regex, exit code, agenti che valutano l'output in contesti isolati. Il framework è la materializzazione di quell'ipotesi: plugin open source per Claude Code, MIT, alla v5.7.0 dal 2 maggio 2026, con benchmark fixture pubblici (tests/model-validation/) che ne misurano la tenuta a ogni release.

Tre principi orientano la metodologia, costanti dalla v3. Intelligence di mercato al posto di ipotesi: la ricerca competitor — su 5 lingue di default (EN, ZH, ES, PT, FR), 11 con --global — precede la generazione di copy, design o disegno di funnel di conversione. Disciplina di processo al posto di conoscenza: le skill non aggiungono conoscenza al modello — la conosce già — ma impongono passaggi di ragionamento misurabili (modeling dell'audience, generazione di opzioni multiple, detection di pattern anti-AI) prima della consegna. Quality gate meccanici: 22 hook regex/exit-code distribuiti su 9 eventi del ciclo di vita di Claude Code. La validazione è continua: nel ciclo 5.x quattro hook di versioni precedenti (correction-capture, auto-dream, tips-engine, cost-tracker) sono stati rimossi dopo audit dei loro file di output reali — 19 giorni di dati, 50% di falsi positivi, zero consolidamenti. La capacità di revocare componenti che non reggono il dato è parte della metodologia.

I vincoli sono specifici e misurabili. Un hook intercetta le citazioni file:linea non presenti nelle tool call della sessione e blocca. Un altro cattura le promesse di scrittura ("salvo X") non seguite dall'invocazione effettiva. Un terzo impedisce a una sessione scoped a un progetto di leggere file .env di progetti vicini. Un quarto, alla terza ripetizione di errore consecutivo, forza la replanificazione invece del retry. In parallelo, undici agenti — quattro general-purpose, sette domain audit — operano in worktree isolate con memoria persistente: la separazione di contesto funziona come controllo sperimentale, il reviewer che non ha visto l'implementazione non può confermare il proprio bias di self-review. L'orchestratore /vibe:audit confronta audit successivi, identifica regressioni, propone project-rule quando lo stesso issue ricorre 3+ volte. L'assegnazione del modello per skill — Opus 4.7 per i task creativi, Sonnet 4.6 per l'esecuzione strutturata, Haiku 4.5 per la ricerca ad alto volume — è validata a ogni release tramite benchmark A/B in cieco con rubrica Tessl-style su 880 valutazioni: una scelta empirica, revocabile quando i numeri smettono di reggere.