Whisper Tiny vs Medium: cosa succede quando trascrivi italiano vero

Nerd Level: 3/5
Whisper Tiny vs Medium: cosa succede quando trascrivi italiano vero

Avevo un Raspberry Pi5 in ufficio che non faceva niente. Lo avevo preso perché mi piaceva il concetto di averlo lì e costava poco.

Poi con tutto il cinema dell’AI mi è venuto in mente: ma se gli do delle orecchie? Ho preso un microfono USB da venti euro e ho iniziato a registrare le conversazioni d’ufficio in tempo reale — chunk da 30 secondi, trascritti con Whisper e mandati a un server dove Claude Code può leggerli. Gli posso chiedere “hai sentito cosa dice il cliente? puoi fare una piccola demo al volo?” e lui è già lì a montarla. Non sempre perfetta, ma la cosa funziona molto bene.

Il test

La domanda per testare il limite è stata: ma posso fare tutto nel Pi5? A/B test subito. Ho fatto girare i due modelli in parallelo sullo stesso audio per una giornata intera.

  🥧 Pi5 (tiny) 🖥️ Efesto (medium)
Dove Verbania, sulla scrivania Norimberga, datacenter
CPU ARM Cortex-A76 x86_64
Parametri 39M 769M
Tempo per 30s ~2s ~4s
Ping 0ms (è lì) 17ms
Cucina Spaghetti Würstel

Nonostante l’autarchia totale e il vantaggio del ping a zero, non è andata bene per il Pi5. Anzi, è andata malissimo in un modo talmente divertente che ho deciso di pubblicare i risultati. A voi la top 20.

I risultati

# Tiny (Pi5) Medium (Server) Contesto
1 il vocchio risultore buonese il vaporizzatore per iniziare elettrodomestici
2 a cateone per le matta le catene per le moto codice della strada
3 poter la patente di scosta la patente scaduta quiz patente
4 l’orbitazione comporta al falso la loro relazione comporta falso quiz patente
5 signare affegnato prena il segnale raffigurato preannuncia segnaletica
6 sta compranessantità da mio padre sta comprando i sanitari da mio padre sconti dal suocero
7 non ci sono più brillo non ci sono più brioche crisi del caffè
8 il caffè di la facca gare il caffè di là fa cagare escalation caffè
9 la sriscia avvianta trasversare la striscia bianca trasversale quiz patente
10 perfeggi all’estit cafferino all’ospedito visita ospedaliera
11 la ricicletta, molto retta la bicicletta, motoretta mezzi di trasporto
12 io devo fare un’essa giù del conclèo vado a farmi fare il massaggio del compleo relax
13 ti fa un minissito fuori avere ti fa un mini sito forever spiegazione tecnica
14 solo da dispositivi di qualı al piano solo dai dispositivi di quella VPN configurazione rete
15 una di piene, so che sono di piene una DPM, hai usato una DPM? disaster recovery
16 con l’imbro e stare giudano quando sei in coda, ancora davanti precedenze
17 fuori sullo autostatico semafori sull’autostrada infrastrutture
18 una volta che è il cavolo in troppo una volta che stiamo dentro organizzazione
19 e se solico perché la notica vero senso unico perché se no codice strada
20 che fa più distruttamente ha fatto discretamente ridere meta-commento

Perché

Non è colpa del tiny poverino. Ho messo a confronto un modello da 39 milioni di parametri addestrato su un centinaio di lingue — l’italiano rappresenta l’unghia del mignolo dei dati di training, e da quello che ho capito quando non sa cosa sta sentendo inventa una lingua.

Il medium ha venti volte più parametri, quindi circa 800 milioni, e becca praticamente tutto. Anche con l’audio sporco di un ufficio dove parlano in tre contemporaneamente lo leggi e capisci cosa stava succedendo.

E quindi bon, al prossimo esperimento!