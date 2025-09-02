Honor ha annunciato nei giorni scorsi il debutto del primo on-device large speech model su HONOR Magic V5. Il risultato è presentato dall’azienda cinese come soluzione alle principali sfide tecniche nel campo del riconoscimento e della traduzione vocale multilingue sui dispositivi, tra cui i principali progressi nel riconoscimento vocale in streaming a bassa latenza e la distribuzione efficiente di modelli su larga scala.

Il dilemma della privacy e delle prestazioni

Le attuali soluzioni di traduzione mainstream dipendono fortemente dall’infrastruttura cloud, sollevando notevoli problemi di privacy, soprattutto per le conversazioni sensibili come le telefonate. Sebbene alcune soluzioni esistenti sul mercato tentino di risolvere questo problema, spesso compromettono in modo significativo le prestazioni, tra cui la velocità, l’accuratezza e l’occupazione della memoria, a causa delle limitazioni dei dispositivi mobili.

A detta di Honor la sua nuova tecnologia supera queste limitazioni, offrendo un’esperienza paragonabile a quella del cloud direttamente sul dispositivo, promettendo privacy solida e prestazioni superiori.

Due ricerche correlate sono state premiate durante INTERSPEECH 2025, conferenza mondiale sulla scienza e la tecnologia dell’elaborazione del linguaggio parlato.

Honor aggiunge le pause per trascrivere meglio il parlato

Il primo articolo della ricerca, “MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition”, affronta la sfida di ottenere un riconoscimento vocale in streaming a bassa latenza e alta precisione sui dispositivi. ‘Lintegrazione di un sensore basato su CIF (Continuous Integrate-and-Fire) con la strategia Wait-k è un punto di forza. Mentre le strategie Wait-k tradizionali funzionano bene per attività più semplici come la traduzione automatica, la loro applicazione diretta al riconoscimento vocale automatico (ASR) è limitata dalla natura continua del parlato, con conseguenti costi computazionali elevati.

HONOR ha introdotto un predittore basato sul meccanismo CIF. Questo predittore mappa esplicitamente le caratteristiche acustiche continue alle decisioni di confine discrete richieste dalla strategia Wait-k, adattando questo approccio a bassa latenza dal dominio del testo a quello del parlato.

In parole povere:

Il problema di fondo è capire e trascrivere mentre una persona parla , senza aspettare che finisca la frase, ma anche senza fare errori.

“Wait-k”: è una regola semplice (“aspetta un pochino e poi inizia a scrivere”), che funziona bene sui testi, ma con l’audio è più difficile perché il parlato è continuo , non ha spazi netti tra le parole.

CIF è come un “conta-battiti” che guarda il suono e decide dove probabilmente finisce una parola .

L’idea di HONOR è utilizzare il CIF per trasformare il flusso audio continuo in punti-di-taglio discreti (quasi come aggiungere gli spazi) così la strategia Wait-k può lavorare anche con la voce. Si arriva così alla trascrizione quasi in tempo reale sul dispositivo, con meno calcoli sprecati.

Honor traduce i testi con una doppia scala per essere più efficiente

Il secondo articolo, “Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation“, supera i limiti dell’inferenza in tempo reale per discorsi di grandi dimensioni su dispositivi con risorse limitate. Questa caratteristica introduce una strategia di accelerazione del campionamento speculativo a doppia scala, sviluppata in collaborazione con la Shanghai Jiao Tong University, che può essere implementata direttamente su dispositivi e promette la possiblità di ottenere un aumento del 38% della velocità di inferenza senza compromettere le prestazioni del modello.

In parole povere:

Il problema qui sta nel tradurre discorsi lunghi in varie lingue subito e su dispositivi con ridotta capacità di elaborazione (smartphone, auricolari, ecc.).

La soluzione sta nell’utilizzare un trucco di “campionamento speculativo a doppia scala” . Si parte da un modello piccolo e veloce che “butta giù una bozza” della traduzione. Un modello più grande controlla e corregge dove serve. “Doppia scala” è un sistema che analizza sia blocchi ridotti (il dettaglio) sia blocchi più lunghi (contesto) per procedere più spedito.

Come effetto pratico si ottiene fino a circa il 38% di velocità in più nell’uscita della traduzione, senza perdere qualità, e si può far girare direttamente sul dispositivo).

Riduzione dei consumi della memoria nella comunicazione on-device

Honor riferisce di una efficienza della memoria, riducendo l’ingombro da 3-4 GB a soli 800 MB, con un risparmio del 75% della memoria. Questo include l’integrazione di sei pacchetti linguistici (cinese, inglese, tedesco, francese, spagnolo e italiano), eliminando la necessità di sei download separati da 500 MB e risparmiando circa 2,78 GB di memoria.

La tecnologia consente la traduzione in tempo reale “speak-as-you-go”, un progresso significativo rispetto ai metodi tradizionali che richiedono di attendere il completamento di un’intera frase, con un aumento, come abbiamo detto, del 38% della velocità di elaborazione e del 16% dell’accuratezza della traduzione.