Questo sito contiene link di affiliazione per cui può essere compensato

Home » Hi-Tech » Internet » Honor, come funziona la tecnologia vocale diretta sul Magic V5

Honor, come funziona la tecnologia vocale diretta sul Magic V5

Honor ha annunciato nei giorni scorsi il debutto del primo on-device large speech model su HONOR Magic V5. Il risultato è presentato dall’azienda cinese come soluzione alle principali sfide tecniche nel campo del riconoscimento e della traduzione vocale multilingue sui dispositivi, tra cui i principali progressi nel riconoscimento vocale in streaming a bassa latenza e la distribuzione efficiente di modelli su larga scala.

Il dilemma della privacy e delle prestazioni

Le attuali soluzioni di traduzione mainstream dipendono fortemente dall’infrastruttura cloud, sollevando notevoli problemi di privacy, soprattutto per le conversazioni sensibili come le telefonate. Sebbene alcune soluzioni esistenti sul mercato tentino di risolvere questo problema, spesso compromettono in modo significativo le prestazioni, tra cui la velocità, l’accuratezza e l’occupazione della memoria, a causa delle limitazioni dei dispositivi mobili.

A detta di Honor la sua nuova tecnologia supera queste limitazioni, offrendo un’esperienza paragonabile a quella del cloud direttamente sul dispositivo, promettendo privacy solida e prestazioni superiori.

Honor, la tecnologia vocale on device sul Magic V5 - macitynet.it

Due ricerche correlate sono state premiate durante INTERSPEECH 2025, conferenza mondiale sulla scienza e la tecnologia dell’elaborazione del linguaggio parlato.

Honor aggiunge le pause per trascrivere meglio il parlato

Il primo articolo della ricerca, “MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition”, affronta la sfida di ottenere un riconoscimento vocale in streaming a bassa latenza e alta precisione sui dispositivi. ‘Lintegrazione di un sensore basato su CIF (Continuous Integrate-and-Fire) con la strategia Wait-k è un punto di forza. Mentre le strategie Wait-k tradizionali funzionano bene per attività più semplici come la traduzione automatica, la loro applicazione diretta al riconoscimento vocale automatico (ASR) è limitata dalla natura continua del parlato, con conseguenti costi computazionali elevati.

HONOR ha introdotto un predittore basato sul meccanismo CIF. Questo predittore mappa esplicitamente le caratteristiche acustiche continue alle decisioni di confine discrete richieste dalla strategia Wait-k, adattando questo approccio a bassa latenza dal dominio del testo a quello del parlato.

In parole povere:

  • Il problema di fondo è capire e trascrivere mentre una persona parla, senza aspettare che finisca la frase, ma anche senza fare errori.

  • “Wait-k”: è una regola semplice (“aspetta un pochino e poi inizia a scrivere”), che funziona bene sui testi, ma con l’audio è più difficile perché il parlato è continuo, non ha spazi netti tra le parole.

  • CIF è come un “conta-battiti” che guarda il suono e decide dove probabilmente finisce una parola.

  • L’idea di HONOR è utilizzare il CIF per trasformare il flusso audio continuo in punti-di-taglio discreti (quasi come aggiungere gli spazi) così la strategia Wait-k può lavorare anche con la voce. Si arriva così alla trascrizione quasi in tempo reale sul dispositivo, con meno calcoli sprecati.

Honor traduce i testi con una doppia scala per essere più efficiente

Il secondo articolo, “Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation“, supera i limiti dell’inferenza in tempo reale per discorsi di grandi dimensioni su dispositivi con risorse limitate. Questa caratteristica introduce una strategia di accelerazione del campionamento speculativo a doppia scala, sviluppata in collaborazione con la Shanghai Jiao Tong University, che può essere implementata direttamente su dispositivi e promette la possiblità di ottenere un aumento del 38% della velocità di inferenza senza compromettere le prestazioni del modello.

In parole povere:

  • Il problema qui sta nel tradurre discorsi lunghi in varie lingue subito e su dispositivi con ridotta capacità di elaborazione (smartphone, auricolari, ecc.).

  • La soluzione sta nell’utilizzare un trucco di “campionamento speculativo a doppia scala”.

    • Si parte da un modello piccolo e veloce che “butta giù una bozza” della traduzione.

    • Un modello più grande controlla e corregge dove serve.

    • “Doppia scala” è un sistema che analizza sia blocchi ridotti (il dettaglio) sia blocchi più lunghi (contesto) per procedere più spedito.

  • Come effetto pratico si ottiene fino a circa il 38% di velocità in più nell’uscita della traduzione, senza perdere qualità, e si può far girare direttamente sul dispositivo).

Riduzione dei consumi della memoria nella comunicazione on-device

Honor riferisce di una efficienza della memoria, riducendo l’ingombro da 3-4 GB a soli 800 MB, con un risparmio del 75% della memoria. Questo include l’integrazione di sei pacchetti linguistici (cinese, inglese, tedesco, francese, spagnolo e italiano), eliminando la necessità di sei download separati da 500 MB e risparmiando circa 2,78 GB di memoria.

La tecnologia consente la traduzione in tempo reale “speak-as-you-go”, un progresso significativo rispetto ai metodi tradizionali che richiedono di attendere il completamento di un’intera frase, con un aumento, come abbiamo detto, del 38% della velocità di elaborazione e del 16% dell’accuratezza della traduzione.

Offerte Apple e Tecnologia

Le offerte dell'ultimo minuto le trovi nel nostro canale Telegram

I consigli per i tuoi regali

CTA Natale iGuida [per Settimio] - macitynet.it
iGuide per i regali di Natale - macitynet.it

Regali di Natale e fine anno: i nostri consigli

Ogni anno testiamo le ultime novità del mercato, per poi raccogliere in articoli dedicati i migliori prodotti per ogni categoria. Queste guide, che aggiorniamo periodicamente, non solo vi permettono di migliorare la vostra attrezzatura ma, visto il periodo, diventano anche un ottimo spunto da cui partire per fare un regalo coi fiocchi ai propri cari.

A tal proposito le trovate organizzate qui sotto per tipologia, così da facilitarvi ulteriormente la ricerca del Regalo Perfetto. Le guide vengono modificate di continuo e fino a Natale vedrete man mano aggiungersi quelle che aggiorneremo.

Partiamo dai migliori:

Apple

iPhone e Smartphone

iPad e tablet

Mac e PC

Apple Watch e Smartwatch

Fotografia e Creatività

Viaggiaresmart

Audio e Video

Intrattenimento

Vita in casa

Pubblicità
Pubblicità

Ultimi articoli