Whisper, la trascrizione da voce a testo è open source e multilingua

26 Set 2022

Whisper è una IA per il riconoscimento vocale open source e multilingua — Foto di Soundtrap su Unsplash

Il riconoscimento della voce continua a essere un problema complesso per le Intelligenze Artificiali e l’apprendimento automatico: un passo avanti verso la soluzione di questo problema è rappresentato da Whisper, un sistema di riconoscimento vocale automatico in grado di funzionare senza connessione a Internet e server, e che gli sviluppatori affermano in grado di consentire “solide” trascrizioni in più lingue così come traduzioni da queste ultime in inglese.

Centinaia di aziende hanno sviluppato sistemi più o meno validi di riconoscimento vocale, fulcro di software e servizi quali quelli offerti da Apple, Google, Amazon e Meta ma ciò che rende Whisper differente è che si tratta di una IA addestrata con 680.000 ore di voci multilingue e dati multitask raccolti dal web, elementi che hanno portato a migliorare il riconoscimento di accenti distintivi, rumori di sottofondo e gergo tecnico.

TechCrunch spiega che i principali utilizzatori ai quali è destinato Whisper sono i ricercatori che lavorano nell’ambito dell’IA che devono tenere conto di robustezza, generalizzazione, funzionalità, bias (elementi di distorsioni dei campioni), e vincoli degli attuali modelli”, spiega OpenAI nel repository GitHub di Whisper dove è possibile scaricare varie versioni, evidenziando il possibile uso anche in sistemi di riconoscimento vocali automatici utili per il riconoscimento della lingua inglese.

Il modello evidenzia un punteggio elevato in una decina di lingua rispetto ad altri sistemi di Automatic Speech Recognition (ASR), tecnologia che permette di trascrivere i discorsi pronunciati oralmente, e può essere “tarato” su determinati task quali il rilevamento di attività che richiedono la voce, la classificazione del parlato, la segmentazione dell’audio, ecc.

L’IA denominata Whisper ha limiti in ambiti quali la predizione del testo, altri dettati dai modelli usati per l’addestramento, ma le funzionalità di trascrizione sembrano promettenti e permetterebbero già ora di migliorare gli strumenti esistenti dedicati all’accessibilità.

Per tutti gli articoli che parlano di Intelligenza Artificiale è possibile partire da questa pagina di macitynet.

Le migliori offerte BLACK FRIDAY con macitynet.it

Articolo precedente

Apple, la nuova sede Battersea a Londra apre nel 2023

Articolo successivo

SBS compra Puro, nasce un colosso italiano negli accessori

Whisper, la trascrizione da voce a testo è open source e multilingua

Offerte Apple e Tecnologia

Le migliori offerte BLACK FRIDAY con macitynet.it

Ultimi articoli

Rapporto sull’affidabilità delle auto elettriche, 500e promossa e Tesla bocciatissima

Apple, in pensione Lisa Jackson e Katherine Adams

Disservizio internet, non farti fregare! Ecco quando puoi chiedere il rimborso per l’assenza di linea in casa

Google Maps, la parola magica per scaricare le mappe offline

Minimo storico: quattro Airtag Apple al minimo, solo 79 euro

iPhone Air non lo vuole nessuno, nè da nuovo nè da usato

Offerte Amazon 4 dicembre: Apple, Samsung, HP, Philips, DJI, Ecovacs, LG, Xiaomi – aggiornato

I migliori supporti per iPad e tablet

Dicembre di fuoco su Apple Arcade, le novità da non perdere da Naruto a Cult of the Lamb

Spazzolino elettrico stile Oral-B con 8 testine incluse a meno di 7 €

Le ricerche degli italiani su Google nel 2025

iPhone 17 Pro perde una funzione storica

Whisper, la trascrizione da voce a testo è open source e multilingua

Offerte Apple e Tecnologia

Le migliori offerte BLACK FRIDAY con macitynet.it

Altri articoli

Ultimi articoli