Apple ha pubblicato un nuovo articolo nel suo Machine Learning Journal, spiegando nel dettaglio il funzionamento di “Hey Siri” e del Deep Neural Network (DNN).
“Hey Siri”. Non si tratta di una funzionalità banale bensì di un sensore vocale specializzato che trasforma la voce in un flusso di campioni con forma d’onda.
Apple spiega che il microfono di iPhone “Trasforma la tua voce in un flusso di campioni di forme d’onda istantanee, con un tasso di 16.000 onde al secondo” prima che il rilevatore presente sul dispositivo decida se l’utente sta effettivamente richiamando Siri. In pratica, lo stadio di analisi dello spettro converte il flusso voce in forme d’onda, con uno spettro sonoro di circa 0,01 secondi. Circa venti di questi fotogrammi alla volta (0,2 secondi di audio) vengono trasmessi alla rete neurale che converte questi modelli acustici in un insieme di classi vocali: quelle utilizzate nella frase “Hey Siri”, più il silenzio successivo ed eventuali altri suoni, per un totale di 20 classi.
Se il risultato supera la soglia minima ma non quella superiore, Siri non verrà attivata ma entrerà in una fase di sensibilità aumentata, in attesa di un secondo comando di conferma. Questo, in unione ad una serie di parametri e specifiche fonetiche basate su vari linguaggi, idiomi ed accenti, integrati nello sviluppo di Siri, serve a ridurre le probabilità di falsi positivi.
Apple continua a migliorare costantemente questa funzione, con meccanismi di training e test in vari ambienti, in più lingue e in varie condizioni.
Per migliorare ulteriormente l’esperienza di utilizzo, Apple invita anche gli utenti ad effettuare una breve calibratura ripetendo una serie di frasi in modo tale da evitare l’attivazione da parte di utenti estranei.