Questa pagina è stata trascritta e formattata, ma deve essere riletta. |
252 | Codifica numerica del segnale audio |
L’operazione di adattamento della soglia di confronto è piuttosto elaborata ed è rappresentata dal diagramma di flusso riportato in figura 6.32.
Senza entrare in dettagli, tale operazione consiste nel modificare il valore della soglia per i tratti che si suppone siano relativi a voce non attiva. Tale evento è stimato dalle seguenti condizioni:
- l’energia del segnale è molto bassa (in tal caso la soglia è posta pari al valore minimo, plev);
oppure:
- lo spettro del segnale vocale è stazionario, il segnale non contiene una componente periodica e il segnale non contiene sinusoidi relative a toni di informazione della rete.
Nel primo caso i coefficienti del filtro adattativo non vengono aggiornati mentre nel secondo si. La stazionarietà del segnale è stimata calcolando il rapporto LHR (Likelihood Ratio) [Gra76] tra i coefficienti del filtro corrente e quello mediato sulle ultime quattro trame. Quando la distorsione spettrale LHR è inferiore ad una soglia fissa, il segnale è considerato stazionario. La determinazione della presenza di una componente periodica è agevolato dalla presenza dei valori del pitch calcolati nell'algoritmo RPE-LTP ogni 5 ms. La stima è effettuata considerando le relazioni tra i quattro valori relativi ad un frame da 20 ms.
La stima della presenza di toni di informazione è effettuata valutando il guadagno di predizione (rapporto tra l’energia del segnale e l’energia del segnale residuo). Quando il guadagno di predizione è inferiore ad una certa soglia (13.5 dB), si suppone non siano presenti toni. Tuttavia, in considerazione del fatto che il rumore veicolare può anche avere picchi di risonanza tali da consentire un forte guadagno di predizione, qualora il guadagno sia maggiore, si verifica anche che la frequenza del primo polo sia maggiore di 385 Hz, non esistendo toni di segnalazione a frequenza inferiore.
L’adattamento della soglia consiste nell'incremento o decremento di una quota percentuale secondo le relazioni riportate nel diagramma di flusso di figura 6.32.
Infine, onde evitare che le pause intersillabiche siano esclude dai periodi di attività, oppure che code di segnale vengano tagliate, la decisione di voce attiva viene mantenuta per un periodo pari a 5 trame (100 ras). Tale periodo prende il nome di hangover e viene aggiunto solo nei casi in cui il VAD abbia rivelato voce attiva per almeno 3 trame consecutive. Questo accorgimento