Pagina:Codifica numerica del segnale audio.djvu/267


6 - Codifica per modelli 249

vocalizzati e non, una semplice classificazione è quella riportata in figura 6.29 [CeI94].

segnale attivo vocalizzato
non vocalizzato
inattivo

Fig. 6.29 - Classificazione ad anello aperto.


Secondo tale classificazione il segnale vocale è suddiviso in tratti attivi (o talkspurt) e tratti inattivi (quando il parlatore non parla). L’algoritmo impiegato per questa classificazione prende il nome di VAD (Voice Activity Detector) e sarà descritto nel capitolo successivo. I tratti attivi sono poi ulteriormente suddivisi in tratti vocalizzati e tratti non-vocalizzati. Questa classificazione fa riferimento al modello di produzione del segnale vocale descritto precedentemente.

Altre classificazioni più sofisticate sono state proposte in letteratura, come quella proposta da Gersho in [Pas84] in cui il segnale è suddiviso in quattro classi principali: noise, voiced, unvoiced e onset. Onset è considerato il primo frame voiced che segue un frame unvoiced. Inoltre i frame voiced sono ulteriormente sottoclassificati in full-band e low-pass in considerazione del contenuto energetico alle diverse frequenze. Questa classificazione è stata integrata con successo in uno schema di codifica basato sulla tecnica CELP. Una classificazione ancora più diversificata è quella proposta in [Bat95] in cui il segnale vocale attivo è suddiviso nelle seguenti 5 classi: Noise, Onset, Steady-state, Decay, Periodic e Aperiodic.

Infine è interessante osservare come l’approccio di codifica basato su una classificazione possa essere esteso al caso limite in cui un sistema di comunicazione vocale è costituito da un classificatore in grado di riconoscere porzioni elementari del segnale vocale, come i fonemi o i difoni, (riconoscitore fonetico) e da un sintetizzatore che operi su una base di difoni opportuna (vedi fig. 6.30 [Car94]). In questo caso l’informazione da trasmettere è costituita dalla prosodia e dall'informazione dei difoni impiegati e si può stimare attorno ai 300 bit/s.