Questa pagina è stata trascritta e formattata, ma deve essere riletta. |
6 - Codifica per modelli | 249 |
vocalizzati e non, una semplice classificazione è quella riportata in figura 6.29 [CeI94].
segnale | attivo | vocalizzato |
non vocalizzato | ||
inattivo |
Fig. 6.29 - Classificazione ad anello aperto.
Secondo tale classificazione il segnale vocale è suddiviso in tratti attivi (o talkspurt) e tratti inattivi (quando il parlatore non parla). L’algoritmo impiegato per questa classificazione prende il nome di VAD (Voice Activity Detector) e sarà descritto nel capitolo successivo. I tratti attivi sono poi ulteriormente suddivisi in tratti vocalizzati e tratti non-vocalizzati. Questa classificazione fa riferimento al modello di produzione del segnale vocale descritto precedentemente.
Altre classificazioni più sofisticate sono state proposte in letteratura, come quella proposta da Gersho in [Pas84] in cui il segnale è suddiviso in quattro classi principali: noise, voiced, unvoiced e onset. Onset è considerato il primo frame voiced che segue un frame unvoiced. Inoltre i frame voiced sono ulteriormente sottoclassificati in full-band e low-pass in considerazione del contenuto energetico alle diverse frequenze. Questa classificazione è stata integrata con successo in uno schema di codifica basato sulla tecnica CELP. Una classificazione ancora più diversificata è quella proposta in [Bat95] in cui il segnale vocale attivo è suddiviso nelle seguenti 5 classi: Noise, Onset, Steady-state, Decay, Periodic e Aperiodic.
Infine è interessante osservare come l’approccio di codifica basato su una classificazione possa essere esteso al caso limite in cui un sistema di comunicazione vocale è costituito da un classificatore in grado di riconoscere porzioni elementari del segnale vocale, come i fonemi o i difoni, (riconoscitore fonetico) e da un sintetizzatore che operi su una base di difoni opportuna (vedi fig. 6.30 [Car94]). In questo caso l’informazione da trasmettere è costituita dalla prosodia e dall'informazione dei difoni impiegati e si può stimare attorno ai 300 bit/s.