Codifica numerica del segnale audio/Capitolo 1
Questo testo è completo. |
◄ | Prefazione | Capitolo 2 | ► |
1
IL SEGNALE AUDIO
La trasmissione (in tempo reale o meno) del segnale audio è necessaria per lo sfruttamento dell’informazione ad esso associata a soggetti non presenti nel luogo dove è situata la sorgente. Il sistema utilizzato per tale trasferimento nel seguito viene indicato come canale audio. Nel caso in cui il segnale audio sia un segnale vocale, il sistema utilizzato per la sua trasmissione viene indicato come canale telefonico.
Il segnale audio consiste in variazioni di pressione in funzione del tempo e, per essere trasmesso tramite un sistema di comunicazione, richiede innanzitutto la sua trasformazione in segnale elettrico analogico (trasduzione). Per la trasmissione di tale segnale analogico, si può o meno ricorrere ad una sua trasformazione in un flusso numerico (conversione Analogico/Digitale). I vantaggi di una trasmissione numerica sono ben noti (maggiore robustezza agli errori di trasmissione, minore criticità delle apparecchiature, predisposizione all'elaborazione numerica, ecc.) come è ben noto lo svantaggio principale: una banda considerevolmente superiore a quella richiesta dal segnale analogico. A fronte di questo inconveniente è necessario individuare opportune tecniche di compressione a cui assoggettare il flusso emesso dalla sorgente.
È auspicabile che tutte le trasformazioni utilizzate (trasduzione, conversione A/D, compressione) siano tali che le inevitabili degradazioni dell’informazione scambiata risultino “non apprezzabili”. Per far questo è necessario, che il canale audio abbia caratteristiche (essenzialmente banda e dinamica) migliori di quelle rilevabili dal destinatario dell’informazione trasmessa: l’apparato uditivo. Inoltre, nel caso in cui il segnale scambiato abbia caratteristiche inferiori a quelle potenzialmente utilizzabili dalla destinazione, come nella telefonia, le specifiche sul canale possono essere, ovviamente, rese meno stringenti. Per meglio comprendere i vincoli sul canale, dunque, è necessario analizzare sia le caratteristiche del destinatario dell’informazione trasmessa (l' apparato uditivo). Inoltre, per quel sottoinsieme del segnale audio relativo ai segnali vocali, che costituiscono la grande maggioranza dei segnali considerati nei sistemi di comunicazione tradizionali, risulta essenziale conoscere le caratteristiche della sorgente del segnale stesso (l’ apparato vocale).
La percezione del suono avviene tramite due fasi. La prima fase è relativa alla trasformazione da parte dell’orecchio del suono da variazioni di pressione in impulsi nervosi, mentre la seconda fase è relativa all'interpretazione dello stimolo nervoso da parte del cervello. La fase di interpretazione assume un’importanza relativa maggiore man mano che il suono diventa via via più degradato, cioè sottoposto ad alterazioni che ne alterano le caratteristiche rispetto all'originale (es.: distorsioni, limitazioni di banda, ecc.). Questo crescente ruolo dell’interpretazione si manifesta con un crescente affaticamento del ricevente, un indice della qualità della trasmissione [Bon91].
Per studiare le caratteristiche della traduzione del suono da parte dell’orecchio e comprenderne i meccanismi, è necessario innanzitutto analizzarne la struttura. L’orecchio può essere scomposto in tre parti distinte: l’orecchio esterno, l’orecchio medio e l’orecchio interno (fig. 1.1).
L’orecchio esterno è formato dal padiglione e dal condotto uditivo. La funzione principale del padiglione è relativa alla localizzazione della sorgente. La posizione dei padiglioni permette di ottenere una buona risoluzione nel semipiano orizzontale posto di fronte all'ascoltatore (cioè, posizione della sorgente a destra o a sinistra dell’ascoltatore stesso). A tal fine vengono sfruttate essenzialmente le differenze temporali e di livello dei suoni percepiti da ciascun orecchio. La testa dell’ascoltatore, infatti, risulta trasparente per suoni a frequenza inferiore al kHz. Considerando, quindi, segnali a frequenza inferiore a tale soglia e fissata la velocità del suono a circa 340 m/s, per una sorgente posta sulla linea congiungente le due orecchie, la distanza tra i Fig. 1.1 - Struttura dell’apparato uditivo. padiglioni si traduce in un ritardo di circa 500 μs tra i segnali da esse rilevati. Tale ritardo si manifesta come una differenza di fase tra il segnale rilevato dall'orecchio destro rispetto a quello rilevato dal sinistro, permettendo la localizzazione della sorgente. Per i segnali a frequenza maggiore di un kHz, invece, la testa dell’ascoltatore costituisce un ostacolo, che provoca un’attenuazione del segnale rilevato dall'orecchio sul lato opposto a quello dove è posizionata la sorgente. La localizzazione della sorgente, quindi, è possibile sfruttando la differenza di livello tra i segnali destro e sinistro.
Le differenze di fase e di livello tra i segnali destro e sinistro non permettono di localizzare una sorgente sul piano verticale passante di fronte, al di sopra e dietro l’ascoltatore (piano mediano). A tal fine vengono, invece, sfruttate le riflessioni prodotte dai rilievi presenti sul padiglione dell’ascoltatore. Tali riflessioni, che sono generate da parte della conca per i suoni frontali e dall'antitrago per quelli che provengono dall'alto, risultano in opposizione di fase con il suono incidente. Ciò introduce degli zeri nella funzione di trasferimento dell’orecchio esterno a frequenze dipendenti dall'entità del ritardo del suono riflesso su quello incidente. Ad esempio, nel caso di due sorgenti, una frontale ed una perfettamente perpendicolare all'ascoltatore, date le distanze tra l’ingresso del condotto uditivo e le pareti della conca e dell'antitrago di circa 13 e 6 mm rispettivamente, il ritardo τ (relativo a percorsi di 26 e 12 mm) è rispettivamente di circa 75 e 35 μs. Gli zeri della funzione di trasferimento che cadono nella banda audio (posti a multipli dispari di l/2τ) sono dunque a circa 7 e 20 kHz per la sorgente frontale e a 14 kHz per la sorgente perpendicolare all'ascoltatore. La localizzazione della sorgente sul piano mediano può, quindi, avvenire tramite lo spettro del segnale e sfruttando la presenza di tali zeri nella funzione di trasferimento.
Il secondo componente dell’orecchio esterno, il condotto uditivo, è un canale, approssimativamente circolare, aperto dalla parte del padiglione e chiuso all'altro estremo dal timpano. Nell'adulto la sua larghezza è di circa 0.7 cm, con una lunghezza di circa 2.7 cm. Un terzo del canale uditivo (quello esterno) è di natura cartilaginea, mentre i due terzi interni sono ossei. II punto a sezione minore è nella congiunzione tra parte cartilaginea ed ossea (istmo) per cui la sua sezione è, in realtà, a forma di due coni riuniti per il loro apice tronco. Il condotto permette alle onde di pressione di raggiungere gli organi interni dell’orecchio con una funzione di trasferimento che, però, non risulta piatta in frequenza. Infatti, in un condotto chiuso ad una estremità ed aperto dall'altra, si instaurano risonanze che interessano segnali aventi lunghezza d’onda multipla di quattro volte la lunghezza del canale. Dalle dimensioni del condotto si ricava che la sua prima risonanza si ha per segnali a frequenza di circa 3 kHz. In conseguenza, per segnali a tale frequenza si ha un guadagno acustico tra ingresso del canale e timpano (e quindi un massimo di sensibilità) che può raggiungere i 10 dB.
Il condotto uditivo termina sul timpano, che è l’organo che separa l’orecchio esterno dall'orecchio medio. L’orecchio medio è costituito da una cavità di circa 2 cm³ (cassa del timpano) che racchiude la catena degli ossicini (martello, incudine e staffa). La cassa del timpano (contenente aria) è limitata da un lato dal timpano e dall'altro dalle strutture dell’orecchio interno. La pressione al suo interno è regolata dalla tuba di Eustachio, che la collega alla gola. Il timpano è responsabile della trasduzione del suono da variazioni di pressione a lavoro meccanico. Esso è costituito da una membrana cartilaginea, leggermente ellittica, di circa 9 mm di diametro. Le vibrazioni prodotte sul timpano dalle onde di pressione incidenti sono trasmesse dagli ossicini verso l’orecchio interno. Tramite un effetto leva da parte degli ossicini, ma soprattutto grazie alla differenza di superfici tra timpano e punto di appoggio sulla coclea (finestra ovale), la trasmissione meccanica avviene con un guadagno in pressione di circa 15 volte.
Anche la funzione di trasferimento degli ossicini non è piatta, ma presenta una risonanza nell'intorno del kHz. Inoltre, gli ossicini sono tra loro vincolati tramite piccoli muscoli. II primo di questi (tensore del timpano) è collegato al martello ed ha essenzialmente la funzione di tendere il timpano, al quale il martello stesso è connesso. Il secondo legamento (stapedio) è collegato alla giunzione tra incudine e staffa, regolando la sensibilità dell’orecchio. Infatti, al fine di evitare danni dovuti a sovra pressioni, lo stapedio irrigidisce tale giunzione in presenza di eccitazioni di livello superiore di 85 dB rispetto al livello minimo udibile. Questo meccanismo ha tempi di intervento che sono tra 50 e 150 ms e tempi di rilassamento di alcuni secondi. Esso, quindi, pur riducendo la sensibilità dell’udito in presenza di segnali a livelli elevati, non è purtroppo in grado di evitare i danni che possono essere prodotti da suoni impulsivi, anche se di livello modesto.
La coclea costituisce l’orecchio interno ed è responsabile della generazione degli stimoli nervosi da parte dell’orecchio verso il cervello. Essa è composta da un canale spiraliforme lungo circa 35 mm e composto longitudinalmente da tre cavità: la scala vestibolare, la scala timpanica e la scala media. La scala vestibolare e scala timpanica, se sviluppate linearmente, hanno entrambe una struttura approssimativamente conica (fig. 1.2), con una sezione iniziale (dal lato dell’orecchio medio) di 4 mm² e finale di 1 mm². Queste due cavità sono comunicanti nella parte a sezione minore (elicotrema), mentre nell'estremità a sezione maggiore sono terminate da due membrane: la scala vestibolare termina con la finestra ovale (sulla quale si appoggia la staffa), mentre la scala timpanica termina con la finestra tonda. In esse è contenuto un liquido viscoso (perilinfa) che fa si che le vibrazioni trasmesse dalla finestra ovale le attraversino interamente fino a provocare moti complementari sulla finestra tonda.
La scala media è responsabile della rilevazione dei suoni. Essa è formata da una cavità a sezione crescente man mano che ci si allontana dall'orecchio medio e contenente, anch'essa, un liquido (endolinfa). La scala media si appoggia alla scala vestibolare e a quella timpanica tramite due membrane, che sono rispettivamente la membrana di Reissner e la membrana basilare. Sulla membrana basilare è disposto l’organo del Corti, responsabile della generazione degli stimoli nervosi. L’organo del Corti è costituito da circa 30000 organi sensibili (celle cigliate) disposte longitudinalmente lungo 4 file (fig. 1.2). Una di queste file (celle cigliate interne) è posizionata all'interno del vertice formato dalla congiunzione delle tre scale e ad essa è collegata la maggioranza delle terminazioni del nervo acustico (sinapsi). Le rimanenti file (celle cigliate esterne) sono raggruppate in una posizione più centrale della membrana basilare. Al di sopra delle celle cigliate vi è un’ulteriore membrana gelatinosa (membrana tettoriale), interna alla scala media, che è solidale alla struttura ossea della coclea e che si estende a coprire le celle cigliate stesse. Fig. 1.2 - Struttura della coclea. Il meccanismo di rilevazione dei suoni si basa sulle risonanze della membrana basilare provocate dai flussi interni alle scale vestibolari e timpaniche. La membrana basilare è più rigida e sottile verso il timpano e più spessa verso l’estremità apicale. Le sue caratteristiche di risonanza, dunque, variano in funzione della distanza dalla staffa. Analizzando il comportamento della membrana basilare a segnali sinusoidali puri isolati (toni), si nota come questi provochino delle risonanze con un inviluppo che cresce progressivamente in ampiezza allontanandosi dall'orecchio medio e, dopo aver raggiunto un massimo, diminuisce bruscamente man mano che si prosegue verso l'elicotrema. La posizione del massimo sulla membrana basilare dipende dalla frequenza del segnale, allontanandosi dalla staffa al diminuire della frequenza del segnale (fig. 1.3). Tali oscillazioni (fortemente smorzate) fanno flettere le celle cigliate disposte tra la membrana basilare (mobile) e la membrana tettoriale (fissa). La compressione subita dalle ciglia aumenta la loro conducibilità, con una conseguente diminuzione della loro tensione interna. Tale variazione di potenziale provoca un’attivazione delle sinapsi del nervo acustico che producono stimoli nervosi verso il cervello. Le scariche di potenziale derivanti dall'attività delle sinapsi si trasformano in tal caso, da un’attività spontanea inferiore alle 100 scariche al secondo, in treni di scariche in corrispondenza degli istanti di maggiore compressione delle celle. Fig. 1.3 - Inviluppo delle risonanze indotte sulla membrana basilare da toni a differente frequenza. Il suono è, in definitiva, rilevato nelle sue componenti di ampiezza e frequenza tramite l’intensità degli impulsi nervosi emessi dalle celle cigliate e tramite la posizione nell'organo del Corti delle celle attive. L’attività delle celle, infatti, è funzione della posizione e dell’ampiezza e delle vibrazioni indotte sulla membrana basilare che, a loro volta, misurano la frequenza ed il livello delle componenti armoniche del suono. Descritto il meccanismo di rilevazione dei suoni, risulta più agevole dare una spiegazione intuitiva alle prestazioni dell’udito sia in termini di sensibilità che di selettività. La caratterizzazione della sensibilità dell’udito al livello del segnale avviene tramite diagrammi audiometrici (fig. 1.4). Tali diagrammi sono costituiti da famiglie di curve isofoniche. Esse esprimono l’andamento della potenza di un tono di prova, al variare della sua frequenza, affinché l’intensità sonora percepita si mantenga costante e pari a quella di un tono di 1 kHz di livello fissato. Un incremento nella curva isofonica, quindi, è indice di una minore capacità uditiva e viceversa per una sua riduzione. La scala adottata per tali curve è logaritmica (dB) in quanto l’intensità sonora percepita cresce in proporzione logaritmica con l’intensità fisica del suono: una variazione di 3 dB della potenza del segnale porta, in media, a variazioni di intensità appena percepibili, mentre una variazione di 10 dB genera una sensazione di raddoppio del livello del suono. Fig. 1.4 - Audiogramma. Nell’analisi di tali curve è necessario premettere che esse risultano molto variabili da soggetto a soggetto e, nello stesso soggetto, variano con le condizioni di affaticamento e negli anni. Analizzando i diagrammi audiometrici, comunque, si osserva che la sensibilità dell’udito al livello del segnale non è costante, ma dipende sia dalla frequenza che dal livello stesso. Per segnali di potenza elevata, le curve isofoniche sono relativamente piatte nella banda da 20 a 20000 Hz. Al diminuire del livello del segnale, le curve isofoniche accentuano la presenza di un massimo di sensibilità nell’intorno dei 3 kHz, dovuto alle risonanze presenti nell’orecchio medio ed esterno. Il più basso livello sonoro udibile viene indicato come soglia di udibilità statica. Tale livello di riferimento, posto a 0 dB, è standardizzato dall’ISO ad una pressione di 10-12W/m2 per un segnale di frequenza pari ad un kHz. Il massimo livello utile viene indicato come “soglia del dolore.” Con suoni di livello maggiore di quest’ultimo si rischiano danni irreversibili all’orecchio. Il valore della soglia del dolore è approssimativamente di 120 dB, corrispondente ad una potenza di circa 1 W. Per avere un’idea della potenza di tale segnale, si pensi che una normale conversazione tra due persone produce un segnale di circa 60 dB. Se si pensa che l’orecchio percepisce i segnali di livello prossimo alla soglia di udibilità con spostamenti del martello di frazioni di angstrom (10-8 cm), paragonabili al diametro dell’atomo di idrogeno, si ha anche un’idea di quanto sofisticato sia il meccanismo di trasduzione dell’apparato uditivo.
Altra caratteristica importante, oltre alla sensibilità dell’apparato uditivo al livello del segnale, è la sua risoluzione in frequenza o selettività. Essa è definita come la capacità di scomporre un segnale complesso nelle sue componenti spettrali. Per comprendere i meccanismi legati alla selettività può essere utile fare un parallelo tra il funzionamento dell’apparato uditivo con quello di uno strumento di misura. Come si è visto, la rilevazione delle componenti spettrali del segnale è legata alla rilevazione della posizione dei massimi di risonanza della membrana basilare. Se si introduce per la coclea il concetto dì precisione nella misura della posizione di tali massimi, dovrebbe risultare evidente come non sia possibile rilevate variazioni di frequenza inferiori alla precisione dello strumento stesso. In pratica, l’apparato uditivo non è in grado di rilevare variazioni sulla posizione di un massimo di risonanza all’interno di un intervallo la cui ampiezza è dell’ordine del millimetro. Per valutare come tale indeterminazione si traduca in termini di frequenze, è necessario innanzitutto osservare che la posizione “x” del massimo di risonanza sulla membrana non varia linearmente con la frequenza “f". Approssimativamente il loro legame è esprimibile come [Kin82]
(1.1) |
Per tale non linearità del mappaggio tra ascissa e frequenza, l’indeterminazione sulla posizione dei massimi di risonanza in un intervallo di ampiezza costante al variare della frequenza, si traduce in un’indeterminazione sulla frequenza dei segnali all'interno di una banda di ampiezze crescenti all'aumentare della frequenza del segnale stesso. Approssimativamente, l’ampiezza di tali bande può essere posta pari al 20% della loro frequenza centrale. Noto che un’ottava corrisponde ad un intervallo di frequenze gli estremi del quale sono in rapporto 2:1, tali bande hanno una spaziatura pari a circa 1/3 d’ottava. Di conseguenza, la risoluzione dell’apparato uditivo non è costante in frequenza, ma si riduce all'aumentare di questa e ciò giustifica l’utilizzo di scale logaritmiche per essa in acustica. Infatti anche il legame tra l’altezza del suono percepito e la frequenza del segnale è non lineare, ma può essere approssimato come [Del93]
(1.2) |
L’unità di misura della grandezza in uscita da tale relazione è il mel. Ulteriore parametro da tenere in conto nell'analisi della selettività in frequenza, è la sua dipendenza dal livello del segnale. Infatti, dato che l’ampiezza dell’intervallo di risonanza aumenta all'aumentare del livello del segnale, la risoluzione peggiora all'aumentare del livello stesso.
L’analisi della sensibilità al livello del segnale e della selettività in frequenza dell’apparato uditivo è particolarmente importante in quanto da essi dipendono l’esistenza di fenomeni di mascheramento. Il mascheramento consiste nell'impossibilità di percepire componenti del segnale in presenza di componenti di maggiore potenza posti (nel tempo ed in frequenza) in loro prossimità. Nel caso di segnali di elevata potenza che precedono temporalmente dei segnali deboli (all'interno di un intervallo di circa 15 ms) si parla di mascheramento in avanti. Per segnali mascheranti che seguono (all'interno di un intervallo di circa 2 ms) segnali deboli, si parla di mascheramento all'indietro. Nel caso in cui le componenti sotto esame siano contemporaneamente presenti nel segnale, ma in zone spettrali differenti, si parla di mascheramento simultaneo. Il mascheramento simultaneo può essere pensato, al pari della selettività, come una manifestazione della precisione della coclea nel processo di trasduzione del segnale audio. È infatti evidente come non sia possibile risolvere come distinti dei picchi di risonanza relativi a due componenti spettrali se la loro distanza è inferiore alla selettività della coclea. Di conseguenza, essi vengono fusi in un unico massimo, sulla posizione del quale ha maggiore influenza la componente a potenza maggiore.
I primi tentativi fatti per un’analisi quantitativa del mascheramento ricorrevano ad una modellizzazione dell’apparato uditivo come banco di filtri passabanda ideali, detti filtri uditivi. La tecnica utilizzata per ricavare le bande di tali filtri si basa sull'analisi del mascheramento prodotto su di un tono isolato da parte di rumore bianco filtrato passa banda (fig. 1.5). L’ipotesi alla base del procedimento è che il mascheramento dipenda dal rapporto tra l’energia del Fig. 1.5 - Costruzione della caratteristica di un filtro uditivo. segnale mascherato e l’energia di quella parte dello spettro di potenza del segnale mascherante che cade all'interno dello stesso filtro uditivo nel quale è compreso il segnale. Per rilevare la caratteristica dei filtri uditivi, quindi, si può utilizzare un segnale sinusoidale e del rumore bianco con densità spettrale fissata. Allargando progressivamente la banda del rumore nell’intorno della frequenza del segnale mascherato, la potenza che contribuisce al mascheramento aumenta progressivamente, fino a che la banda del rumore stesso non supera la banda del filtro cercato. Superato tale valore l’efficacia del mascheramento non varia. Nella procedura indicata non risultano fissati i livelli del segnale mascherante e del mascherato. Per essi si fa l’ipotesi che il rapporto tra la potenza del segnale e quella del rumore che cade nella banda del filtro uditivo nel momento in cui il segnale mascherante ha il sopravvento sia costante e pari ad uno.
Le bande dei filtri uditivi, dette bande critiche, corrispondono ad intervalli della membrana basilare di ampiezza approssimativamente pari a 1.3 mm. Tale ampiezza è utilizzata come unità di misura dell’ascissa lungo la membrana basilare ed è definita bark. Le frequenze centrali “f” e le ampiezze “b” delle bande critiche sono riportate nella seguente tabella
bark | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
f(Hz) | 50 | 150 | 250 | 350 | 450 | 570 | 700 | 840 | 1000 | 1170 | 1370 | 1600 |
b(Hz) | 100 | 100 | 100 | 100 | 110 | 120 | 140 | 150 | 160 | 190 | 210 | 240 |
bark | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 |
f(Hz) | 1850 | 2150 | 2500 | 2900 | 3400 | 4000 | 4800 | 5800 | 7000 | 8500 | 10500 | 13500 |
b(Hz) | 280 | 320 | 380 | 450 | 550 | 700 | 900 | 1100 | 1300 | 1800 | 2500 | 3500 |
Tab. 1.1 - Frequenze centrali e ampiezze delle bande critiche.
In realtà, il modello dell’apparato uditivo presentato è notevolmente semplificato. Innanzitutto non esiste un unico banco di filtri centrati su
frequenze prefissate, ma sarebbe necessario considerare per ciascun segnale un filtro centrato sulla sua frequenza. Inoltre i filtri uditivi non risultano né ideali, né lineari e possono esistere complesse interazioni tra componenti non appartenenti alla stessa banda. Per ulteriori approfondimenti su questi aspetti si rimanda alla bibliografia [Moo89]. Per migliorare il modello utilizzato per il mascheramento, è necessario definire la caratteristica di un generico filtro uditivo centrato su ciascuna componente spettrale del segnale. La caratteristica che se ne ricava [Moo89] ha un massimo abbastanza arrotondato, posizionato alla frequenza della componente spettrale e presenta un decadimento esponenziale a partire da esso. Una buona approssimazione della caratteristica si ottiene tramite la funzione
(1.3) |
che viene comunemente indicata come roexp(p) (rounded exponential). In tale espressione g rappresenta la frequenza normalizzata
(1.4) |
mentre p è un parametro che fissa la selettività del filtro (maggiore all'aumentare del valore di p); tali filtri risultano a banda crescente al crescere della frequenza centrale.
Si fa presente come anche tale modello sia semplificato. Infatti la caratteristica del filtro che si ottiene dalla roexp(p) è simmetrica, mentre quella dei filtri uditivi è generalmente asimmetrica, con un’attenuazione maggiore alle alte frequenze per i livelli inferiori dei segnali e viceversa per i livelli superiori. Inoltre, si hanno anche altre deviazioni della caratteristica reale dalla roexp(p) per le alterazioni introdotte dalla funzione di trasferimento dell’orecchio medio ed esterno ai livelli inferiori del segnale. Anche per questi aspetti si rimanda alla bibliografia citata [Moo89].
La rilevazione della caratteristica dei filtri uditivi è necessaria per valutare quantitativamente l’impatto che il mascheramento ha sulla sensibilità dell’apparato uditivo. II mascheramento, infatti, si manifesta come un innalzamento del livello della soglia di udibilità nell'intorno della frequenza dei segnali mascheranti. La curva che si ottiene in tal modo è detta soglia di udibilità dinamica ed il contributo dei singoli segnali mascheranti è descritto da corrispondenti caratteristiche di mascheramento (fig. 1.6). Come le caratteristiche dei filtri uditivi siano legate alle caratteristiche di mascheramento può essere compreso facendo riferimento alla rilevazione sperimentalmente della soglia di udibilità dinamica. Fig. 1.6 - Costruzione di una caratteristica di mascheramento a partire da filtri uditivi. Una possibile tecnica è quella di ricorrere ad un segnale mascherante a frequenza e livello fissati, registrando il livello minimo udibile di segnali di prova a frequenza variabile. Il segnale mascherante è solitamente rumore a banda limitata, mentre il segnale mascherato è un tono sinusoidale. È intuitivo pensare che il contributo al mascheramento dei segnali di prova da parte del mascherante sia proporzionale all'uscita dei relativi filtri uditivi. Fissata la potenza del segnale mascherante, l’entità del mascheramento per un segnale ad una data frequenza si può pensare proporzionale all'ampiezza che la caratteristica del relativo filtro uditivo assume alla frequenza centrale del segnale mascherante. L’andamento della caratteristica di mascheramento è quindi ricavabile per punti considerando una famiglia di filtri uditivi, ricavando per ciascuno di essi il livello alla frequenza del segnale mascherante e riportando tale livello alla frequenza centrale del filtro stesso [Moo89]. Dato che le caratteristiche dei filtri uditivi hanno banda crescente al crescere della frequenza centrale, le intersezioni risultano maggiori per le frequenze più elevate che non per le frequenze minori. Di conseguenza, la caratteristica di mascheramento risulta asimmetrica, con il ramo a frequenza maggiore che presenta una pendenza minore rispetto a quella del ramo a frequenza minore.
Se si considera come segnale mascherante un tono sinusoidale, le caratteristiche cambiano leggermente. In tale caso, infatti, si presentano battimenti che, con le loro variazioni periodiche di livello, possono rivelare la presenza dei segnali mascherati. Le caratteristiche di mascheramento che si ottengono in questo caso, evidenziano il contributo dei battimenti con dei minimi in corrispondenza di multipli della frequenza del segnale mascherante (fig. 1.7). Fig. 1.7 - Effetto mascherante di un tono di 1200 Hz ad ampiezze differenti. Ricavate le caratteristiche di mascheramento, la soglia di udibilità dinamica si ricava semplicemente come somma tra la soglia di udibilità statica e le caratteristiche dei vari segnali mascheranti (fig. 1.8). Come mostrato nel seguito, l’innalzamento della soglia di udibilità dovuto al mascheramento è utilizzabile in codifica, tramite l’impiego di modelli percettivi, al fine di ridurre l’irrilevanza del segnale audio. I fenomeni di mascheramento fin qui analizzati sono relativi a coppie di segnali. Nel caso di ascolto di un segnale audio in presenza di rumore ambientale bianco, invece, il mascheramento simultaneo precedentemente descritto si traduce in un innalzamento uniforme della soglia di udibilità di circa 20 dB al di sopra del livello del rumore stesso. Ciò è facilmente spiegabile se si pensa al contributo complessivo del rumore scomposto nel contributo delle sue componenti spettrali. Oltre al mascheramento, è opportuno infine presentare un ulteriore fenomeno dell’apparato uditivo, che è quello della ricostruzione della fondamentale. Questo fenomeno si manifesta nell'ascolto simultaneo di coppie di toni sinusoidali puri di frequenza differente, nel qual caso oltre ad essi si percepisce un terzo tono (fisicamente assente) la cui frequenza è tale da poter interpretare i due segnali generati come sue armoniche adiacenti. Ciò avviene a causa della non linearità della funzione di trasferimento dell’orecchio che provoca, durante la trasmissione del segnale verso la coclea, la generazione (per distorsione di intermodulazione) delle componenti con frequenze a combinazioni intere di quelle dei due segnali. Tale fenomeno risulta utile nei sistemi trasmissivi, dove i segnali vengono comunemente filtrati per eliminare la porzione inferiore della banda. Le componenti spettrali a frequenza inferiore, però, possono contenere informazioni essenziali dal punto di vista della qualità in quanto, ad esempio, legate alla fondamentale del segnale vocale. In tal caso, il fenomeno della ricostruzione della fondamentale permette di limitare la perdita di qualità derivante dal filtraggio passa alto, grazie alla ricostruzione della fondamentale stessa da parte delle sue armoniche a frequenze maggiore.
Fig. 1.8 - Soglia di udibilità dinamica.Nello studio del segnale vocale è opportuno considerare il parlato come concatenazione di suoni elementari, detti fonemi. Il numero necessario a rappresentare tutti i suoni caratteristici di un determinato linguaggio dipende dal linguaggio stesso. In particolare, per la lingua italiana sono stati catalogati 34 fonemi. Nella generazione dei differenti fonemi da parte dell’apparato vocale è necessario distinguere due aspetti che sono il tipo di sorgente utilizzata per generare il flusso d’aria che produce il fonema (eccitazione) e le trasformazioni che l’eccitazione subisce nell'attraversamento del cavo orale (fig. 1.9). Fig. 1.9 - Tratto vocale. A secondo del tipo di eccitazione è possibile distinguere tra fonemi vocalizzati e non vocalizzati. I fonemi vocalizzati sono legati principalmente alla pronuncia delle vocali. Come eccitazione per tali suoni si utilizzano gli impulsi prodotti dall'apertura e chiusura periodica delle corde vocali a seguito del loro attraversamento da parte dal flusso d’aria proveniente dai polmoni (fig. 1.10). Analizzando l’andamento della pressione generata del flusso d’aria prodotto dalle corde vocali, si vede che questa è una funzione periodica (indipendente dal fonema emesso) con forma d’onda approssimativamente triangolare asimmetrica (con tempo di salita maggiore del tempo di discesa) e con un tempo di apertura che varia dal 30% al 70% del periodo T. Indicando con τ1 e τ2 rispettivamente la durata del ramo crescente e decrescente della forma d’onda, una sua approssimazione analitica è ottenibile come [Rab78]
(1.5) |
alla quale corrisponde uno spettro che, essendo, l’eccitazione periodica, è a righe equispaziate in frequenza di un valore pari alla fondamentale del segnale {pitch). A causa della differente lunghezza delle corde vocali, la fondamentale dell’eccitazione varia nell'intorno dei 125 Hz per la voce maschile, mentre ha frequenza doppia per quella femminile. Fissato il parlatore, le variazioni nella fondamentale dell’eccitazione sono principalmente legate all'intonazione. Per quanto riguarda l’inviluppo dello spettro, questo decade esponenzialmente con la frequenza di circa 12 dB/ottava. Fig. 1.10 - Caratteristiche dell’eccitazione per suoni vocalizzati.
Data la non stazionarietà del segnale vocale, è necessario precisare che l’analisi in frequenza deve essere eseguita su segmenti di segnale limitati in un intervallo temporale all'interno del quale la sorgente può essere approssimata come quasi stazionaria. La voce, in generale, è considerabile un segnale quasi stazionario se si limita l’analisi ad intervalli di una decina di ms. Passando ai fonemi non vocalizzati, si ha che questi intervengono insieme ai fonemi vocalizzati nella pronuncia delle consonanti. Si hanno due meccanismi principali di eccitazione. Il primo sfrutta la turbolenza che si genera in corrispondenza di restringimenti della cavità orale, come nella pronuncia della consonanti fricative (es.: “s”). Il secondo è di tipo impulsivo ed utilizza il transitorio generato da interruzioni e bruschi rilasci del flusso d’aria che attraversa la cavità stessa, come nella pronuncia della consonanti occlusive (es.: “t”). In entrambi i casi il segnale generato è assimilabile a rumore bianco e presenta, quindi, uno spettro estremamente esteso.
Definiti i due differenti tipi di eccitazione comuni ai vari fonemi, questi ultimi sono generati cambiando le caratteristiche di propagazione dell’eccitazione all'interno del cavo orale ed il tipo di irradiazione utilizzata per la loro pronuncia. Il cavo orale, infatti, ha per la generazione della voce un ruolo paragonabile a quella che ha la cassa di risonanza per uno strumento musicale. A seguito dell’instaurazione di moti naturali al suo interno, si hanno esaltazioni o attenuazioni dello spettro del segnale d’eccitazione, con conseguenti differenziazioni dell’uscita prodotta. Dato che i moti naturali interessano componenti armoniche aventi lunghezze d’onda proporzionali alla distanza tra le pareti della cavità, lo spettro del segnale prodotto dipende dalla conformazione (forma e dimensioni) che la bocca assume durante la pronuncia. La conformazione della bocca è da un lato fissata dalla fisionomia del parlatore, mentre dall'altro è variabile variando la posizione della lingua, della mandibola e delle labbra. Anche l’irradiazione è regolata dal parlatore, innanzitutto bilanciando il contributo della bocca e delle narici tramite la posizione del velo palatale ed inoltre, il contributo da parte della bocca è regolato dal grado di ostruzione del cavo orale da parte della lingua e delle labbra.
Riepilogando, la differenziazione tra fonemi è ottenuta variando il tipo di eccitazione e di propagazione adottata (fig. 1.11). Passando ad analizzare nel dettaglio i differenti tipi di fonemi, si nota che nella pronuncia delle vocali si utilizzano esclusivamente i suoni vocalizzati. Come già detto, l’eccitazione utilizzata è identica per tutte le vocali ed i differenti fonemi si ottengono tramite differenti configurazioni del cavo orale. Le risonanze che si instaurano all'interno della cavità, producono effetti di esaltazione di componenti spettrali, che si manifestano come picchi nell'inviluppo dello spettro del segnale, dette formanti. Un suono vocalizzato, dunque, è ben caratterizzabile in frequenza. Il suo spettro ha un inviluppo dipendente dalla posizione delle formanti, sul quale si sovrappone un’ondulazione, legata all'eccitazione, con frequenza pari alla fondamentale. È opportuno sottolineare che tale modellizzazione, per quanto sufficiente per il seguito della trattazione, risulta semplificata. Per una trattazione più accurata si rimanda alla bibliografia [Fla72]. Fig. 1.11 - Modelli della sorgente del segnale vocale.
Per analizzare gli effetti sulla voce della frequenza a cui sono poste le formanti, si osserva che un arretramento della posizione della lingua o una maggiore apertura della mandibola favorisce la realizzazione di cavità più ampie all'interno della bocca: ciò permette l’instaurazione di risonanze a con lunghezza d’onda maggiore e, quindi, frequenza minore (fig. 1.12).
Riducendosi la frequenza delle formanti, il suono emesso risulta più grave. Le combinazioni di sezione della cavità orale e posizione della lingua nella pronuncia delle differenti vocali sono riportate in tabella
sezione\posizione | anteriore | centrale | posteriore |
piccola | i (ira) | u (luna) | |
media | é (nero) | ó (volo) | |
grande | è (bene) | a (pane) | ò (cosa) |
Tab. 1.2 - Configurazione del cavo orale per i differenti fonemi vocalizzati.
Fig. 1.12 - Influenza sulle formanti della posizione della lingua e della sezione del cavo orale. Analizzando solamente la posizione delle prime due formanti, è possibile distinguere tra i differenti fonemi vocalizzati. Infatti, graficando il valore delle frequenze a cui sono posizionate le formanti per differenti vocali pronunciate da differenti parlatori, è possibile raggruppare i fonemi in insiemi sufficientemente disgiunti (fig. 1.13). In ogni caso, la frequenza della prima formante non scende al di sotto dei 200 Hz, mentre la frequenza massima per la seconda formante è nell'intorno dei 2500 Hz. Volendo, dunque, dimensionare il canale audio in modo tale da lasciar transitare inalterata l'informazione associata ai suoni vocalizzati, si potrebbe limitare la banda del canale a tale intervallo. Si noti come, in tal modo, si eliminerebbe la fondamentale del segnale, perdita non grave, data la capacità dell’apparato uditivo di ricavare la fondamentale a partire da sue armoniche. Fig. 1.13 - Posizione delle prime due formanti per suoni vocalici.
Passando all'analisi delle caratteristiche dei fonemi vocalizzati nel dominio del tempo, dato il tipo di eccitazione, essi risultano essere periodici, con periodo pari a quello dell’eccitazione stessa. Le forme d’onda risultano essere composte da treni di oscillazioni smorzate, dipendenti dalla funzione di trasferimento del cavo orale (fig. 1.14). Grazie all'inerzia della sorgente utilizzata per l’eccitazione (il flusso d’aria proveniente dai polmoni) tali segnali risultano stazionari per intervalli di tempo consistenti (circa 200 ms). Inoltre, anche grazie all'amplificazione dovuta alle risonanze in corrispondenza delle formanti, l’ampiezza dei suoni vocalizzati (e quindi la loro potenza) è elevata (es.: circa 50 mW nella pronuncia della “o”).
Un modello dell’apparato vocale nel dominio del tempo per la generazione di fonemi vocalizzati può essere realizzato a partire da un filtro, avente in ingresso un generatore di segnali impulsivi periodici, con periodo pari a quello dell’eccitazione. La funzione di trasferimento del filtro è a soli poli. posti in corrispondenza delle frequenze delle formanti. L’uscita di tale filtro va poi sottoposto ad un leggero filtraggio passa basso, con frequenza di taglio dell’ordine del kHz, per tenere conto della funzione di trasferimento dell’irradiazione da parte delle labbra [Rab78].
Fig. 1.14 - Contributo dell’eccitazione e della funzione di trasferimento del cavo orale sullo spettro e sulla forma d’onda del segnale vocale.
La generazione delle consonanti, invece, avviene tramite meccanismi più complessi. Innanzitutto non si ha un solo tipo di eccitazione, ma, oltre all'eccitazione tramite rumore tipico delle consonanti stesse, può essere presente anche un’eccitazione vocalizzata. In questo secondo caso, le consonanti vengono definite sonore, altrimenti sorde. Inoltre, l’irradiazione delle consonanti non avviene esclusivamente tramite le labbra, ma viene sfruttata anche l’irradiazione da parte delle cavità nasali. Una classificazione dei fonemi relativi alle consonanti deve tenere conto di come i differenti parametri (tipo di eccitazione, geometria del cavo orale, tipo di irradiazione) sono combinati.
Una prima classe di fonemi non vocalizzati sono i fricativi che, come già accennato, utilizzano come eccitazione la turbolenza che si genera in corrispondenza di restringimenti della cavità orale. Una loro classificazione è possibile in funzione della posizione di tale restringimento, distinguendo consonanti labiodentali (es.: “f ’ per le sorde o “v” per le sonore), dentali (es.: “s” in “sano” per le sorde o in “rosa” per le sonore), o alveolari (es.: “c” in “cena” per le sorde o “g” in “gelo” per le sonore).
Le consonanti occlusive utilizzano come eccitazione il transitorio generato da interruzioni e bruschi rilasci del flusso d’aria che attraversa la cavità orale. Anche per le occlusive è possibile distinguere tra consonanti labiali (es.: “p” per le sorde o “b” per le sonore), alveolari (es.: “t” per le sorde o “d” per le sonore), o palatali (es.: “k” per le sorde o “g” in “gatto” per le sonore) in funzione della posizione di tale occlusione.
Un’altra classe di consonanti si ottiene utilizzando un’eccitazione di tipo vocalizzato, ma con un’irradiazione non esclusivamente ottenuta tramite le labbra. Ostruendo solo parzialmente la cavità orale con la lingua, si hanno le semivocali. A secondo della posizione della lingua stessa, si distingue tra consonanti palatali (es.: “r”) ed alveolari (es.: “l”). Bloccando totalmente l'irradiazione da parte della bocca (tramite le labbra o la lingua), l’irradiazione avviene solamente tramite le cavità nasali. Tali consonanti, dette appunto nasali, si distinguono, in funzione della posizione dell’occlusione, in labiali (es.: “m”) o palatali (es.: “n”).
Dal punto di vista della rappresentazione in frequenza dei fonemi non vocalizzati, data l’ampiezza dello spettro della loro eccitazione, si ha che la banda richiesta (circa 10 kHz) è notevolmente più estesa di quella dei vocalizzati (fig. 1.15). Dal punto di vista dell’ampiezza, invece, dato che l’eccitazione sfrutta flussi d’aria meno consistenti di quanto avviene per suoni vocalizzati e che la funzione di trasferimento presenta degli zeri, la potenza dei relativi fonemi è tipicamente inferiore (fig. 1.16) (es.: circa 0.03 mW nella pronuncia della “v”).
Un modello dell’apparato vocale per la pronuncia di consonanti è sostanzialmente differente da quello utilizzato per la pronuncia delle vocali. Innanzitutto per l’eccitazione è necessario affiancare al generatore periodico utilizzato per i suoni vocalizzati, un generatore di rumore. Inoltre, mentre la funzione di trasferimento del cavo orale per le vocali può essere approssimata da un filtro a soli poli (a causa delle risonanze), la funzione di trasferimento nel caso della pronuncia di consonanti presenta anche degli zeri a causa dei differenti tipi di irradiazione. Infatti, da un punto di vista qualitativo, l’energia necessaria per l’instaurazione di risonanze all'interno del cavo orale è da considerare persa se l’irradiazione avviene tramite le cavità nasali. Di conseguenza, alle frequenze di risonanza, la funzione di trasferimento presenta degli zeri. Dato che modelli digitali a poli e zeri portano a realizzazioni di complessità computazionale maggiore rispetto a quella di modelli a soli poli, si preferisce adottare ancora modelli a soli poli, ma di ordine maggiore di quelli utilizzati per i fonemi vocalizzati. Fig. 1.15a - Forme d’onda e spettri di differenti fonemi. Fig. 1.15b - Forme d’onda e spettri di differenti fonemi.
Riepilogando, i suoni vocalizzati sono caratterizzati da forme d’onda periodiche con banda limitata a pochi kHz, di notevole ampiezza e durata. I suoni non vocalizzati sono caratterizzati da forme d’onda irregolari, con una banda superiore ai 10 kHz, ma di ampiezza e durata tipicamente inferiore a quelle dei vocalizzati.
La trasmissione di segnali audio richiede, innanzitutto, una trasformazione del segnale da variazioni della pressione dell’aria in funzione del tempo in un segnale elettrico analogico. A destinazione, il segnale elettrico è poi riconvertito in un segnale audio. Tali trasformazioni avvengono tramite trasduttori elettroacustici. I trasduttori che eseguono la trasformazione acustico-elettrica vengono detti microfoni, altoparlanti quelli utilizzati nella trasformazione elettrico-acustica. Un trasduttore è detto reversibile se è in grado Fig. 1.16 - Forma d’onda della parola “casa”: si confrontino le ampiezze dei fonemi vocalizzati e non vocalizzati.
di lavorare sia come altoparlante che come microfono, non reversibile altrimenti. Un esempio di trasduttore non reversibile è il microfono a carbone. In esso, il segnale acustico che incide sul trasduttore comprime i granuli di carbone contenuti in una capsula. Ciò fa variare la resistenza che è presentata ai capi di due elettrodi, modulando, così la corrente che lo attraversa. Attualmente, i trasduttori utilizzati sono quasi esclusivamente trasduttori reversibili, per le loro migliori caratteristiche.
La conversione acustico-elettrica è, tipicamente, ottenuta dalla sequenza di una conversione acustico-meccanica e di una conversione meccanico-elettrica. La prima converte variazioni di pressione in movimento indotto in struttura meccanica mobile, normalmente utilizzando una membrana. La funzione di trasferimento di questa prima trasformazione è legata alla geometria e alle proprietà dei materiali utilizzati per il supporto e per la membrana.
A secondo dei principi secondo i quali viene eseguita la conversione meccanico-elettrica, i trasduttori vengono distinti in magnetici, elettrostatici e piezoelettrici. Tra i magnetici si trovano i più diffusi trasduttori elettroacustici, che sono gli elettrodinamici (fig. 1.17). Nel seguito viene data, a titolo di esempio, una breve descrizione del funzionamento di tali trasduttori. Essi generano un segnale elettrico sfruttando le variazioni di flusso elettromagnetico che si hanno all'interno di una bobina, a seguito del movimento di quest’ultima. Negli altoparlanti, il movimento della membrana è indotto dal segnale che attraversa la bobina. Indicando con i il valore della corrente iniettata nella bobina, con l la lunghezza dell’avvolgimento e con B il vettore induzione magnetica, la forza F che si genera nell'avvolgimento è pari a
(1.6) |
Nei microfoni tale movimento è generato dalle variazioni di pressione che si hanno sulla membrana, alla quale la bobina è solidale. In tal caso la f.e.m. E che si genera ai morsetti dell’avvolgimento è pari a
(1.7) |
dove v rappresenta il vettore velocità della bobina. Essa è legato alla forza F applicata alla bobina tramite la relazione
(1.8) |
La costante complessa Zm è detta impedenza meccanica ed è legata alla resistenza che la parte meccanica oppone al movimento. Scomponendola nella sua parte reale ed immaginaria
(1.9) |
si ha che la componente reale Rm è legata essenzialmente agli effetti dissipativi dovuti alla flessione del materiale che costituisce l’ancoraggio dell’equipaggiamento mobile. In realtà essa non risulta indipendente dalla frequenza, ma cresce leggermente all'aumentare della stessa. Per quanto riguarda la Xm, legata all'inerzia della meccanica, può essere ulteriormente scomposta come
(1.10) |
Fig. 1.17 - Trasduttori elettrodinamici.
Per migliorare la linearità in frequenza del trasduttore, si potrebbe pensare di rendere predominante la componente dissipativa Rm. Un incremento dell’impedenza meccanica a parità di forza incidente, però, comporterebbe una riduzione della tensione generata nel caso di microfoni e, analogamente, ridurrebbe l’efficienza nel caso di altoparlanti. La soluzione generalmente adottata è, invece, quella di compensare meccanicamente il trasduttore, sfruttando la dinamica delle masse d’aria presenti al suo interno. In tal modo si ottiene un nuovo valore Z c dell’impedenza meccanica
(1.11) |
dove la resistenza R è corretta tramite le perdite per attrito viscoso V che si hanno nella camera posteriore del supporto, la componente dell’impedenza meccanica dovuta alla massa “m” è corretta sfrattando l’inerzia “i” del flusso d’aria generato dal movimento della membrana, mentre la rigidità “s” è corretta tramite un coefficiente “c” che tiene conto del comportamento elastico alla compressione dell’aria da parte della membrana (fig. 1.17). Ulteriori interventi sulla risposta in frequenza si possono ottenere sfruttando opportunamente le risonanze generate nella camera posteriore del supporto.
Per quanto riguarda le prestazioni dei trasduttori elettrodinamici, questi hanno caratteristiche molto buone in termini di linearità della risposta in frequenza, ma sono caratterizzati da impedenze modeste (tipicamente 8 W), il che li rende utilizzabili solamente in sistemi audio elettronici amplificati. Sempre della famiglia dei trasduttori elettromagnetici sono quelli a nastro (fig. 1.18). In essi l’elemento mobile è rappresentato da un sottile nastro conduttore corrugato posto tra due espansioni polari. Mentre le caratteristiche dei trasduttori a nastro in termini di risposta in frequenza sono tra le migliori ottenibili, le caratteristiche elettriche sono ulteriormente peggiorate rispetto agli elettrodinamici (impedenza di qualche frazione di Q). Ciò li rende idonei essenzialmente per applicazioni professionali.
Passando ai trasduttori elettrostatici (fig. 1.18), i segnali in gioco sono legati alla variazione di campo elettrico dovute al movimento di una membrana metallica rispetto ad un elettrodo fisso e quindi ad una modulazione della capacità del trasduttore. A secondo che la polarizzazione degli elettrodi sia mantenuta tramite un generatore esterno o sia dovuta alla polarizzazione permanente del dielettrico che separa le due armature, i trasduttori elettrostatici si distinguono, rispettivamente, in trasduttori a condensatore o a elettrete. Indicando con “d” la distanza tra gli elettrodi, con “S” la loro superficie e con “εo” la costante dielettrica, la capacità formata dalle due armature e la carica in essa immagazzinata sono pari a
(1.12) |
dove Vp rappresenta la tensione di polarizzazione del dielettrico. Ipotizzando che la carica sulle armature si mantenga costante, la tensione V generata ai capi di quest’ultime a seguito di un loro spostamento ξ(t) è pari a
(1.13) |
La qualità del segnale ottenuto da questi trasduttori è elevata, paragonabile a quella dei trasduttori a nastro. Data, però, l’impedenza elevata che li caratterizza (dell’ordine del MQ), l’ampiezza dei segnali generati da microfoni a condensatore è modesta, il che rende indispensabile uno stadio di preamplificazione, a volte integrato nel trasduttore stesso.
I trasduttori piezoelettrici (fig. 1.18), invece, sfruttano la caratteristica di alcuni cristalli (essenzialmente quarzi, ceramiche piezoelettriche o polifluoruro di vinile) di deformarsi se sottoposte ad un campo elettrico e, viceversa, di generare un campo elettrico se sottoposti a deformazioni meccaniche. Tale trasduzione diretta meccanico-elettrica è caratterizzata, però, da ampiezze delle deformazioni estremamente modeste. Affinché il livello delle deformazioni raggiunga livelli sfruttabili in applicazioni commerciali, si ricorre all'accoppiamento di strati di materiale con caratteristiche complementari, in grado di eseguire un’amplificazione meccanica delle deformazioni. Ciò può essere ottenuto, ad esempio, accoppiando due lamine piezoelettriche polarizzate in senso opposto, in modo tale che, a fronte di un campo elettrico, mentre una tende a contrarsi, l’altra si espande. A causa delle buone caratteristiche elettriche e della notevole robustezza, tali trasduttori sono diffusissimi per applicazioni commerciali.
In tabella sono riepilogate le caratteristiche tipiche dei principali trasduttori in termini di sensibilità ed impedenza, dove la prima grandezza è misurata come il rapporto in dB tra la tensione E generata (espressa in volt) a fronte di un segnale con una pressione P (espressa in microbar) e frequenza di 1 kHz.
Tipo | Sensibilità (dB) | Impedenza (Ω) |
A carbone | -45 | 100 |
Elettrodinamico | -85 | 10 |
A nastro | -105 | 1 |
A condensatore | -50 | 1000000 |
Piezoelettrico | -50 | 100000 |
Tab. 1.3 - Caratteristiche dei trasduttori elettroacustici.
Affinché il canale audio sia in grado di trasmettere fedelmente un qualsiasi segnale, le sue caratteristiche in termini di banda e rapporto segnale rumore debbono essere migliori della banda e della dinamica apprezzabili dall'udito. In tal caso il segnale ricevuto a destinazione risulterebbe indistinguibile dall'originale emesso dalla sorgente (audio HiFi). Dall'analisi precedentemente fatta sulle caratteristiche dell’apparato uditivo si ricava che la banda richiesta in tal caso al canale audio è di circa 20 kHz e la dinamica di 120 dB. Mentre i requisiti di banda non rappresentano attualmente un limite implementativo, ma solo economico, la dinamica richiesta risulta elevata. Infatti, i sistemi HiFi analogici commerciali forniscono circa 60 dB di dinamica, mentre i sistemi digitali (Compact Disk e Digital Audio Tape) sfiorano i 100 dB. Nei sistemi di radiodiffusione sia analogici (FM) che numerici (Digital Satellite Radio), dove la banda ha un peso maggiore, questa viene ridotta a 15 kHz.
Per quanto riguarda il segnale telefonico, le specifiche sul canale (banda e dinamica) possono essere meno stringenti, viste le caratteristiche della sorgente. Per quanto riguarda la banda, la maggiore ampiezza dei suoni vocalizzati fa si che la potenza media del segnale vocale sia concentrata essenzialmente nella parte inferiore dello spettro [ITUTP.50] (fig. 1.20). Analizzando in dettaglio l’andamento dello spettro a lungo termine, infatti, è evidente il contributo delle prime armoniche dell’eccitazione. La banda utile del segnale è, quindi, limitata a meno di 4 kHz, permettendo in tal modo una sia pur parziale riproduzione dei suoni non vocalizzati, indispensabili per una buona intelligibilità della voce e per il riconoscimento del parlatore. Per la precisione, scelto un riferimento ad 800 Hz, l’attenuazione in frequenza del canale telefonico all'interno di una banda di 4 kHz deve soddisfare la maschera riportata in figura 1.19 [ITUTG.132]. Si nota come la banda utile è in realtà limitata all'interno dei 300-3400 Hz, per garantire opportuni intervalli di transizione ai filtri di canale. Fig. 1.19 - Densità spettrale di potenza del segnale e ITU-T P.50.
Per fissare la dinamica del canale telefonico è necessario analizzare la distribuzione statistica dell’andamento dell’ampiezza del segnale in funzione del tempo (fig. 1.21). I risultati sono fortemente influenzati dalla durata delle osservazioni. Nel caso di analisi a lungo termine (brani della durata dell’ordine del minuto) si osserva che l’ampiezza del segnale telefonico ha una distribuzione approssimativamente esponenziale [ITUTP.50]. Ciò è giustificabile della presenza di lunghe sequenze di campioni di ampiezza modesta in corrispondenza di pause nel discorso, che aumentano la frequenza di campioni di ampiezza prossima allo zero. È possibile definire il livello massimo (o di Fig. 1.20 - Maschera del canale telefonico dalla raccomandazione CCITT G.132. picco) del segnale come il valore che viene superato in meno del 0.01% dei casi. Tale valore è estremamente variabile e si riduce progressivamente negli anni con il migliorare della qualità delle reti [Bon91]. Nei sistemi numerici, il livello di picco è standardizzato in 3.14 dBmO [ITUTG.711]: data una linea a 600 Ω, l’ampiezza corrispondente del segnale è ottenibile come
(1.14) |
A fronte di tale valore di picco, scegliendo come valore medio della potenza del segnale un livello di - 23.4 dBmO [Bon91], si ha un valore efficace di ampiezza pari a
(1.15)
Per quanto riguarda la dinamica utile, essa assume un valore di circa 50 dB. In realtà in telefonia, come descritto nel seguito, la dinamica fissata per i sistemi numerici è notevolmente maggiore (> 70 dB). Ciò è necessario per garantire un certo margine per bilanciare la degradazione del segnale alla quale si va incontro nelle conversioni da numerico ad analogico (e viceversa) richieste dall'attraversamento di aree della rete a differente tecnologia.
Nel caso di analisi a breve termine si osserva che per brani della durata dell’ordine del secondo (brevi frasi), l’ampiezza del segnale ha una distribuzione approssimativamente gaussiana. Tale distribuzione rimane valida anche per brani della durata dell’ordine del millisecondo (fonemi), indipendentemente dalla natura vocalizzata o meno del segnale. Fig. 1.21 - Distribuzione delle ampiezze per differenti tipi di segnali.