Mauro Graziani
Conservatorio F.A. Bonporti - Trento
Biennio di Nuove Tecnologie e Multimedialità

Modelli di analisi, rappresentazione e trattamento digitale del suono
  Modulo 1

Il Suono Digitale

0.   Introduzione

Nello sviluppo della tecnologia audio, i problemi sono stati essenzialmente tre:
  1. Registrazione del segnale audio

  2. Riproduzione del segnale audio

  3. Trasmissione del segnale su lunghe distanze

Dai tempi antichi fino alla metà dell'800, i problemi 1 e 2 vennero affrontati costruendo macchine musicali come i vari tipi di carillon (ne esistevano di molto complessi, organistici e perfino "orchestrali", come vedrete nella cronologia).
I due problemi venivano, quindi, unificati: registrare significava incidere un rullo con rilievi in posizioni e distanza giusta tali da azionare, durante la rotazione del rullo che costituiva la fase di riproduzione, delle leve che colpivano oggetti sonori o aprivano delle canne, nel caso dell'organo.
Non si trattava, quindi, di una vera e propria registrazione del suono, bensì di una codifica del brano musicale.

1.    Era pre-elettricità

1.1    Registrazione

Soltanto a partire dalla seconda metà dell'800 ci si pone il problema di registrare fedelmente il suono, problema che si può riassumere come segue:
essendo il suono un'onda che viaggia nell'aria (o in qualsiasi altro medium), si tratta di trovare un modo per incidere su un qualche supporto il profilo di quella seguendone tutte le variazioni. Il problema è complicato dal fatto che quest'onda varia molto rapidamente: fino a 20.000 cicli al secondo (la massima frequenza a cui l'orecchio umano è sensibile).
La soluzione consiste nel riuscire a fabbricare un trasduttore efficace in grado di memorizzare un'onda audio nel modo più fedele possibile in una qualche forma su un qualche supporto. Il concetto di trasduttore può sembrare complesso, ma in realtà, senza scendere in particolari estremamente tecnici, è semplice.

Dicesi trasduttore un "dispositivo capace di trasmettere energia da un punto a un altro di un sistema o di trasformare una forma di energia in un'altra, passando per uno o più stadi di trasformazione (p. e. un microfono, un altoparlante, una cellula fotoelettrica ecc.)." [diz. Garzanti on-line]

Se ragionate su questa definizione vi accorgerete che la nostra vita è piena di trasduttori: dalla manopola di accelerazione della moto che trasforma un moto rotatorio in lineare per aprire la valvola della miscela, a quella che regola il gas in un fornello (stessa trasformazione), al tasto di un pianoforte, alle cose più complesse come la TV o l'impianto stereo in cui un'onda elettrica viene trasformata in segnale video e/o audio.
Nella loro ricerca del trasduttore efficace, gli inventori dell'800 avevano un ottimo modello: il sistema timpano - catena degli ossicini che trasporta la vibrazione dell'onda audio dall'aria all'orecchio interno.


fonoautografoL'uomo, all'inizio, costruisce sempre macchine concettualmente antropomorfe che riproducono alcune delle sue funzioni. Anche in questo caso, i primi apparecchi per registrare le onde audio riproducono le funzioni dell'orecchio. Il nostro sistema percettivo insegna che l'onda acustica, indirizzata da un apposito canale (padiglione e canale auricolare) su una membrana (timpano), mette in vibrazione quest'ultima che, a sua volta, trasmette la vibrazione a una catena di oggetti rigidi (catena degli ossicini).
Il primo apparecchio che, in qualche modo, registra le onde audio è il "fonoautografo" (figura a destra su cui potete cliccare per vederla ingrandita) che incideva le onde sonore su un cilindro su cui era steso uno strato di carbone, grazie a uno stilo collegato a un diaframma che veniva messo in vibrazione dai suoni.
Osservate come vengano riprodotte le funzioni dell'orecchio esterno e medio: la tromba convoglia le onde audio su una membrana che, vibrando, le trasmette a uno stilo che le incide su un rullo. L'unica differenza è costituita dalla presenza del supporto (il rullo) che diventava necessario per passare, poi, alla fase inversa, la riproduzione.
Edison - solchiBerliner - discoIn realtà il fonoautografo non era in grado di riprodurre le onde sonore, ma solo di inciderle. Edison fu il primo a fabbricare un apparecchio capace di eseguire entrambi i compiti: il "fonografo". Nell'immagine a sinistra potete vedere i solchi incisi da un fonografo di Edison sul supporto di stagno (ingranditela cliccandoci sopra: è molto grande) e qui potete sentire la voce di Edison incisa con uno dei suoi apparecchi. A destra, invece, vedete il modello di Berliner (successivo) che incideva un disco al posto del cilindro (anche questa è ingrandibile). Quest'ultimo fu il primo ad arrivare alla produzione di massa nel 1888 con un disco di 7 pollici (17.78 cm) che girava a 30 giri/min. (solo 2 min di durata perché i solchi erano larghi e distanziati fra loro).
Notate che, concettualmente, fatte salve le migliorie qualitative introdotte dall'elettricità e dalle resine plastiche, il sistema resterà lo stesso fino ai dischi in vinile e sarà accantonato solo con il digitale.
La grandezza e la distanza dei solchi, così come la velocità di rotazione, sono tutti parametri che variano con i perfezionamenti tecnici. All'inizio i solchi erano larghi e lontani per non rischiare la sovrapposizione, poi, con apparecchi via via più precisi, i solchi divennero piccoli e vicini. La velocità venne aumentata per migliorare la resa soprattutto sulle alte frequenze (78 giri/min). In seguito, con ulteriori perfezionamenti, anche la velocità diminuì fino allo standard di 33 1/3 giri/min (il cosiddetto long playing).

1.2    Riproduzione

A quest'epoca, la riproduzione era, anche meccanicamente, il processo inverso rispetto all'incisione: facendo ruotare il cilindro, lo stilo "leggeva" i solchi e vibrava, trasmettendo le vibrazioni a una membrana che faceva vibrare l'aria. Le vibrazioni erano amplificate e direzionate dalla tromba.

1.3   Trasmissione

Nel 1894 Marconi inventò la radio. Non ce ne occupiamo direttamente qui, ma se vi interessa, ne trovate la storia in questo sito dell'Un. di San Diego (in inglese) o in questo realizzato per il centenario (tradotto in italiano).
Il dato interessante collegato alla radio è, però, l'entrata dell'elettricità nel mondo audio. Già nel 1857, Helmholtz aveva suggerito di utilizzare l'elettromagnetismo e Bell fu il primo a usare un elettromagnete per far vibrare un diaframma (un po' come i coni delle casse acustiche attuali). Oltre che per le trasmissioni, l'elettricità venne utilizzata dapprima nella fase di riproduzione (costruzione di altoparlanti) e solo dal 1925 entrò in forza anche nella registrazione.

2.   Era elettrica

diagrammaGià nella seconda metà dell'800, Helmholtz e Bell si erano indirizzati verso l'elettromagnetismo nei loro studi per la registrazione e la riproduzione dell'audio e i primi microfoni che utilizzavano sistemi elettrici vennero costruiti nei primi anni del '900.
L'introduzione dell'elettricità fu graduale, fino alla sua completa affermazione avvenuta subito dopo la prima guerra mondiale e determinò un grande salto di qualità in tutto il comparto audio essenzialmente perché i dispositivi elettrici reagiscono più rapidamente e con maggiore precisione rispetto a quelli meccanici. La corrente elettrica, infatti, è modulabile: la sua tensione può variare con grande velocità, quindi è adatta a seguire la variazione di un'onda audio. Anche qui il problema sta nel trovare un trasduttore efficace.
In questo caso il trasduttore si basa sull'effetto elettromagnetico: quando in un campo magnetico viene fatto muovere un conduttore, in questo conduttore si genera una corrente elettrica. Il bello è che la tensione di tale corrente varia nel tempo riproducendo esattamente il movimento del conduttore.
Osservate la figura a fianco (ingrandibile). In un campo elettromagnetico viene posto un conduttore, cioè un oggetto metallico in grado di vibrare (una molla o una corda).  Quando il conduttore vibra, muovendosi all'interno del campo, si produce corrente elettrica e si genera una tensione proporzionale alla vibrazione del conduttore. In pratica, la variazione di tensione della corrente riproduce esattamente la vibrazione del conduttore.
Una volta capito questo, basta portare nel conduttore la vibrazione dell'aria, esattamente come fa il timpano con la catena degli ossicini, per fabbricare un buon microfono.
Questo è il principio base che permette di trasformare la vibrazione dell'aria (il suono) in corrente elettrica.

2.1   Registrazione

2.1.1   Il Microfono

microfono dinamicoVisto il principio di cui sopra, è facile capire come può essere fatto un microfono.
Nel cosiddetto microfono dinamico (figura a sin.), al conduttore (che in figura è una bobina, cioè un sottile filo elettrico avvolto come una molla) è direttamente collegato un diaframma che viene messo in vibrazione dall'aria e trasmette le proprie vibrazioni al conduttore stesso. Si genera quindi una tensione che è la rappresentazione fedele di queste vibrazioni. Osservate come, ancora una volta, si sfrutta il principio del timpano per trasmettere la vibrazione dell'aria a un altro mezzo.
microfono a
        condensatoreOggi esistono diversi tipi di microfoni dinamici, che si differenziano moltissimo in base alla qualità (da pochi Euro, come i microfoni forniti di serie con le schede audio più comuni, e adatti per applicazioni vocali) fino a centinaia di Euro, adatti per applicazioni musicali. Fra le caratteristiche dei microfoni dinamici si può ancora citare la relativa insensibilità ai rumori meccanici esterni (come il maneggiamento del microfono) e lo spiccato effetto di prossimità, cioè la caratteristica di variare la risposta in frequenza, e quindi la timbrica, a seconda della distanza del microfono dalla sorgente sonora. I microfoni dinamici sopportano, generalmente, elevate pressioni acustiche.
 La figura di destra, invece, rappresenta lo schema di un microfono a condensatore.
Un condensatore è un apparato elettrico costituito da due piastre di materiale conduttore, separate da un isolante (aria o altro, chiamato dielettrico). Se alle due piastre viene applicata una tensione continua, non vi è passaggio di corrente, mentre se alle piastre viene applicata una tensione alternata la corrente passa, più o meno bene a seconda della sua frequenza e della distanza fra le piastre.
Nel microfono a condensatore una delle piastre è fissa, mentre l'altra è costituita dal diaframma messo in vibrazione dalle onde sonore, ed è perciò mobile: la distanza fra le piastre varia quindi a seconda della posizione del diaframma.
Alle piastre viene applicata una tensione continua di 48 Volt, chiamata phantom power (alimentazione fantasma) che viaggia sugli stessi conduttori usati per portare il segnale. Lo scopo è quello di generare un campo elettrico analogo, come funzione, a quello creato dai mageti nel caso precedente. Quando il diaframma è sollecitato da un'onda sonora si muove, e la distanza fra le piastre varia, modulando perciò la tensione continua.
Con appositi circuiti, la tensione continua viene eliminata, e rimante soltanto la parte alternata, che costituisce proprio il segnale elettrico che ci serve, e che segue l'andamento di pressione dell'onda sonora.
Fra le caratteristiche dei microfoni a condensatore è l'elevata sensibilità, e la delicatazza, oltre che la sensibilità ai rumori meccanici, come il maneggiamento del microfono.

2.1.2   Il Registratore

Innovazioni ancora più vistose si ebbero nell'area della registrazione. Se, da un lato, i microfoni elettrici miglioravano nettamente il momento del passaggio del suono dall'aria all'apparecchiatura di registrazione, un tale miglioramento sarebbe stato quasi inutile senza un nuovo sistema di memorizzazione del segnale acquisito dal microfono. Occorreva, cioè, un nuovo tipo di supporto su cui memorizzare la tensione prodotta dal microfono e le sue variazioni nel tempo in modo più accurato da quello offerto da un cilindo o un disco di cera.
Ancora una volta la chiave di questa svolta qualitativa è il magnetismo. La magnetizzazione, infatti, non è un fenomeno di tipo on/off, sì/no, tutto/niente, ma è modulabile. La sua intensità può variare da zero, in positivo e in negativo e può essere misurata il che equivale a dire che, una volta applicata, può essere letta in un momento successivo.
Si può quindi memorizzare la variazione di tensione prodotta dal microfono sotto forma di magnetizzazione su un supporto atto a essere magnetizzato. primo registratore a nastroOvviamente, per poter salvare le variazioni della tensione nel tempo, questo supporto non deve essere un blocco ristretto, ma disporre di un certo spazio come sul disco e sul nastro.
I primi tentativi di registrazione magnetica vennero eseguiti già nel 1898 dal danese Poulsen utilizzando un filo metallico al posto dell'odierno nastro. Quest'ultimo apparve solo nel 1928, quando si scoprì il modo di applicare particelle magnetiche a una striscia di materiale plastico.
Nel 1935 il gruppo tedesco BASF/AEG mostrò al pubblico il primo registratore a nastro (in figura) di cui potete anche ascoltare un esempio audio. Anche qui, concettualmente, siamo già vicini ai modelli attuali. Naturalmente, nel tempo, vennero apportate moltissime migliorie. La velocità del nastro, che in questo modello era di ben 760 cm/sec, diminuì gradualmente fino ai 72 cm/sec. degli anni '50, ai 38 cm/sec. delle registrazioni professionali degli anni '70, mentre i modelli amatoriali avevano velocità di 19 e 9.5 cm/sec.
L'effetto del registratore a nastro per la composizione musicale era dirompente. Per la prima volta, il suono non era più un oggetto sfuggente e difficile da trattare, ma diventava solido.
Per esempio, invertendo il senso di scorrimento del nastro (in realtà montando il nastro al contrario), si poteva rovesciare l'andamento del suono, oppure, cambiando la velocità di scorrimento, tutto il fenomeno sonoro risultava trasposto in altezza e tempo. In modo analogo, mediante tagli si poteva realizzare qualsiasi montaggio. Non a caso la prima corrente compositiva che si basava principalmente sulle manipolazioni del nastro venne a chiamarsi "musica concreta".
registratore schemaLo schema di funzionamento di un registratore a nastro è il seguente: il registratore è sostanzialmente costituito da un sistema di trascinamento che ha lo scopo di far scorrere il nastro ad una velocità costante di fronte a tre "testine magnetiche" usate, rispettivamente, per la registrazione, la cancellazione e la riproduzione.
Nella fase di registrazione il segnale che deve essere registrato viene opportunamente amplificato ed inviato alla testina di registrazione mentre il nastro viene fatto scorrere. In questo modo l'intensità di magnetizzazione di zone successive del nastro varia proporzionalmente al valore del segnale sulla testina e le caratteristiche del materiale ferromagnetico sono tali da memorizzare permanentemente tale intensità di magnetizzazione.
Nella fase di riproduzione il nastro viene fatto scorrere nuovamente, ma questa volta viene utilizzata la testina di riproduzione. Lo scorrimento del nastro provoca variazioni del campo magnetico nella testina di riproduzione, dato che sul nastro si trovano in successione zone a diversa magnetizzazione.
La variazione del campo magnetico induce nell'avvolgimento della testina correnti proporzionali che quindi "riproducono" la forma del segnale che aveva originariamente magnetizzato il nastro e genera quindi un segnale che può essere restituito inviandolo ad un amplificatore.
La testina di cancellazione ha lo scopo di consentire l'uso del nastro per diverse registrazioni. Infatti registrando un nuovo segnale su un nastro già registrato si otterrebbe di sommare il nuovo segnale a quello già esistente con l'effetto di sovrapporre le due registrazioni. Per questo motivo, in fase di registrazione, il nastro prima di passare sotto la testina di registrazione passa sotto quella di cancellazione che è alimentata con un segnale opportuno per annullare ogni precedente magnetizzazione del nastro.

2.2    Riproduzione

2.2.1    Amplificatore

La corrente elettrica in cui viene trasformato il segnale audio ha livelli molto bassi. Per questa ragione il segnale deve, per prima cosa essere amplificato. Un amplificatore si limita essenzialmente a aumentare il livello (cioè il volume) del segnale e permette di controllarlo mediante una manopola.
Di solito, però, negli impianti home, viene aggiunta una sezione di preamplificazione con controlli di tono e bilanciamento fra i canali.

2.2.2    L'altoparlante

L'oggetto che riproduce il suono viene chiamato "altoparlante". Vi sono rari altoparlanti specializzati che hanno una struttura e un funzionamento del tutto particolari (altoparlanti elettrostatici, al plasma e pochi altri). Ma nella stragrande maggioranza dei casi tutti voi avrete a che fare con altoparlanti di tipo "dinamico", che è il tipo di altoparlante adottato nel 99% dei casi.
Dunque, come è costruito un altoparlante dinamico? 
altoparlanteE' costituito da un cono (in grigio nell'immagine), che nella maggior parte dei casi ancora oggi è costituito da cartone, così come nei suoi antenati (anche se in diversi casi oggi si usa della plastica).
Al bordo esterno del cono vi è una sospensione (in rosso, ai lati esterni del cono) che lo ancora ad una struttura di supporto (in metallo) chiamato cestello (in blu). L'altro bordo del cono è solidale con una bobina (avvolgimendo di filo elettrico intorno a un supporto metallico, in figura è la spirale rossa e nera alla base del cono). Alla base della bobina si trova un magnete permanente cioè una calamita (in verde) di cui uno dei poli è rivolto verso la bobina. Il magnete è fisso perché è saldato al cestello, mentre la bobina può muoversi avanti e indietro insieme al cono.
Il punto cruciale per il funzionamento dell'altoparlante è il rapporto fra la bobina e il magnete. Alla bobina, infatti, arriva direttamente l'onda audio sotto forma di corrente elettrica. Quando nella bobina viene fatta passare la corrente, essa si trasforma in elettrocalamita (diventa un elettro-magnete). Ora, voi sapete che, con le calamite, i poli dello stesso segno si respingono mentre quelli di segno opposto si attraggono. Di conseguenza, quando il polo della bobina e quello del magnete hanno lo stesso segno, la bobina (che è mobile) si allontanerà dal magnete, spingendo in avanti il cono, mentre quando il segno è opposto, la bobina si avvicinerà al magnete, tirando all'indietro il cono.
altoparlanteIn tal modo, il cono vibra seguendo l'andamento della corrente e muove l'aria davanti a sè riproducendo l'onda acustica. Se, per esempio, si applica una variazione con una frequenza di 1000 Hz (mille cicli al secondo) il cono si sposterà avanti e indietro 1000 volte al secondo, e quindi produrrà una frequenza udibile di 1000 Hz. Se viene immesso un segnale con una corrente alternata a 3000 Hz, ecco che l'altoparlante riprodurrà un suono di 3000 Hz.
Un altoparlante è in grado di riprodurre tutte le frequenze immaginabili e possibili? Naturalmente no. Vi sono altoparlanti specializzati in diverse bande di frequenza: i cosiddetti tweeter sono altoparlanti costruiti per riprodurre frequenza elevate, i woofer e sub-woofer sono costruiti per riprodurre frequenze mediobasse e basse.

3.   Era Digitale

Via via che la potenza e la disponibilità dei computer aumentavano, si intensificavano le ricerche per trattare con sistemi digitali anche l'immagine e il suono. Ci si rendeva conto, infatti, che, riducendo tutto a numeri, i mezzi digitali assicuravano maggior precisione e maggior facilità di trattamento potendo applicare su di essi le normali operazioni aritmetiche. Abbiamo già visto come il suono si trasforma da fenomeno acustico a fenomeno elettrico. Ora vedremo come da elettrico diventa digitale.

3.1   Registrazione

Il computer è un sistema che tratta numeri. Nonostante si possano elaborare testi, immagini e suoni, tutto, nella macchina, è codificato in forma numerica.
Per codificare l'audio, il metodo usato è chiamato PCM (Pulse Code Modulation). Nel PCM, un'onda audio viene rappresentata con una serie di numeri presi a intervalli regolari, ognuno dei quali è un campione dell'onda in un dato istante cioè una lettura dell'ampiezza di quella forma d'onda in quel preciso istante.
Osservate la figura seguente. Supponiamo si tratti di un'onda audio ormai trasformata in onda elettrica mediante un microfono.

pcm1

Un piccolo apparecchio chiamato ADC (Analog to Digital Converter = convertitore analogico - digitale), presente su tutte le schede audio, effettua un campionamento che consiste nel leggere il valore verticale (detto ampiezza dell'onda) a intervalli regolari, come nella figura seguente

pcm2

Si ottiene così la seguente serie di numeri che rappresenta esattamente la forma d'onda

0 72 144 215 285 352 417 479 538 593 644 690 732 769 801 828 849 865 875 880 879 873 862 846 825 799 769 736 699 659 616 571 524 476 426 377 327 278 229 182 136 92 51 12 -23 -56 -85 -111 -133 -151 -165 -175 -182 -184 -184 -179 -171 -161 -147 -131 -113 -92 -71 -48 -24 0 24 48 71 92 113 131 147 161 171 179 184 184 182 175 165 151 133 111 85 56 23 -12 -51 -92 -136 -182 -229 -278 -327 -377 -426 -476 -524 -571 -616 -659 -699 -736 -769 -799 -825 -846 -862 -873 -879 -880 -875 -865 -849 -828 -801 -769 -732 -690 -644 -593 -538 -479 -417 -352 -285 -215 -144 -72 0 72 144 215 285 352 417 479 538 593 644 690 732 769 801 828 849 865 875 880 879 873 862 846 825 799 769 736 699 659 616 571 524 476 426 377 327 278 229 182 136 92 51 12 -23 -56 -85 -111 -133 -151 -165 -175 -182 -184 -184 -179 -171 -161 -147 -131 -113 -92 -71 -48 -24 0 24 48 71 92 113 131 147 161 171 179 184 184 182 175 165 151 133 111 85 56 23 -12 -51 -92 -136 -182 -229 -278 -327 -377 -426 -476 -524 -571 -616 -659 -699 -736 -769 -799 -825 -846 -862 -873 -879 -880 -875 -865 -849 -828 -801 -769 -732 -690 -644 -593 -538 -479 -417 -352 -285 -215 -144 -72 0 72 144 215 285 352 417 479 538 593 644 690 732 769 801 828 849 865 875 880 879 873 862 846 825 799 769 736 699 659 616 571 524 476 426 377 327 278 229 ...

Disponendoli a intervalli regolari in un grafico, si ottiene una forma d'onda equivalente a quella di partenza

pcm3

La catena di registrazione, quindi, è (in verde il tipo di segnale, in rosso le apparecchiature):

Segnale audio --> Microfono --> Segnale elettrico --> ADC--> Segnale digitale

3.2    Riproduzione

Nella riproduzione, il processo è inverso. Esiste un piccolo dispositivo chiamato questa volta DAC (Digital to Analog Converter = convertitore digitale - analogico), presente nelle schede audio e in apparecchi come i lettori di CD, che converte il segnale dalla forma numerica (digitale) a corrente elettrica.
La catena di riproduzione, quindi, è

Segnale digitale --> DAC --> Segnale elettrico --> Amplificatore --> Altoparlanti --> Segnale audio

4.    Caratteristiche della codifica PCM

4.1      Frequenza di campionamento

Si presenta ora il problema di definire una frequenza di campionamento, cioè di stabilire quanti campioni prendere per ogni secondo di suono. E' intuibile che, maggiore è il numero di campioni, meglio sarà definita la forma d'onda, fino ad arrivare al punto in cui il segnale digitale è indistinguibile dall'originale.
Le figure seguenti mostrano come l'approssimazione dell'onda migliora al crescere della frequenza di campionamento:

sr1

sr2

sr3

sr4

In generale, si può affermare che il principale effetto di una frequenza di campionamento (detta anche SR: sampling rate) non adeguata è:
  • perdita di frequenze alte
Negli esempi seguenti è possibile ascoltare un frammento della 9a registrato a frequenza di campionamento ottimale, metà dell'ottimale, bassa (qualità telefono), bassissima: le differenze sono evidenti (ATTENZIONE: non tutte le schede audio consentono di riprodurre brani a frequenze di campionamento non standard; è possibile che il vostro computer non vi consenta di acoltare tutti gli esempi; non si tratta di un problema).

Affrontando il problema in termini più rigorosi, esiste un teorema (il teorema di Nyquist o del campionamento) che dimostra come, per approssimare al meglio un segnale audio,

la frequenza di campionamento deve essere almeno pari al doppio della più alta frequenza contenuta nel segnale audio

(considerando, ovviamente, anche gli armonici).

Ciò significa che con SR = 10.000, le frequenze campionabili vanno da 0 a 5000 Hz; con SR = 20.000, da 0 a 10.000 Hz e così via. Di solito, per indicare tale estensione. si ricorre alla nozione di banda passante: si dice che, con SR = 20.000, si ottiene una banda passante da 0 a 10.000, etc.
Di conseguenza, dato che l'orecchio umano ha una banda passante di circa 20.000 Hertz, la frequenza di campionamento ottimale per riprodurre l'intera estensione audio umana deve essere maggiore di 40.000 Hertz, ovvero più di 40.000 campioni al secondo. In effetti, lo standard CD audio è stato fissato alla frequenza di 44.100 Hertz: ogni canale di un cd, quindi, contiene 44.100 campioni al secondo. Essendo il cd stereo, i campioni sono 88.200 per secondo.
Altri media, che non hanno bisogno della massima qualità, possono usare SR diversi. Per esempio, il telefono, il cui fine è trasmettere bene la voce, che ha una banda più limitata, utilizza una frequenza di 8.000 Hertz in mono e ha 4.000 Herz come massima frequenza passante. Per questa ragione la musica non si ascolta bene via telefono.

4.2      Estensione numerica (scala)

Dopo aver visto come stanno le cose in orizzontale, vediamo la parte verticale. All'ADC arriva un segnale elettrico di estensione limitata (generalmente ± 5 Volt). Il problema è: con quale grado di precisione dobbiamo misurare questo intervallo?
Una limitazione è costituita dal fatto che, per esigenze costruttive di ADC e DAC, nella misurazione possiamo usare solo numeri interi: i risultati come 2,75 non sono ammessi e vengono approssimati all'intero (in questo caso, 2 perché l'ADC non è in grado di arrotondare, ma tronca).
Di conseguenza, usando una unità di misura troppo grande, pari, per esempio al Volt, con 10 passi, da -5 a +5, avremmo degli errori sensibili.
Osservate la figura a sinistra.
Il primo campione (A) vale 0 e qui va tutto bene.
Il secondo (B) vale 2,3 approssimato a 2, con un errore di 0,3 pari al 3% sull'intera estensione
Il terzo (C) vale 4,2 approssimato a 4, errore di 0,2 pari al 2%
Il quarto (D) vale 5, errore 0
il quinto (E) vale 4,5 approssimato a 4, errore di 0,5 pari al 5%
(F) vale 3, errore 0
(G) vale 0,7 approssimato a 0, errore di 0,7 pari al 7%
In definitiva, in questo piccolo segmento di onda, abbiamo un errore medio del 2,42%. Questi errori sono troppo grandi per ottenere un campionamento accurato. L'approssimazione deve essere ridotta a un valore molto vicino a zero.
In realtà, se ci pensate, è facile eliminare i decimali: basta usare una unità di misura più piccola. Esempio: se misurando un oggetto si ottiene un valore decimale come metri 2,75, per ottenere un numero intero basta misurare in cm ottenendo cm 275. Se poi, ci fosse bisogno di una precisione maggiore, basterebbe passare al mm (mm 2750). Analogamente, potremmo misurare il segnale in centesimi o millesimi di Volt (milliVolt), eliminando quasi del tutto l'approssimazione.
Le figure seguenti mostrano come l'approssimazione dell'onda migliora autilizzando una unità di misura via via più piccola





In realtà è più facile chiedersi: qual'è l'estensione dinamica che dobbiamo coprire? In pratica, qual'è la differenza fra il più alto volume ascoltabile senza danni e il più basso volume percepibile?
Chi ha studiato un po' di acustica sa che l'estensione dinamica dell'orecchio va da circa 20 a circa 120 dB (soglia del dolore) e che ci sono grosse differenze in base alle frequenze. L'estensione musicale è chiaramente inferiore. In realtà un fff orchestrale non arriva a 120 ma può essere stimato intorno ai 100 dB.
Si è convenuto, quindi, di suddividere l'estensione dinamica in circa 60.000 passi. Il numero esatto è 65.536 pari a un numero codificato in 16 bit che corrisponde a una dinamica di 96 dB. Ogni bit in più, infatti, corrisponde a 6 dB di incremento dinamico. Con 4 bit abbiamo un range di 6x4 = 24 dB; con 8 bit, 48 dB e con 16 bit arriviamo a 96. In tal modo l'approssimazione è ridotta allo 0.0015%.
Infine, dato che le onde audio hanno una parte positiva e una negativa, i 65.536 livelli vengono visti come un intervallo di ± 32.768. Lo standard CD, dunque, è definito come
SR 44100 - 16 bit

Usare qualche bit in più (17, 18) non ha molto senso perché il computer gestisce gruppi di 8 bit (1 byte) come unità minima e quindi tanto vale passare a 16+8 = 24 bit con range dinamico di 144 dB (proposta DVD audio).

4.3      Osservazioni sul campionamento

Le problematiche legate al campionamento, comunque, sono parecchie. Ecco qualche altra osservazione.


4.3.1    Perché con SR troppo basso si ha solo perdita di frequenze alte e non distorsione? Che fine fanno le frequenze maggiori di SR/2?

Qualcuno potrebbe (e dovrebbe) chiedersi perché l'effetto di una frequenza di campionamento non adeguata all'estensione del segnale sia la perdita delle frequenze alte e non una distorsione delle stesse.
L'osservazione è giusta: l'effetto delle frequenze maggiori di SR/2 dovrebbe essere un certo tipo di distorsione. In realtà, però, proprio per evitare tali effetti indesiderati, prima dell'ADC è posto un filtro che elimina tutte le frequenze maggiori di SR/2. Se, per esempio, SR = 44100, allora il filtro taglierà tutte le frequenze da circa 20000 Hz in poi. Se invece SR = 10000, allora il filtro taglia da circa 4800 Hz in su.
Il principio è: meglio perdere gli alti e avere un segnale limitato, ma pulito, piuttosto che avere un segnale distorto.

4.3.2    Cosa succederebbe senza il maledetto filtro sull'ADC?

Un fenomeno molto interessante detto "foldover" (trad. ripiegamento) o "aliasing" (da alias a significare che qualcosa assume un'altra identità).
La frequenza incriminata, infatti, non viene eliminata e non produce distorsione propriamente detta, ma varia troppo velocemente per essere campionata bene. Il risultato è che il sistema ne perde delle parti e quindi la sottostima.
Il fenomeno è simile a quello delle ruote delle diligenze che, nei vecchi western in b/n. sembrano girare al contrario proprio perché, essendo la scansione dei fotogrammi troppo lenta, i raggi fanno in tempo a percorrere quasi un giro completo prima di essere fissati di nuovo.
Analogamente, l'onda percorre quasi un ciclo fra un campione e il successivo. La frequenza risultante, quindi, è sottostimata (più bassa) rispetto a quella originale. È anche facile calcolare la frequenza risultante che sarà pari a SR - K, dove K è una frequenza > SR/2.
In pratica, se SR = 44100, una eventuale frequenza di 30000 Hz (> SR/2 = 22050) risulterà nel segnale campionato come una componente a 44100 - 30000 = 14100 Hz. La sua ampiezza sarà pari a quella della frequenza originaria e quindi sensibile.

4.3.3      È possibile trovare del foldover in un segnale digitale?

Sì, in seguito a determinate trasformazioni. Le frequenze più alte di SR/2 vengono eliminate in acquisizione grazie al filtro sull'ADC, ma se poi noi trattiamo il segnale acquisito aggiungendo componenti o semplicemente trasponendolo in alto, è possibile che le componenti più alte finiscano oltre il limite di SR/2 provocando foldover.

4.3.4      Che fine fanno i gradini in fase di ascolto (DAC)?

Osservate che, per quanto bene un'onda sia campionata, un sistema PCM produce sempre un piccolo gradino fra un campione e il successivo. Questo perché un sistema digitale è per sua natura discreto, cioè può assumere solo un numero finito di valori (nel CD sono 65536) e non è in grado di variare con continuità (senza scatti, per quanto piccoli).
La realtà, invece, è continua e varia senza soluzione di continuità. Di conseguenza, l'onda, per quanto ben approssimata, sarà sempre a gradini. Questi gradini non dovrebbero provocare una distorsione sensibile?
La risposta è sì, ma in realtà non accade perché dopo il DAC è piazzato un apposito filtro la cui funzione è proprio quella di arrotondare i gradini (vedi figura a sin. e paragrafo 4.3.5.1)

4.3.5      AGH! Ci sono altri effetti indesiderati nel campionamento?

Una quantità. Vediamone alcuni
4.3.5.1    Frequenze immagine (aliasing)
L'aliasing è in realtà il fenomeno che sta alla base del foldover ed è provocato dai gradini appena menzionati. Quando si riproduce il suono, quindi a livello del DAC, si creano SEMPRE delle frequenze immagine (alias) pari a tutti i multipli di SR + e - K (dove K è la frequenza prodotta). Se produciamo 1000 Hz con SR = 44100, produrremo anche:
44100 - 1000 = 43100
44100 + 1000 = 45100
88200 - 1000 = 87200
88200 + 1000 = 89200
eccetera.
Queste frequenze vengono eliminate dal filtro posto dopo il DAC.
Poiché però un filtro analogico non può avere una curva di taglio ideale (cioé lasciar passare immutate le frequenze desiderate e cancellare completamente le altre), e inoltre più è ripido e più introduce irregolarità nella risposta in frequenza (ripple) e distorsioni di fase, si preferisce oggi aumentare la frequenza di campionamento nel processo di conversione D/A, tipicamente quadruplicandola (oversampling), in modo tale da spostare a frequenze più alte le immagini degli spettri indesiderati. In questo modo è possibile utilizzare filtri meno ripidi, che introducono pochissimo ripple e pochissima distorsione di fase.
4.3.5.2    Jitter
Il campionamento prevede che i campioni vengano acquisiti o inviati in out con grande regolarità. Quando si dice che l'SR è 44100 si presume che l'intervallo fra ogni campione e il successivo sia sempre 1/44100 sec.
Qualsiasi deviazione da questa regolarità è detta jitter e provoca una distorsione dell'onda originale che si traduce in rumore.

4.3.6      Definizioni

Distorsione
Modifica di un segnale audio dovuta alla modifica della sua forma d'onda, con conseguente variazione delle componenti presenti nel segnale originale. Esistono vari tipi di distorsione e come vedrete in questo e altri corsi, essa non è sempre un male: in genere, è un male quando non è voluta, ma in certe situazioni, può essere creata e controllata.

Distorsione armonica: introduzione di componenti armoniche non presenti nel segnale originale. È un male quando il fine è campionare o riprodurre un segnale audio con la maggiore fedeltà possibile (come nel caso di cui abbiamo appena parlato). Non è un male e viene creata appositamente quando il fine è cambiare le caratteristiche di un suono (elaborazione) o arricchire una sonorità (es. tipico: i distorsori per chitarra elettrica) o ancora, nella sintesi del suono per creare armonici partendo da una sinusoide (es.: sintesi con tecniche di distorsione non lineare).

Distorsione spettrale: alterazione delle ampiezze delle componenti di un suono: non si aggiungono componenti, ma si cambia l'ampiezza di quelle presenti. In pratica, si rimodella lo spettro del suono.

Distorsione per intermodulazione: dovuta all'introduzione di nuove frequenze generate dalla somma e/o differenza tra frequenze componenti il segnale originario.

Rumore
Interferenza con il suono originario che può essere sia di natura elettrica che acustica.

Nella teoria dell'informazione, qualsiasi segnale che interferisca con quello che ci interessa è detto rumore (es.: se in una festa stiamo cercando di capire quello che dice una certa persona, le altre voci sono rumore).

Rumore di quantizzazione (anche Errore di quantizzazione): distorsione causata dal fatto che l'operazione di quantizzazione introduce un'approssimazione sul voltaggio da convertire in campione durante la conversione di un segnale da analogico a digitale

4.3.7      Utilità

Dopo aver visto le principali caratteristiche di un segnale audio in forma digitale, è utile imparare a calcolare rapidamente alcune cose.

Dimensioni di un file audio
Ci riferiamo alle dimensioni che un file audio assume quando viene scritto su disco o caricato in memoria. In altre parole, allo spazio che occupa. Nel computer, lo spazio è misurato in bytes (8 bit).
Le dimensioni di un file audio dipendono da 4 parametri:
  • la durata del suono
  • il numero dei canali
  • la frequenza di campionamento SR
  • il formato dei campioni (8/16/24 bit = 1/2/3 bytes ciascuno)
Per cominciare e avere una unità di misura, calcoliamo le dimensioni di un segnale con le seguenti caratteristiche:
durata = 1 sec;
canali = 1 (monofonico)
SR = 44100
formato 16 bit = 2 bytes.
Ora, è semplice capire che, se ogni campione occupa 2 bytes e per ogni secondo abbiamo 44100 campioni, la dimensione totale è di 44100 x 2 = 88200 bytes. Un secondo di suono in monofonia, SR 44100 a 16 bit occupa 88200 bytes.
Lo standard CD audio, comporta 2 canali (stereo; non è possibile mettere su un normale CD dell'audio monofonico). Con un suono stereo (2 canali), avremo sia i campioni del canale destro che quelli del canale sinistro, separatamente. Di conseguenza, dovremo moltiplicare ulteriormente per 2. 88200 x 2 = 176400 bytes, quindi un secondo di suono in stereofonia in qualità CD occupa 176400 bytes.
Ne consegue che un minuto di suono in qualità CD occupa 176400 x 60 = 10.584.000 bytes.
A questo punto è molto facile calcolare le dimensioni di suoni di qualsiasi durata in qualità CD. È anche possibile trovare una formula generale valida per qualsiasi qualità audio:

Dimensioni in bytes = durata in sec * numero canali * SR * formato in bytes


Calcolo numero campioni per ciclo dell'onda
Nel caso di un segnale periodico, è utile saper calcolare rapidamente quanto campioni sono contenuti in un singolo ciclo dell'onda. Questo valore si ottiene facilmente dividendo SR per la frequenza del segnale e togliendo i decimali. Es.:
freq = 100 Hz, SR = 44100, allora ogni ciclo conterrà 44100/100 = 441 campioni
freq = 1000 Hz, SR = 44100, allora ogni ciclo conterrà 44100/1000 = 44.1 campioni

Calcolo frequenza a partire dal numero campioni
Sempre nel caso di un segnale periodico, è altrettanto utile il calcolo inverso, ovvero conoscendo il numero di campioni contenuti in un ciclo dell'onda e SR, trovare la frequenza del segnale. Questo calcolo si esegue, per es., quando in un segnale si prende un ciclo da mettere in loop.
Anche qui il calcolo è semplice: basta dividere SR per il numero di campioni. Es.:
numero campioni = 441, SR = 44100, allora la frequenza sarà 44100/441 = 100 Hz;
numero campioni = 44, SR = 44100, allora la frequenza sarà 44100/44 = 1002.27 Hz

Corrispondenza nota - frequenza
Qui il calcolo è più complesso (vedi CDROM Acustica). Vi riporto questa tabella, dove trovate le frequenze corrispondenti alle note del sistema temperato (evidenziata l'estensione del pianoforte).


-1

1

2

3

4

5

6

7

8

9

C

16.35

32.70

65.41

130.81

261.63

523.25

1046.50

2093.00

4186.01

8372.02

C#/Db

17.32

34.65

69.30

138.59

277.18

554.37

1108.73

2217.46

4434.92

8869.84

D

18.35

36.71

73.42

146.83

293.66

587.33

1174.66

2349.32

4698.64

9397.27

D#/Eb

19.45

38.89

77.78

155.56

311.13

622.25

1244.51

2489.02

4978.03

9956.06

E

20.60

41.20

82.41

164.81

329.63

659.26

1318.51

2637.02

5274.04

10548.08

F

21.83

43.65

87.31

174.61

349.23

698.46

1396.91

2793.83

5587.65

11175.30

F#/Gb

23.12

46.25

92.50

185.00

369.99

739.99

1479.98

2959.96

5919.91

11839.82

G

24.50

49.00

98.00

196.00

392.00

783.99

1567.98

3135.96

6271.93

12543.85

G#/Ab

25.96

51.91

103.83

207.65

415.30

830.61

1661.22

3322.44

6644.88

13289.75

A

27.50

55.00

110.00

220.00

440.00

880.00

1760.00

3520.00

7040.00

14080.00

A#/Bb

29.14

58.27

116.54

233.08

466.16

932.33

1864.66

3729.31

7458.62

14917.24

B

30.87

61.74

123.47

246.94

493.88

987.77

1975.53

3951.07

7902.13

15804.27


Calcolo di un intervallo a partire dalla frequenza
Cosa fare se ho la frequenza di un suono, supponiamo 100 Hz e voglio sapere, per es., quale frequenza ha la sua 5a? Qui le cose si complicano: vuoi sapere la frequenza della quinta secondo quale scala?
Come sapete, pur basandosi sempre sul'ottava, nella storia sono state proposte varie scale. Se consideriamo la scala temperata, è sufficiente sapere che ogni semitono sta in un rapporto pari a radice 12ma di 2 (cioè 1.0594631) con il precedente. Di conseguenza, per arrivare alla 5a, basta passare per tutti i 7 semitoni:
100 * 1.0594631 = 105.9463 = 2a min
105.9463 * 1.0594631 = 112.2462 = 2a magg
112.2462 * 1.0594631 = 118.9207 = 3a min, e così via fino alla 5a magg che risulta essere 149.8307 Hz.
Più rapidamente, lo stesso valore si calcola come 100 * 1.05946317 (cioè 1.0594631 elevato alla 7ma potenza; per coloro a cui difettasse la memoria sull'aritmetica, PRIMA si eleva, POI si moltiplica). Quindi, in generale, per calcolare un intervallo in Hz, basta fare

freq di partenza * 1.0594631numero_semitoni

NB: il calcolo veramente esatto sarebbe freq di partenza * (radice 12ma di 2numero_semitoni), ma la differenza è questione di qualche decimale, per cui potete usare la formula di cui sopra.

armoniciDiverso è il caso in cui si vuole sapere la frequenza corrispondente alla 5a giusta, cioè basata sulla scala degli armonici. Notate che questo caso è comune in musica elettronica perché spesso si sovrappongono più suoni per costruirne uno complesso, per cui le loro frequenze devono essere intonate sugli armonici (come in natura), non sulla scala temperata.
Per calcolare la frequenza di un intervallo basandosi sugli armonici, occorre, per prima cosa, identificare l'armonico che corrisponde a quell'intervallo servendosi, per es., dell'immagine a fianco o di una simile.
Da qui si vede che la prima 5a che incontriamo corrisponde alla componente armonica num. 3 (si conta anche la fondamentale).
A questo punto si moltiplica la nostra freq. base (per es. 100 Hz) per tale numero: 100 * 3 = 300, ma attenzione, questa è la 5a di una ottava superiore. Lo vediamo perché sappiamo che l'8va di 100 è 200, cioè il doppio (vedi ancora CDROM di acustica). Quindi dobbiamo far scendere questa nota di 8va, dividendo per 2 finché non rientra nell'8va base, cioè finché non è minore di 200. Ora 300 / 2 = 150 che è minore di 200. 150 Hz, quindi, è la frequenza che cerchiamo.
Altro esempio: sempre partendo da 100 Hz, troviamo la frequenza della 3a maggiore:
si trova la prima 3a magg. che è la componente num. 5
si calcola la sua frequenza: 100 * 5 = 500
si divide per 2 finché non rientra nell'intervallo di 8a 100 - 200: 500 / 2 = 250 ancora fuori; 250 / 2 = 125 OK!
Notate, per inciso, che la 3a magg. temperata ha invece frequenza 125.9921 Hz (quasi 1 Hz di differenza). Ecco una tabella degli intervalli

Intervallo
Temp.
equabile
Scala
Pitagorica
Rapporto
Pitagorico
2a
1.1224
1.1250
9/8
3a
1.26
1.25
5/4
4a
1.3348
1.333
4/3
5a
1.4983
1.5
3/2
6a
1.6818
1.6667
5/3

Esercizi

Fra [] i paragrafi da rileggere se non sapete o sbagliate la risposta. Alla fine trovate il link alle risposte esatte.

(1)
Quale frequenza reale assume un'onda sinusoidale di 7000 Hz campionata con SR = 10000?
[se non lo sai, vai qui]

(2)
In un segnale di partenza sono presenti le prime 6 componenti armoniche. Dopo qualche manipolazione, nel segnale troviamo anche le componenti da 7 a 10. Di che tipo di distorsione si tratta?
[rileggi il maledetto paragrafo]

(3)
Calcolare le dimensioni in bytes di un file monofonico, lungo 10 secondi, SR = 22050, 8 bit
[è semplice]

(4)
E se fosse a 16 bit?
[come sopra]

(5)
Questa è cattiva: e se invece fosse a 12 bit?
[come sopra ma bisogna anche pensarci]

(6)
Calcolare quanti campioni sono contenuti in un ciclo di un segnale periodico alle seguenti frequenze: 120, 2352, 20, 740, 25000 Hz con SR = 44100.
[qui ma anche qui]

(7)
Calcolare a che frequenza suonano onde periodiche il cui ciclo è lungo 50, 100, 200 campioni con SR = 48000
[qui]

(8)
Senza usare la tabella, data una freq. base di 100 Hz, calcolare le frequenze della 2a magg, tritono, 7a magg, 4a, nel sistema temperato e secondo gli armonici (NB: nella serie armonica, la 4a è la componente 21)
[qui]

Le risposte esatte sono qui.