di Marco Reverberi (2008)
Tutti lo conoscono, tantissimi lo usano, pochissimi sanno cos’è un “MP3”.
In generale si tende a pensare che si tratti di dati “compressi”, ma non è così.
Il nome del formato audio completo è MPEG-3, ovvero un gruppo di ricercatori chiamato
“Motion Pictures Expert Group” ed il numero 3 sta per terzo livello di sviluppo (layer 3).
Il gruppo ha sviluppato questa tecnologia diversi anni fa principalmente per consentire
trasmissioni audiovisive veloci tramite Internet, mantenendo una elevata qualità.
Per fare questo ancora oggi è necessario occupare il minor spazio possibile e per questo
è stato creato l’ MPEG, che attraverso un laborioso sviluppo dello schema di codifica chiamato
“Perceptual Coding” è arrivato allo standard odierno, il Layer-3.
L’MPEG si basa sul principo scientifico della Psicoacustica, una importante ricerca sui meccanismi
della percezione uditiva dell’uomo.
Gli studi scientifici hanno dimostrato come nell’apparato uditivo umano vi siano limiti fisici invalicabili
in natura. L’orecchio umano infatti non è in alcun modo in grado di percepire e discriminare le frequenze
deboli a ridosso di quelle più forti (effetto di mascheramento).
Durante la conversione di un file audio in MP3, tutte le informazioni sulle frequenze deboli (quindi mascherate)
vengono eliminate perché impossibili da udire per l’orecchio umano.
La stessa cosa avviene per le frequenze direttamente inudibili per l’uomo, ovvero sotto la soglia dei 20 Hz
e sopra la soglia dei 20 Khz. Ecco perché non si tratta di “compressione”. Per comprimere fisicamente qualcosa
è necessario avere a disposizione tutto il materiale originale (in questo caso i dati). Ad esempio si può
comprimere la spazzatura in un sacco, ma nel nostro caso viene tecnicamente liberato spazio, proprio
come riordinare un garage buttando le cose inutili rendendolo più agibile.
Le frequenze rimaste infatti non vengono toccate dalla codifica.
Il metodo è molto complesso e si sviluppa approssimativamente in questo modo:
ottenuta la forma d’onda, le informazioni che la costituiscono vengono suddivise in 32 sottobande in grado di
coprire tutte le frequeze udibili. Complessi algoritmi calcolati utilizzando la Psicoacustica, individuano
per ognuna delle 32 bande le frequenze non udibili dall’orecchio umano.
A questo punto vengono eliminate le frequenze ritenute inutili, tenendo conto delle molte varianti legate alle
frequenze ed a fattori temporali. Inevitabilmente si determinano problemi inerenti le frequenze parzialmente
mascherate da altre. In questo caso la codifica calcola il numero necessario di bits per rappresentarle,
non dimenticando che errori di quantizzazione sono sempre possibili, anche se non direttamente udibili dall’uomo.
Ciò che rimane dopo l’intervento degli algoritmi, viene organizzato in quello che si chiama propriamante
“Bitstream”, il cui flusso di dati porta alla creazione del file MP3.
Quando si crea un MP3 è’ molto importante fare attenzione al “Bitrate”, cioè il numero di bit per secondo
utilizzato (Kbps). Secondo lo standard il minimo indispensabile è di 128 Kbps, ovvero 128 Kilobit per secondo,
64 per canale, se stereo. Si possono ovviamente raggiungere rate molto più elevati per raggiungere una
qualità praticamente indistinguibile dall’originale. Per ottenere un MP3 di elevata qualità consiglio
almeno 160 Kbps per canale, 320 Kbps complessivi se stereo.