Le traitement numérique du signal audio
jean-philippe muller
version juillet 2001
Le traitement numérique du signal audio
Sommaire
2
page
I) Les sons et leur perception : • • • •
les performances de l’oreille analyse spectrale et timbre d’un son le mécanisme de l’audition les phénomènes de masquage
3 6 9 10
II) L’intérêt de la numérisation du son : • pallier les défauts du support • maîtriser la dégradation du signal • permettre des traitements particuliers
12 14 15
III) Acquisition d’un signal analogique : • • • • • •
échantillonnage spectre du signal échantillonné règle de Shannon filtre anti-repliement le bloqueur quantification
17 18 20 21 22 23
IV) Restitution d’un signal analogique : • par bloqueur • par filtre compensateur de sinus cardinal • par suréchantillonnage
27 29 30
V) Les systèmes audionumériques actuels : • • • •
le compromis capacité de stockage - débit numérique l’enregistreur DAT le disque compact le mini disc
32 32 35 42
jean-philippe muller
Le traitement numérique du signal audio
3
I) Les sons et leur perception : 1) Les performances de l’oreille : On appelle son tout message naturel ou provoqué perçu par l’intermédiaire du sens de l’ouïe. Physiquement, le son s’analyse comme une variation de pression au voisinage de l’oreille, cette onde de pression se propageant de sa source jusqu'à l’oreille avec une célérité de c=340m/s environ. Un son est caractérisé par : • son niveau ou intensité • sa hauteur liée à la fréquence de son fondamental • son timbre lié à sa composition spectrale 2
L’intensité d’un son se mesure en Watts/m . Le son le plus faible que l’oreille puisse entendre a une intensité Io de : Io = 10
-12
W/m
2
pour un signal de fréquence 1 kHz 2
Les sons les plus intenses que l’oreille puisse supporter ont une énergie de 100 W/m . La gamme d’intensité s’étend donc sur 14 décades, ce qui est considérable. C’est pour cela qu’on utilise souvent une échelle logarithmique pour exprimer l’intensité d’un son en dB par rapport au niveau de référence Io précédent : I en dB = 10log( I/Io )
Voici quelques exemples de niveaux sonores :
0 dB
seuil d’audition bourdonnement de moustique à 2 m
20 dB
intérieur d’un studio d’enregistrement
40 dB
conversation normale
60 dB
conversation vive
80 dB
rue bruyante
100 dB
marteau piqueur à 2 m
120 dB
réacteur d’avion à 10 m
130 à 140 dB
seuil de douleur
Une oreille jeune est capable d’entendre des sons dans une gamme de fréquence très vaste qui va de 20 Hz à 20 kHz, soit 10 octaves ou 3 décades.
jean-philippe muller
Le traitement numérique du signal audio
4
Le niveau minimal de sensibilité ( seuil d’audition ) et le niveau maximal ( seuil de douleur ) ne sont pas constants sur toute la gamme de fréquences. Le diagramme suivant montre la répartition en niveau et en fréquence des sons audibles : Figure 1. L’étendue des sons audibles
Les courbes de Fletcher montrent que l’impression de niveau sonore change avec la fréquence du signal écouté : Figure 2 Les courbes de Fletcher
Cette variation de sensibilité en fonction de la fréquence explique les faits suivants : • • •
le piccolo ou le triangle émergent facilement de l’orchestre on entend beaucoup mieux un petit sifflet à 4 kHz qu’un gros tuyau d’orgue à 30 Hz les cordes graves d’un instrument émettent plus de puissance que les aiguës, mais la sensation d’intensité est la même
jean-philippe muller
Le traitement numérique du signal audio
5
A l’intérieur du champ d’audition, on définit : •
la sensibilité différentielle d’intensité liée à la variation minimale d’intensité que peut déceler l’oreille
Figure 3. Sensibilité différentielle de l’oreille.
On constate que dans la partie centrale du champ cette sensibilité différentielle est constante et vaut environ 10%. Cela veut dire que l’oreille peut distinguer une variation d’intensité qui passe de : la valeur I1 à I2 = 0,9.I1
soit en dB :
10 log(I2/I1) = -0,5 dB
De ce chiffre découle directement un critère de qualité d’une chaîne de reproduction sonore pour laquelle les variations de la courbe de réponse devront être inférieures à ± 0,5 dB. •
la sensibilité différentielle de hauteur liée à la variation minimale de fréquence que peut déceler l’oreille
Figure 4. Sensibilité différentielle de hauteur.
Dans la partie centrale du champ d’audition, cette sensibilité vaut 0,3 % ce qui veut dire que l’oreille peut déceler une variation de hauteur entre deux sons dont l’un est à f1 = 1000 Hz et l’autre à f2 = 1003 Hz. Cette bonne sensibilité de l’oreille aux variations de hauteur a compliqué la tâche des concepteurs de magnétophones au niveau du taux de pleurage qui devra évidemment rester en-dessous de la sensibilité de l’oreille.
jean-philippe muller
Le traitement numérique du signal audio
6
2) Analyse spectrale et timbre d’un son : Le signal le plus simple du point de vue contenu fréquentiel est un signal sinusoïdal comme : x(t) = Esin(ωt)
car il ne contient qu’une seule fréquence f = ω/2π
Un signal parlé ou musical est plus complexe puisque son allure varie au cours du temps. Il contient des fréquences graves, moyennes et aiguës. On dit que son spectre s’étend de 20 Hz à 20 kHz et varie en permanence entre ces deux limites. Le spectre d’un signal est la représentation en fonction de la fréquence des amplitudes des différentes composantes présentes dans ce signal.
Voici quelques exemples de spectres simples tracés sans aucun calcul : • Figure 5. Spectre d’un signal sinusoidal.
signal sinusoïdal x(t) = 10sin(40t)
amplitude
10
pulsation
40
Remarque : lorsqu’on trace un spectre on ne s’intéresse sauf exception qu’à l’amplitude de la composante et pas à sa phase •
Figure 6 Spectre d’une somme de sinusoïdes.
signal composite x(t) = 3cos(15t) + 10sin(40t) + 6cos(60t + π/2)
amplitude
10 6 3 pulsation
15
40
60
Il est clair que ces signaux trop simples sont rarement intéressants. Les signaux utiles à analyser sont ceux qui contiennent une information comme les signaux audio, vidéo, etc ... et dont le spectre est plus riche. Suivant le type de signaux, nous disposons d’outils mathématiques et d’appareils analyseurs de spectre qui nous permettent d’avoir accès à la représentation spectrale du signal.
jean-philippe muller
Le traitement numérique du signal audio
7
Pour les signaux périodiques, nous avons à notre disposition la décomposition en série de Fourier ( voir Annexes A1, A2 et A3 ) qui nous permet de calculer mathématiquement le spectre de cette catégorie de signaux. Un signal périodique de fréquence f a un spectre formé de raies aux fréquences : •f • 2f • 3f
c’est le fondamental ------- l’harmonique 2 ------- l’harmonique 3
etc ...
Voici le spectre d’un signal triangulaire à 300 Hz relevé avec un analyseur :
Figure 7. Spectre d’un signal triangulaire.
10 dBEr X(t)
-10
t
300 Hz Echelle y
-20 fenêtre
T
Fmax
Position du marqueur
Niveau du fondamental
On note la présence des harmoniques impairs qui décroissent si la fréquence augmente. Pour un signal audiofréquence, le calcul mathématique strict n’est plus possible puisqu’on ne dispose pas de l’équation mathématique du signal en fonction du temps. Pour accéder au spectre il faut alors disposer d’un analyseur de spectre ( batterie de filtres décalés ou analyseur à transformée de Fourier discrète ). Voici l’oscillogramme et le spectre d’une tranche de musique du groupe Dire Straits de durée 10 ms : Figure 8. Spectre d’un signal musical.
jean-philippe muller
Le traitement numérique du signal audio
8
La répartition et les amplitudes des harmoniques ont une importance fondamentale en musique puisque c’est cela qui définit le timbre d’un instrument . Le son d’un violon est différent de celui de la trompette et de l’orgue parce que les spectres de ces 3 instruments ont une composition en harmoniques différente. Figure 9. Oscillogrammes et spectres du son : ! de violon ! de trompette ! d’orgue
D’autre part, pendant la durée d’une note, l’allure temporelle et la composition harmonique ne restent pas identiques. C’est cela qui rend la musique si vivante et si riche. Cette « vie » des harmoniques est bien mise en évidence sur les enregistrements suivants où on voit l’évolution du spectre en fonction du temps, l’amplitude de la raie se traduisant par l’épaisseur du trait : Figure 10. Sonagrammes d’instruments de musique.
On peut noter : •
le bruit d’attaque pour le violon et le piano
•
le bruit de souffle pour la flûte
•
l’importance des harmoniques impairs pour la clarinette, liée au son nasillard
•
la durée de vie et l’amplitude variables des différents harmoniques
jean-philippe muller
Le traitement numérique du signal audio
9
Dans le même ordre d’idée, voici l’évolution d’un son de piano : Figure 11. Evolution du son d’un piano au cours du temps.
Spectre
t1
t2 > t1
t3 > t2
t4 > t3 Oscillogramme
3) Le mécanisme de l’audition : Le système auditif humain est constitué d’un capteur ( l’oreille ) relié électriquement par un faisceau de nerfs à un centre de traitement de l’information ( le cerveau ).
Figure 12. Structure de l’oreille.
Les sons sont captés par le pavillon et font vibrer le tympan. Cette vibration est transmise par les osselets à la fenêtre ovale. Les 3 osselets ( marteau, enclume et étrier ) sont des merveilles de mécanique puisqu’ils transmettent les vibrations de faible amplitude avec une bonne efficacité, alors que les vibrations intenses correspondant à des sons forts font bouger les osselets latéralement , ce qui diminue l’efficacité de la transmission.
jean-philippe muller
Le traitement numérique du signal audio
10
Les osselets jouent donc le rôle important de contrôle de volume permettant d’éviter la dégradation de l’organe sensible si le son est trop fort. Les vibrations transmises à la fenêtre ovale se propagent ensuite dans le limaçon à une distance qui dépend de la fréquence et excitent les cellules de Corti qui envoient au cerveau des impulsions (jusqu'à 1000 par seconde ) dont le nombre dépend de l’intensité du son. On voit que le limaçon effectue une analyse spectrale du son, ce qui explique que les modèles psychoacoustiques conduisant à des techniques de compression de débit numérique devront obligatoirement passer par une transformation dans le domaine des fréquences. Le système auditif peut donc être schématisé par le diagramme suivant : Figure 13. Diagramme fonctionnel de l’oreille.
réflexe Nerf tympan
Osselets CAG
limaçon
Cellules de Corti
cerveau
volontaire
Le contrôle de volume peut-être volontaire : • •
quand on tend l’oreille, on se met à la sensibilité maximale quand on s’attend à un bruit fort, on se met à la sensibilité minimale
ou réflexe : • •
si le niveau sonore augmente, l’oreille diminue automatiquement sa sensibilité si le niveau sonore est faible, la sensibilité de l’oreille augmente
En conséquence, la sensation sonore n’est pas du tout proportionnelle à l’intensité du son à cause de ce phénomène de contrôle automatique de gain, mais à peu près proportionnelle au logarithme de l’intensité. L’oreille a d’énormes qualités au niveau de la sensibilité et de la dynamique, mais n’est pas un bon indicateur de niveau sonore.
4) Les phénomènes de masquage : Nous avons vu que le fonctionnement mécanique de l’oreille est modifié par l’intensité du son qui arrive sur le tympan. On comprend donc que la perception d’un son de faible intensité soit modifiée par la présence ou l’absence d’un autre son plus intense . Un son intense pourra même empêcher la perception de sons de faible intensité : c’est le phénomène de masquage qui se manifeste : • dans une plage de fréquence autour du son intense ( masquage fréquentiel ) • pendant la durée du son intense et même un peu plus ( masquage temporel )
jean-philippe muller
Le traitement numérique du signal audio
11
Ce phénomène de masquage est tellement courant qu’on n’y prête plus guère attention . Par exemple, le passage d’une voiture nous empêche momentanément d’entendre le gazouillis des oiseaux. Les courbes suivantes montrent comment un signal A perçu lorsqu’il est seul puisque d’un niveau supérieur au seuil d’audition devient inaudible parce que masqué par un signal B plus intense. Figure 14. Mise en évidence de l’effet de masquage.
On voit bien que la courbe de seuil d’audition est fortement modifiée par la présence du son B. Du fait de l’inertie mécanique des osselets, ce masquage se prolonge quelques dizaines de millisecondes après la suppression du signal B : un son intense masque les sons plus faibles le suivant ou le précédent immédiatement.
Figure 15. Le masquage dans le temps.
jean-philippe muller
Le traitement numérique du signal audio
12
II) L’intérêt de la numérisation du son : 1) Pallier les défauts du support : La difficulté de stocker un signal musical trouve son origine dans l’extraordinaire gamme de niveaux (14 décades ) et la plage de fréquences ( 3 décades ) qu’il faut reproduire. Cette dynamique de 14 décades ne peut pas être reproduite actuellement, mais on estime que 10 décades, soit une plage de 100 dB, est tout à fait satisfaisante même pour les mélomanes les plus exigeants. Il ne faut pas perdre de vue que pour produire un son d’intensité I = 120 dB correspondant à un piano jouant à fortissimo avec des enceintes de rendement élevé de 95 dB/W il faudra leur fournir une puissance électrique P = 300 W efficaces, ce qui montre que le problème de la dynamique ne se rencontre pas seulement au niveau du support d’enregistrement.
Prenons l’exemple de l’enregistrement magnétique analogique d’un signal musical pour lequel le signal est inscrit sous forme d’état magnétique de l’oxyde de fer ou de chrome couché sur la bande. Du fait de la structure granulaire de l’oxyde, le défilement de la bande produit dans la tête de lecture un bruit de fond à répartition spectrale quasi uniforme. Ce bruit de fond définit un seuil en-dessous duquel le signal enregistré n’est plus exploitable. Pour les forts niveaux, les non-linéarités et les saturations définissent le niveau maximal admissible pour un taux de distorsion donné. L’écart entre ces deux limites définit la dynamique du système de l’ordre de 40 dB . Pour produire des systèmes d’enregistrement plus performants, on a du développer des techniques analogiques destinées à réduire le bruit de fond de la bande et donc à améliorer la dynamique. C’est toute la famille des réducteurs de bruit développés par les laboratoires Dolby qui compriment la dynamique avant l’enregistrement et appliquent une expansion de dynamique à la lecture : Figure 16. Action du circuit de compression et d’expansion de dynamique.
Grâce à ces circuits, la dynamique des enregistreurs analogiques actuels de très bonne qualité atteint les 70 dB.
jean-philippe muller
Le traitement numérique du signal audio
13
En ce qui concerne la bande passante, de nombreux facteurs interviennent pour perturber la courbe de réponse : •
du coté des basses-fréquences, on retrouve la difficulté très générale de transmettre des signaux lentement variables auxquels se superposent des dérives inévitables ainsi que la limitation due au principe de lecture basé sur la variation de flux
•
du coté des fréquences élevées, nous trouvons les limitations dues à l’inertie des systèmes mécaniques, à la constante de temps des circuits électriques, ainsi qu’à la largeur de l’entrefer.
Figure 17. Irrégularité de la courbe d’enregistrement magnétique.
Grâce à une électronique analogique très soignée, on arrive à obtenir une courbe de réponse a peu près linéaire dans la gamme de fréquences allant de 30 Hz à 10 kHz : Figure 18. Courbe de réponse d’un enregistreur analogique.
Dans le cas d’un enregistrement numérique, le signal à inscrire sur la bande est un signal binaire. Celui-ci sera également affecté et donc déformé à cause des limitations de la bande passante et des défauts du système. Mais aussi longtemps que cette déformation reste raisonnable, on pourra reconstituer le signal initial à l’aide d’un dispositif de remise en forme du signal à la lecture. La distorsion introduite par les limitations du support pourra donc être supprimée. C’est une différence importante avec l’enregistrement analogique dans lequel la dégradation est irréversible et augmente à chaque nouvel enregistrement. jean-philippe muller
Le traitement numérique du signal audio
14
2) Maîtriser la dégradation du signal : Pour enregistrer un signal audiofréquence sous forme numérique, un certain nombre d’opérations sont nécessaires : • prendre des échantillons à des intervalles de temps suffisamment faibles • convertir ces échantillons en valeurs numériques sur un nombre de bits N Ces opérations, étudiées dans le paragraphe Acquisition , sont résumées sur le dessin ci-dessous : Figure 19. Principe de l’acquisition d’un signal analogique.
Au cours de l’opération de numérisation, on peut essentiellement agir sur deux paramètres : • la fréquence d’échantillonnage fe • le nombre de bits N sur lequel va être codé un échantillon Si la fréquence d’échantillonnage est bien choisie, la seule erreur introduite au cours de la numérisation résulte de l’approximation faite en codant un nombre infini de valeurs analogiques par un N nombre fini 2 de niveaux binaires. Contrairement à ce qu’on entend quelquefois, le numérique n’est pas « parfait », simplement on peut , en augmentant le nombre de bits N , diminuer autant qu’on veut l’erreur introduite par la numérisation. Avec , comme objectif, de maintenir l’erreur de quantification en dessous du seuil de sensibilité de l’oreille.
On montre que le rapport signal/bruit après cette opération de quantification dépend du nombre de bits N par la relation :
S/B en dB ≈ 6.N + 2 soit :
S/B = 50 dB pour un codage sur 8 bits S/B = 98 dB pour un codage sur 16 bits ( qualité CD )
Pour respecter intégralement la dynamique de l’oreille de 140 dB, et en supposant que les autres maillons de la chaîne puissent restituer cette dynamique..., il faudrait coder le signal sur 23 bits.
jean-philippe muller
Le traitement numérique du signal audio
15
A la lecture, les signaux binaires sont remis en forme, le cas échéant restaurés grâce aux algorithmes de corrections d’erreurs puis transformés en échantillons analogiques : Figure 20. Principe de la restitution d’un signal analogique.
Dans cette opération de lecture, une distorsion peut s’introduire lors de la reconstitution du signal analogique à partir du signal en marche d ’escalier ( voir paragraphe Restitution ). En conclusion, le passage à un signal numérique se fait avec introduction d’une erreur maîtrisée et choisie à priori, alors qu’on s’affranchit de la dégradation liée au support ou au canal de transmission subie dans un traitement analogique.
3) Utilisation de traitements particuliers : Une fois le signal numérisé, un grand nombre de traitements sont possibles grâce aux progrès spectaculaires faits ces dernières années dans le domaine du traitement numérique du signal. On peut évidemment citer des traitements classiques comme la correction de timbre ou le filtrage passe-haut et passe-bas. Mais grâce aux techniques numériques, on pourra aussi supprimer des défauts localisés affectant le support : c’est le rôle imparti aux techniques de correction d’erreurs. Les données numériques correspondants aux différents échantillons du son sont brassés avant d’être inscrits sur le support. Ainsi, si par suite d’un défaut du support des données sont perdues, le système numérique pourra les retrouver par un calcul mathématique d’interpolation. On peut de cette façon supprimer l’effet d’un petit trou dans la couche d’oxyde lors d’un enregistrement magnétique, et d’une poussière ou d’une rayure sur un CD audio, ce qui est impossible à faire sur un enregistrement analogique. Le traitement numérique du signal a permis aussi de faire une numérisation plus « intelligente » dans le but de réduire le flot de données numériques à transmettre ou à stocker. C’est toute la famille des techniques de compression de débit dont les applications s’étendent rapidement.
jean-philippe muller
Le traitement numérique du signal audio
16
Voici la situation au point de vue du bruit de quantification après une numérisation de type classique : Figure 21. Bruit de quantification apparaissant à l’acquisition.
Le bruit de quantification est la plupart du temps largement en dessous du seuil d’audition, ce qui est un « luxe » puisque cela correspond à un débit numérique qu’on pourrait réduire. Dans les techniques de compression de débit actuelles, on analyse le signal à l’aide de filtres sélectifs numériques et on digitalise chaque bande de fréquence sur un nombre de bits juste suffisant pour que le bruit de quantification reste un peu inférieur au seuil d’audition : Figure 22. Le codage par bandes permet de maintenir le bruit de quantification juste en-dessous du seuil d’audition.
Il est clair qu’à cause de l’effet de masquage la courbe de sensibilité de l’oreille se déforme au cours du temps en fonction du contenu musical du signal. Seul un traitement numérique puissant permettra de réaliser la fonction ainsi décrite. Ces techniques de compression du débit numérique ont fait des progrès très importants ces dernières années et sont utilisées de façon quasi systématique dans tous les systèmes audio et vidéo numériques. Figure 23. Les différentes réductions de débit utilisées dans la pratique.
Il est clair que la qualité diminue lorsque le taux de compression augmente, et le choix final ne peut aboutir qu’à un compromis débit numérique/qualité.
jean-philippe muller
Le traitement numérique du signal audio
17
III) Acquisition d’un signal analogique : Elle se fait en trois phases distinctes : • la prise d’un échantillon ou échantillonnage • son maintien durant la conversion A/N ou blocage • la conversion analogique-numérique Figure 24. Structure de la chaîne d’acquisition d’un signal analogique.
Signal analogique
Signal numérique sur n bits échantillonneur
x(t)
x(t)
x(t)
CAN
bloqueur
t
t
L’échantillonnage modifie la forme du signal et donc son spectre . On étudiera successivement les différents aspects de cette acquisition. 1) Echantillonnage : Pour échantillonner un signal analogique continu x(t) et le transformer en une suite discrète d’échantillons x*(t), on prélève périodiquement à des intervalles de temps Te la valeur du signal. Cette fonction de prélèvement d’échantillons est assurée par un commutateur analogique K qui se ferme durant un temps to très bref toutes les Te secondes. Ce temps to s’appelle temps d‘ouverture de la porte d’échantillonnage. Figure 25. L’échantillonneur.
x(t)
x*(t) Te
Le signal échantillonné est constitué par un train d’impulsions espacées de Te , de largeur to et d’amplitude x(nTe). Figure 26. Allure temporelle d’un signal échantillonné.
x*(t)
to t
Te
2Te
3Te
4Te
jean-philippe muller
Le traitement numérique du signal audio
18
On peut considérer que ce signal échantillonné x*(t) peut être obtenu à partir du signal analogique x(t) en le multipliant par le signal d’échantillonnage d(t) suivant :
Figure 27. Allure temporelle du signal d’échantillonnage.
d(t)
1
t Te
2Te
3Te
4Te
Le signal d’échantillonnage d(t) est caractérisé par : • une période de répétition Te • une largeur to • une amplitude unité
x*(t) = x(t).d(t)
On écrira donc :
Cette manière de voir permet de mettre en évidence simplement les effets de l’échantillonnage sur le spectre du signal x(t).
2) Spectre d’un signal échantillonné : Le signal d’échantillonnage d(t) est un signal périodique dont la décomposition en série de Fourier contient une valeur moyenne do , un fondamental d1 à la fréquence fe = 1/Te et des harmoniques dn :
d(t) = do + d1.cos(ωet) + d2.cos(2ωet) + ... + dn.cos(n.ωet) + ...
avec :
do = to/Te
et
dn = 2.sin(nπto/Te) nπ
Comme la durée d’ouverture to est faible par rapport à la période d’échantillonnage Te, l’angle nπto/Te est petit et on pourra confondre le sinus avec l’angle pour les premiers harmoniques , soit : dn ≈ 2. nπto/Te. nπ ≈ 2to/Te Le début du spectre de d(t) a donc l’allure suivante : Figure 28. Début du spectre du signal d’échantillonnage.
amplitude 2to/Te
to/Te fréquence Fe = 1/Te
2Fe
3Fe
4Fe
jean-philippe muller
Le traitement numérique du signal audio
19
Le signal échantillonné x*(t) s’écrit alors : x*(t) = x(t).d(t) = x(t).( to/Te + 2to/Te. cos(ωet) + 2to/Te. cos(2ωet) + ... ) = x(t).to/Te + 2to/Te.x(t). cos(ωet) + 2to/Te.x(t). cos(2ωet) + ... On constate que le signal échantillonné est beaucoup plus riche puisqu’il contient des termes à tous les multiples de la fréquence d’échantillonnage Fe. Plaçons nous dans le cas particulier simple d’un signal échantillonné x(t) sinusoïdal dont le spectre est formé d’une raie à F : x(t) = Acos(Ωt) Le signal échantillonné s’écrit alors : x*(t) = to/Te.Acos(Ωt) + 2to/Te.Acos(Ωt).cos(ωet) + 2to/Te.Acos(Ωt).cos(2ωet) + ... = to/Te.Acos(Ωt)+ to/Te.A(cos(ωe-Ω)t)+ cos(ωe+Ω)t)+ to/Te.A(cos(2ωe-Ω)t)+ cos(2ωe+Ω)t) + ... et le spectre du signal sinusoïdal échantillonné x*(t) a l’allure suivante : Figure 29. Spectre d’une sinusoïde échantillonnée.
amplitude
Ato/Te
fréquence F
Fe-F Fe+F
2Fe-F 2Fe+F
On obtient le spectre de x*(t) en reproduisant le spectre de x(t) autour de chaque multiple de la fréquence d’échantillonnage Fe.
Ce résultat se généralise à un signal x(t) de forme quelconque et permet de dessiner sans peine le spectre du signal échantillonné x*(t) correspondant : Figure 30. Spectre d’un signal échantillonné quelconque.
Amplitude
Amplitude
Vto/Te
V fréquence Fmax Spectre du signal x(t)
fréquence Fe
2Fe
Spectre du signal échantillonné x*(t)
Le signal échantillonné a un spectre extrêmement riche, ce qui était évident à priori puisqu’il s’agit d’un train d’impulsions très fines. Cette grande étendue spectrale ne pose pas de problème puisque ce signal n’est pas destiné à être amplifié, mais sera immédiatement bloqué puis converti en signal numérique . jean-philippe muller
Le traitement numérique du signal audio
3) Règle de Shannon
20
:
Cette décomposition un peu théorique il est vrai entre l’échantillonneur et le bloqueur nous permet de mettre en évidence de façon simple les règles qu’il faut respecter pour une acquisition correcte et en particulier comment choisir la fréquence d’échantillonnage pour un signal donné. En effet, l’opération d’échantillonnage ne doit pas amener une perte d’informations. Autrement dit l’opération d’échantillonnage doit être réversible et on doit pouvoir repasser du signal échantillonné au signal initial. On voit facilement que ceci n’est possible que si la fréquence Fe est suffisamment élevée, d’où le résultat fondamental : Si on ne veut pas perdre d’information, il faut que la fréquence d’échantillonnage soit au moins égale au double de la fréquence maximale Fmax contenue dans le signal. Dans ce cas, on pourra revenir en arrière par simple filtrage passe-bas. Figure 31. Signal échantillonné avec le bon choix de Fe
Amplitude Amplitude Filtre Vto/Te
V fréquence
fréquence
Fmax
Fe
2Fe
Si on n’échantillonne pas assez vite, les différents paquets spectraux se recouvrent. Figure32. Signal échantillonné à une fréquence d’échantillonnage in correcte..
Amplitude Amplitude
Vto/Te
V fréquence
fréquence Fmax
Fe
2Fe
Dans la pratique, la règle de Shannon nous conduit aux choix suivants : • Son en qualité téléphonique : Fmax = 3 kHz et Fe = 8 kHz Chaque échantillon est codé sur 8 bits, soit un débit D = 8.8000 = 64 kbits/s • Son en qualité hi-fi : Fmax = 20 kHz et Fe = 44,1 kHz Codage en stéréo sur 16 bits, soit un débit D = 2.16.44100 = 1,41 Mbits/s
jean-philippe muller
Le traitement numérique du signal audio
21
4) Filtre anti-repliement : Le bon choix de Fe nécessite de bien connaître la valeur de Fmax, fréquence maximale contenue dans le signal à échantillonner. A ce niveau, il ne faut pas confondre la fréquence maximale utile ( par exemple 20 kHz pour la musique ) avec la fréquence maximale effectivement présente dans le signal qui est toujours supérieure à la fréquence précédente ( bruit produit par le préamplificateur du micro au delà de 20 kHz par exemple ). Plaçons-nous par exemple dans la situation de l’enregistrement numérique d’un musicien en studio. Le pianiste joue son morceau, la musique est enregistrée à l’aide d’un microphone qui, avec son préamplificateur, a une bande passante de 40 kHz. Personne n’a remarqué la chauve-souris qui dormait dans l’instrument et qui, réveillée par la musique, pousse des cris parfaitement inaudibles puisque dans la bande ultrasonore. Le microphone fournit donc un signal électrique composé: • de la musique produite par le musicien dans la bande 20 Hz-20 kHz • de bruit électrique à densité spectrale constante dans la bande 0-40 kHz • du cri de la chauve-souris à 35 kHz L’ingénieur du son choisit une fréquence d’échantillonnage Fe = 44,1 kHz en pensant respecter parfaitement la règle de Shannon. C’est parfaitement vrai pour la musique, mais pas pour le bruit, ni pour le cri de la chauve-souris. Le spectre du signal échantillonné est alors le suivant : Figure 33. Spectre d’un signal musical + bruit échantillonnés.
Amplitude
Raie parasite repliée à 9,1 kHz
Raie parasite à 35 kHz
f en kHz f en kHz 20
40
Fe
On constate l’apparition dans la bande audio par repliement de spectre : • •
du cri de la chauve-souris à 44,1 - 35 = 9,1 kHz qui est devenu audible d’une augmentation du bruit provenant du bruit au-delà de 20 kHz replié vers les BF
Pour éviter ces problèmes, il faut s’assurer que le spectre est vraiment limité à Fmax. La meilleure façon de s’en assurer est de placer un filtre à coupure raide qui supprimera tous les signaux parasites au-delà de la fréquence limite Fmax : c’est le filtre anti-repliement.
Ce filtre passe-bas doit avoir les spécifications suivantes : • fréquence de coupure égale à Fmax • variations de gain minimales dans la bande passante • pente la plus raide possible après la coupure • atténuation hors bande passante adaptée au nombre de bits N de la numérisation En effet, les signaux parasites au-delà de Fmax vont être atténués par le filtre anti-repliement et se retrouver dans la bande du signal. Pour que ces parasites repliés ne soient pas gênant, il suffit que leur niveau soit suffisamment faible c’est à dire d’un niveau inférieur à la résolution du convertisseur analogique-numérique.
jean-philippe muller
Le traitement numérique du signal audio
22
Par exemple, on désire échantillonner un signal de fréquence maximale Fmax = 1 kHz et le numériser sur 8 bits. Le rapport signal/bruit après numérisation sera de : S/B = 6.N + 2 = 50 dB On utilisera donc une filtre anti-repliement coupant à fc = 1 kHz, au moins du 6 ayant une atténuation hors bande d’au moins 60 dB
ème
ou du 8
ème
ordre,
On pourra par exemple utiliser un filtre MAXIM Max 294 du huitième ordre dont la courbe de réponse a l’allure suivante : Figure 34. Exemple de gabarit de filtre anti-repliement.
Dans le cas d’une acquisition d’un signal musical sur 16 bits, le filtre anti-repliement aura nécessairement une atténuation supérieure à 100 dB hors bande, ce qui n’est pas sans poser des problèmes de réalisation technologique . En conclusion, le filtre anti-repliement ne supprime pas le phénomène de repliement, mais atténue le signal replié au point de le rendre négligeable.
5) Le bloqueur : Pour permettre la conversion analogique-numérique entre deux instants d’échantillonnage, il faut maintenir la valeur du signal x(nTe) à l’entrée du convertisseur jusqu’à l’arrivée de l’échantillon suivant. De ce fait l’échantillonneur est toujours suivi dans la pratique d’un circuit de maintien appelé bloqueur.
Figure 35. L’échantillonneurbloqueur
Dans la pratique, cette mémorisation de la grandeur analogique est toujours réalisée à l’aide d’un condensateur qui devra être choisi avec un faible courant de fuite. jean-philippe muller
Le traitement numérique du signal audio
23
Voici un exemple de réalisation pratique d’un échantillonneur bloqueur :
Figure 36. Exemple pratique d’échantillonneurbloqueur.
R
R Le dispositif fonctionne en deux temps :
x(t )
•
C
K
K fermé : échantillonnage
C se charge à la tension x(nTe) avec une constante de temps RC
+
• s( t)
K ouvert : phase de blocage
C garde sa charge et on a s(t) = -x(nTe)
Pour éviter une perte de charge de C durant la phase de maintien, il faut utiliser un Aop à faible courant d’entrée et un condensateur de très bonne qualité à faibles pertes.
6) Quantification : Le signal en marches d’escalier peut maintenant être converti en une suite de valeurs binaires. Il faut donc classer les échantillons analogiques selon différents niveaux : c’est le rôle du quantificateur réalisé en pratique par le convertisseur analogique-numérique. Voici par exemple la caractéristique de transfert d’un quantificateur sur 4 bits en code binaire décalé : Figure 37. Caractéristique de transfert d’un quantificateur linéaire.
jean-philippe muller
Le traitement numérique du signal audio
24
Il est clair qu’en remplaçant une échantillon par un autre de valeur voisine, on introduit une erreur d’arrondi quasiment aléatoire appelée bruit de quantification. Cette erreur d’arrondi sera d’autant plus faible que le nombre de niveaux numériques sera grand, elle diminue donc lorsque le nombre de bits N augmente. C’est à ce niveau que se trouvent la faiblesse et la force des systèmes numériques : • faiblesse car on dégrade la qualité en quantifiant • force car on peut toujours améliorer la qualité en augmentant le nombre de bits N
Rappelons la formule donnant l’importance de ce bruit de quantification :
S/B en dB = 6.N + 2 Ce rapport Signal/Bruit est évidemment atteint pour un signal d’amplitude maximale Smax utilisant la N pleine échelle des 2 niveaux. Le bruit de quantification a une valeur crête égale au quantum Q. Si l’amplitude du signal traité diminue, le rapport S/B se dégrade. Voici l’allure du bruit de quantification pour un signal quelconque : Figure 38. La valeur crête du bruit de quantification ne dépend pas du niveau du signal.
Contrairement au bruit d’un système analogique, ce type de bruit qui se traduit par une sorte de bourdonnement n’apparaît qu’en présence d’un signal. Un convertisseur analogique-numérique 8 bits travaille sur une plage d’entrée de -5V à +5V. La conversion se fera donc sur 256 niveaux. Le bruit de quantification a une valeur crête de Q = 10/256 = 40 mV quel que soit l’amplitude du signal. • un signal d’entrée sinusoïdal d’amplitude 5V sera digitalisé sur 256 niveaux, d’où un rapport S/B = 6.N + 2 = 50 dB • un signal d’entrée sinusoïdal d’amplitude 2,5V sera digitalisé sur 128 niveaux soit 7 bits , d’où un rapport S/B plus faible de : S/B = 44 dB.
jean-philippe muller
Le traitement numérique du signal audio
25
La courbe montrant l’évolution du rapport signal/bruit après quantification sur 8 bits en fonction du niveau du signal traité met en évidence le phénomène :
Figure 39. Dans un système à quantification linéaire, le rapport S/B diminue avec le niveau du signal.
S/B dB après quantification 50 40 30
-50 - 40
-30
-20
-10
20 0
niveau du signal S/Smax
Cette dégradation du rapport S/B pose un problème dans des applications comme le téléphone pour lequel la voix est justement codée sur N = 8 bits. Si on veut avoir un confort d’écoute satisfaisant, il faut avoir au moins une dynamique de 30 à 40 dB, ce qui veut dire qu’un conversation à fort niveau ( -5dB ) se fera avec une qualité tout à fait satisfaisante ( S/B = 45 dB ), alors qu’une conversation plus « intime » (-40dB ) se fera avec une piètre qualité ( S/B = 10 dB ). Pour pallier à ce défaut, on utilise en téléphonie une courbe de quantification non linéaire qui permet d’avoir un rapport S/B constant sur une plage de dynamique supérieure à 30 dB.
Figure 40. Exemple de système à quantification non-linéaire.
Dans le cas de la musique échantillonnée sur 16 bits, la situation est un peu différente. En effet, avec une quantification sur 16 bits le rapport signal/bruit est voisin de 100 dB à niveau maximal. Si la chaîne de reproduction sonore est capable de fournir à niveau maximal un volume sonore de 110 dB ( amplificateur de 100 W, enceintes de rendement 90 dB/W ), le bruit de quantification reste à un niveau de 10 dB , soit à peine au-dessus du seuil d’audition.
jean-philippe muller
Le traitement numérique du signal audio
26
Figure 41. Le niveau de bruit de quantification dans un système audio numérique à 16 bits.
Ce bruit de quantification sera probablement plus faible que le bruit thermique en sortie de la chaîne de reproduction sonore et que le bruit ambiant. Ceci explique pourquoi on n’utilise jamais de quantification non linéaire dans les systèmes de traitement du son digitalisé sur 16 bits.
jean-philippe muller
Le traitement numérique du signal audio
27
IV) Restitution d’un signal analogique : 1) Par circuit de maintien
:
En sortie du système numérique, il faut transformer la séquence numérique yn en signal analogique y(t). Pour cela, la séquence yn est appliquée à un convertisseur numérique analogique qui fournit en sortie les échantillons y(nTe). Ces convertisseurs sont toujours équipés d’un bloqueur qui maintient en sortie la valeur de l’échantillon y(nTe) jusqu'à l’arrivée de l’échantillon suivant y((n+1)Te). Le signal en marches d’escaliers ainsi obtenu est simplement lissé par un filtre passe-bas. Figure 42. Structure d’un système de restitution.
yn
CNA
y*(t)
y’(t) Bloqueur
Passebas
y(t)
amplitude
temps
Dans cette figure, les différents types de traits correspondent aux signaux suivants :
y*(t) : échantillons analogiques correspondant aux valeurs numériques yn yi(t) : signal analogique idéal passant par les échantillons y*(t) y(t) : signal réellement obtenu en sortie du filtre passe-bas de restitution
On constate que cette structure ne fournit pas le signal idéal yi(t), mais une approximation y(t) de ce signal, ce qui n’est guère acceptable dans un système de reproduction du son de bonne qualité. En théorie, on peut obtenir yi(t) à partir de y*(t) par simple filtrage passe-bas :
Figure 43. Restitution du signal analogique par filtrage passe-bas.
Amplitude Filtre passe-bas
Vto/Te fréquence Fe
2Fe
Cette solution n’est pourtant pas envisageable dans la pratique parce qu’elle donne un signal yi(t) certes exact, mais d’amplitude extrêmement faible et donc forcément parasité par des signaux numériques (horloge par exemple ). jean-philippe muller
Le traitement numérique du signal audio
28
Pour voir simplement l’influence du bloqueur sur le signal de sortie, dessinons le spectre du signal en sortie du bloqueur en considérant celui-ci comme un filtre dont la transmittance (et par conséquent aussi la courbe de gain et la courbe de phase) a une expression très particulière :
Figure 44. Transmittance du bloqueur.
Transmittance -Tep
T(p) = 1 - e p
fréquence Fe
2Fe
3Fe
4Fe
Fe
2Fe
3Fe
4Fe
phase fréquence
-
La transmittance du bloqueur est une courbe en sin(X)/X appelée aussi sinus cardinal et la courbe de phase est linéaire.
Pour obtenir le spectre du signal en sortie du bloqueur, il suffit de superposer le spectre des échantillons y*(t) et la transmittance du bloqueur : Figure 45. Restitution par bloqueur.
Amplitude
fréquence Fe
2Fe
On constate les résultats suivants : •
le premier paquet spectral est légèrement déformé à cause de la chute du gain du bloqueur, l’atténuation étant la plus sensible au voisinage de Fmax
•
les paquets autour de Fe, 2Fe ... sont atténués mais subsistent et traduisent la présence des marches d’escalier
jean-philippe muller
Le traitement numérique du signal audio
29
Le filtre passe-bas de restitution permet de supprimer ces paquets autour de Fe, 2Fe ...et ainsi de lisser le signal : Figure 46. Utilisation d’un filtre passe-bas de restitution.
Amplitude
Filtre passe-bas de restitution
fréquence Fe
On constate que le signal y(t) en sortie du filtre de restitution diffère du signal idéal yi(t) correspondant aux échantillons sur deux points : •
une atténuation des fréquences aiguës due à la chute de gain du sinus cardinal ( de l’ordre de 3dB à Fe/2 )
•
un déphasage de Te/2 lié à la courbe de phase du bloqueur qui n’est absolument pas gênant dans la pratique
Pour passer d’un signal numérique au signal analogique correspondant, on dispose actuellement de 3 possibilités suivant les exigences de précision et de simplicité de réalisation qu’on s’impose :
2) Utilisation d’un filtre compensateur de sinus cardinal : On peut très bien grâce au filtre compenser la perte des aiguës en utilisant un filtre dont la courbe de gain augmente légèrement jusqu’à Fmax :
Figure 47. Filtre passe-bas de restitution compensateur de sinus cardinal.
Amplitude
Chute de gain du bloqueur sin(x)/X
Filtre passe-bas de restitution compensant la chute de gain du bloqueur
fréquence Fe
2Fe
Ce filtre doit remonter le gain de 4 dB environ à la fréquence Fe/2. Si on veut une correction parfaite, ce filtre est délicat à réaliser en analogique, vu l’expression particulière de la transmittance du bloqueur. L’Inconvénient de cette technique est qu’elle nécessite la mise en oeuvre d’un filtre analogique assez difficile à réaliser dans la pratique.
jean-philippe muller
Le traitement numérique du signal audio
30
3) Restitution par suréchantillonnage : Le convertisseur numérique-analogique est précédé d’un interpolateur linéaire qui calcule un certain nombre d’échantillons qui seront placés entre yn et yn+1. Dans le cas du quadruple suréchantillonnage, la situation au niveau des échantillons et du spectre est la suivante : Figure 48. Calcul d’échantillons intermédiaires.
yn+1 yn
temps échantillons calculés par l’interpolateur linéaire
On dispose alors de 4 échantillons au lieu d’un seul pour la période d’échantillonnage Te. La nouvelle fréquence d’échantillonnage apparente vaut donc : F’e = 4.Fe et le spectre du signal après conversion et blocage a l’allure suivante :
Figure 49. Signal restitué après suréchantillonnage
Amplitude
Filtre passe-bas de restitution
4 Fe
8 Fe
On constate que dans la bande du signal le gain du bloqueur reste pratiquement à une valeur constante, le signal restitué est donc presque le signal idéal défini précédemment. La seule différence provient du fait que les échantillons intermédiaires ne sont pas des échantillons exacts, mais calculés par interpolation linéaire.
jean-philippe muller
Le traitement numérique du signal audio
31
L’amélioration de la restitution se constate aussi aisément sur le dessin des échantillons : • sans interpolation : Figure 50. Signal restitué sans interpolation.
yi(t) : signal idéal
y(t) : signal réel yn+1
yn temps nTe
(n+1)Te
• avec quadruple suréchantillonnage : Figure 51. Signal restitué avec interpolation.
yi(t) : signal idéal y(t) : signal réel
yn+1 yn
temps échantillons calculés par l’interpolateur
Pour que l’interpolation soit effectivement utile, même entre deux échantillons qui ne diffèrent que par le bit de poids le plus faible, il faut évidemment que les échantillons obtenus par calcul soient codés sur un nombre de bits supérieur que le signal de départ. C’est ainsi que dans les lecteurs de disques compacts actuels qui utilisent couramment l’octuple suréchantillonnage à la restitution, en sortie de l’interpolateur les échantillons sont codés sur 20 voire 22 bits. Cela suppose l’existence de convertisseurs numériques analogique de précision suffisante. Disons simplement qu’on dispose actuellement de convertisseurs adaptés à un octuple suréchantillonnage et que la précision de ces convertisseurs s’améliore sans cesse.
jean-philippe muller
Le traitement numérique du signal audio
32
V) Les systèmes audionumériques actuels : 1) Capacité de stockage et débit numérique : Le standard de numérisation actuel est celui utilisé pour le disque compact et correspond à un échantillonnage à Fe = 44,1 kHz et un codage sur 16 bits pour les deux voies, ce qui correspond à un débit numérique de : D = 2.16.44100 = 1,41 Mbits/s Avec ce standard, le rapport signal/bruit théorique est de 98 dB. Au niveau du support ( disque ou bande ), l’objectif est d’arriver à une capacité de stockage supérieure à 1 heure. Nous en déduisons la valeur de capacité nécessaire : 6
Capacité totale = débit.durée = 1,41.10 .3600 = 5 Gbits/heure = 625 Moctets/heure environ
Ainsi selon le standard précédent : • • •
une disquette ordinaire 1,44 Moctets peut contenir 8 secondes de musique un disque dur 1,2 Goctets peut stocker 2 heure un disque compact peut stocker environ 600 Moctets soit 1 heure de musique
Une autre limitation est la vitesse d’enregistrement et de lecture des données numériques. Si le débit de 1,41 Mbits/s peut être assuré par les procédés optiques, ce chiffre est bien trop rapide pour une tête d’enregistrement et de lecture magnétique fixe. Il a donc fallu développer des techniques particulières qui peuvent se classer en deux familles : • • • •
réduire le débit numérique en s’adaptant à l’oreille sans perte subjective de qualité travailler en parallèle avec plusieurs têtes magnétique utiliser un dispositif d’enregistrement et de lecture optique utiliser des têtes tournantes comme en vidéo
Les dispositifs actuels utilisent tous l’une ou l’autre de ces techniques : • • • •
CD : pas de réduction de débit, lecture optique, stockage optique DAT : pas de réduction de débit, enregistrement, lecture et stockage magnétique minidisc : réduction de débit, enregistrement et lecture optique, stockage magnétique DCC : réduction de débit, enregistrement, lecture et stockage magnétique (abandonné)
Seuls les 3 derniers systèmes permettent un enregistrement facile. Malheureusement les systèmes de protection des oeuvres artistiques mis en place ont beaucoup freiné le développement de ces nouveaux produits.
2) L’enregistreur DAT : Dans la filière de production sonore, l’enregistrement magnétique sur bande ou disque est pratiquement un passage obligé vu son faible coût de revient et sa souplesse aux niveau des traitements ultérieurs (effacement, mixage etc ...). La limitation liée aux têtes de lecture aux hautes fréquences est la plus gênante et conditionne toute la technologie. En effet, il est nécessaire que les signaux élémentaires enregistrés aient une dimension suffisamment importante devant les cristaux magnétiques disposés sur le ruban. Il est aussi nécessaire que ces signaux élémentaires soient d'une taille supérieure à la largeur de l'entrefer de la tête de lecture, chargé de collecter le champ magnétique enregistré.
jean-philippe muller
Le traitement numérique du signal audio
33
Une cassette audio analogique peut fournir un enregistrement à peu près fiable à 10 kHz. La vitesse de défilement standard étant de 4,75 cm/s, la longueur de l'onde enregistrée sur le ruban est donc : λ = 4,75.10 /10 = 4,75 µm -2
4
Cela veut dire que sur une bande magnétique ordinaire on peut enregistrer des données avec une densité de l’ordre de 1 bit tous les 2 µm. Pour un débit d'information de 1,4 Mbits/s, la vitesse de défilement de la bande devra être de : 6
v = 1,4.10 .2. 10
-6
≈ 3 m/s
On est donc loin des 4,75 cm/s des magnétophones analogiques. Le DAT (Digital Audio Tape) fut le premier système d'enregistrement numérique spécialement conçu pour des applications grand public. Le DAT utilise un système à tambour genre vidéo, associé à une cassette de petite taille contenant une cassette de 3,8 mm de large. Elle ressemble fort à une cassette vidéo miniature dont elle reprend le volet de protection qui s'ouvre au moment de l'introduction de la cassette dans le magnétophone. Les DAT fonctionnent aux fréquences compatibles avec les trois grandes catégories d'applications : 48 kHz pour les applications de haute qualité et professionnelles, 44,1 kHz pour la compatibilité avec le Compact Disc, 32 kHz pour la radiodiffusion numérique et les enregistrements longue durée de qualité moindre. Comme dans le cas du disque compact, les données sont enregistrées après brassage et introduction de codes correcteurs d’erreurs, mais le signal ne subit aucun traitement de compression de débit. Dans un DAT la grande vitesse relative tête bande est obtenue en fixant les têtes sur un cylindre rotatif tournant à grande vitesse ( 2000 tours/mn ). Figure 52. Structure mécanique du DAT.
La bande défile à vitesse lente ( 8,15 mm/s ) en contact avec ce cylindre, de manière que chaque tête inscrive sur la bande une piste en décrivant une trajectoire oblique par rapport à l'axe de la bande.
jean-philippe muller
Le traitement numérique du signal audio
34
La vitesse relative résultante est de 3,13 m/s. La densité d’écriture atteint 2400 bits/mm, soit 0,42 µm par bit.
Figure 53. Inscription des données sur la bande.
A l'enregistrement, la rotation de la tête doit être synchronisée avec le signal, de manière que chaque piste comporte une fraction cohérente de signal (une trame entière). Simultanément, on enregistre sur une zone spéciale de la bande prévue à cet effet des signaux qui permettront, à la lecture, de localiser la position des pistes sur la bande et de corriger la trajectoire des têtes. La mécanique est donc délicate. L’électronique de pilotage de la platine est complexe et comprend fréquemment plusieurs microprocesseurs. Les performances obtenues sont excellentes, la bande passante dépendant évidemment du choix de la fréquence d’échantillonnage. Voici les courbes de réponse obtenues sur un appareil de ce type pour les deux fréquences d’échantillonnage possibles : 32 kHz et 48 kHz.
Figure 54. Exemple de courbe de réponse d’un DAT.
Les caractéristiques principales de l’enregistreur DAT sont : • • • • • • •
•
dimensions de la cassette 73 x 54 x 10,5 mm largeur de bande 3,81 mm vitesse de bande 8,15 ou 4,075 mm/s vitesse du tambour 2000 tours/mn vitesse têtes/bande 3,13 m/s ou 11,3 km/h taille d’une piste 23,5 mm x 13,59 µm nombre de bits par piste : 196 blocs de 288 bits soit 56448 bits densité linéaire 2400 bits/mm jean-philippe muller
Le traitement numérique du signal audio
35
3) Le disque compact : Sur ce support, l’information numérisée selon le standard défini précédemment est inscrite sous la forme de cuvettes réfléchissantes car recouvertes d’une fine pellicule d’aluminium. Figure 55. Inscription des données sur un CD.
Lors de la lecture, un point du disque est éclairée par une diode laser à semi-conducteur à arséniure de gallium. Ce composant est réalisé autour d’une jonction P-N polarisée en direct et constituant une cavité résonante. Cette diode laser émet une puissance lumineuse inférieure à 2,5 mW et le courant qu’elle consomme est de l’ordre de 50 à 60 mA. Ce courant augmente lors du vieillissement de la diode laser et peut atteindre 100 mA : on peut alors considérer que la diode laser est épuisée et il faut procéder au remplacement du bloc optique( durée de vie de l’ordre de 6000h ).
Figure 56. Effet de la régulation de puissance sur le courant de la diode.
Pour pouvoir réguler la puissance émise par la diode laser, il faut la mesurer, ce qui se fait par l’intermédiaire d’une photodiode montée dans le boîtier de la diode laser. Figure 57. Structure d’une diode laser.
jean-philippe muller
Le traitement numérique du signal audio
36
Le faisceau lumineux émis par cette diode laser est focalisé sur le disque sous la forme d’un spot plus large que les cuvettes et s’y réfléchit .
Figure 58. Géométrie du trajet optique dans un lecteur CD..
Deux cas peuvent se présenter : •
si le spot tombe sur un endroit dépourvu de cuvette, tout le rayonnement émis par le laser revient alors en phase et l’éclairement de la cible est maximal.
•
si le spot tombe sur une cuvette, une partie du faisceau se réfléchit au fond de la cuvette, l’autre partie du faisceau sur le disque. La profondeur de la cuvette étant de l’ordre de λ/4, la partie du rayonnement se réfléchissant au fond de la cuvette revient avec un déphasage de 180° par rapport au rayonnement se réfléchissant sur le disque. Il en résulte une interférence soustractive et un éclairement de la cible beaucoup plus faible.
•
en b : tout le rayonnement revient en phase, éclairement maximal
•
en a : la moitié du rayonnement se réfléchit dans la cuvette, l’autre moitié ( car S1 + S3 = S2 ) se réfléchit sur le disque. L’éclairement est quasi nul.
•
en c : l’éclairement a une valeur intermédiaire
Figure 59. Technique de lecture des informations sur le disque.
jean-philippe muller
Le traitement numérique du signal audio
37
Le signal en sortie de la photodiode cible a alors l’allure suivante quand le disque tourne : Figure 60. Le signal électrique en sortie du détecteur optique.
Outre la lecture du signal numérique, le bloc optique doit aussi permettre l’asservissement de la focalisation du faisceau laser et le suivi de la piste ( tracking ). La régulation de focalisation utilise une lentille cylindrique qui déforme la tache arrivant sur la cible. Celle-ci comporte 4 zones sensibles A,B,C et D.
Figure 61. Technique d’asservissement de la focalisation du faisceau laser.
Figure a : la lentille de focalisation est trop basse, le point de focalisation est en dessous du miroir du CD. Le faisceau réfléchi est séparé par le miroir semi-transparent et traverse la lentille cylindrique. Le faisceau émergeant de la lentille cylindrique est elliptique et éclaire plus fortement les photodiodes B et D de la cible. Figure b : la focalisation est correctement réalisée. L'angle d'incidence du faisceau arrivant sur la lentille cylindrique donne un faisceau émergeant à section circulaire. Les quatre photodiodes de la cible sont également éclairées. Figure c : la lentille de focalisation est trop haute , le point de focalisation est au-dessus du CD. Le faisceau émergeant de la lentille cylindrique est à nouveau elliptique et éclaire plus fortement les photodiodes A et C de la cible. L’exploitation des signaux issus des capteurs A,B,C et D permet de réaliser l’asservissement de focalisation.
jean-philippe muller
Le traitement numérique du signal audio
38
Pour le suivi de piste, on utilise, dans les lecteurs CD actuels, la technique du triple faisceau. Pour obtenir ce triple faisceau, on utilise simplement une grille de diffraction en sortie de la diode laser. Figure 62. Principe du triple faisceau.
Les spots latéraux encadrent la piste lue. Quand le spot principal est bien placé, les spots latéraux sont tangents à la piste et la quantité de lumière constituant les faisceaux latéraux réfléchis est identique. Les photodiodes de tracking E et F reçoivent une quantité de lumière identique.
Figure 63. Les spots latéraux encadrent la piste.
Si une erreur de piste se produit, l’ensemble des 3 faisceaux se décale. Un des spots latéraux vient mordre sur la piste. La quantité de lumière réfléchie associée diminue. Les photodiodes de tracking E et F ne sont plus également éclairées.
Figure 64. Effet d’une erreur de piste.
jean-philippe muller
Le traitement numérique du signal audio
39
Voici un exemple concret montrant la structure de la tête de lecture : Figure 65. Structure du système optique à triple faisceau FOP de Sony.
L’électronique de lecture du signal numérique régule l’intensité du faisceau laser et utilise les signaux issus des cellules A,B,C et D pour extraite l’information utile.
Figure 66. Interface laser utilisant un CXA1081M de Sony
Les données ne sont pas inscrites séquentiellement sur le disque, mais ont subit un brassage ainsi que l’adjonction de codes correcteurs d’erreurs qui rendent ce support insensible aux petits défauts de surfaces.
jean-philippe muller
Le traitement numérique du signal audio
40
A chaque échantillon est attribué un mot de 16 bits (soit deux octets). L'enregistrement est stéréophonique, à chaque impulsion de la fréquence d'échantillonnage fe, on obtient en sortie des circuits de quantification 2 x 16 bits = 32 bits = 4 octets. Chaque trame contient 6 échantillons stéréophoniques (6 x 4 = 24 octets, soit 192 bits) auxquels il faut a jouter un certain nombre d'informations. Le mot de synchronisation (codé sur 24 bits) est placé en tête de chaque trame. Ce mot de synchronisation permet au processeur de traitement de signal implanté dans le lecteur, de reconnaître le début de chaque trame. Il est utilisé par les circuits d'asservissement de débit trame et permet de déterminer en partie la vitesse de rotation du disque (vitesse de lecture de l'ordre de 1,2 à 1,4 m/s). Les mots de service et systèmes sont ces informations codées sur un octet qui contiennent des données appelées sous-codes permettant aux circuits de traitement de signal et aux circuits de Gestion du lecteur de reconnaître le type de contenu de la trame lue : • • •
présence ou absence d'informations audionumériques, c'est le sous-code P(pause) qui indique la fin d'un morceau ou l'absence d'information audionumérique quand il est au niveau 0. Il indique le début d'un morceau quand il prend la valeur 1. repérage de la trame dans le morceau, durée et type d'enregistrement (stéréophonie, quadriphonie, préaccentuation, etc.), c'est le sous-code Q. affichage de graphismes, ou de textes (nom de l’auteur, intitulé de l'oeuvre, etc.), c'est le rôle des sous-codes R, S, T, U, V, W Ces sous-codes n'étant pas utilisés sur les disques au standard CDDA, le contenu est au niveau 0.
Le mot de parité est dans le principe, l'association à chaque octet de données audionumériques d'un bit (appelé bit de parité) dont la valeur est obtenue en opérant un OU exclusif entre les bits d'un octet. Si, lors de la lecture, on refait la même opération sur les bits constituant l'octet, le bit de parité reste inchangé si aucune erreur n'a été commise au moment de la gravure ou de la lecture du disque. Il devient possible de détecter une erreur mais il manque encore les éléments permettant de la corriger.
Figure 67. Structure d’une trame CD.
Afin de pouvoir réaliser une gravure sur le disque compatible avec les caractéristiques du faisceau laser (diamètre du spot. etc.), il est nécessaire de réduire le débit numérique. Les octets sont transposés en mots de l4 bits ( Eight to Fourteen Modulation}. Par exemple, l'octet 0111 0010 est transposé en 10010010000010 de telle sorte qu'entre deux niveaux 1 successifs il puisse y avoir au moins deux niveaux 0 et au plus dix niveaux 0. Figure 68. Codage EFM.
jean-philippe muller
Le traitement numérique du signal audio
41
D'autre part, on rappelle que le passage d'une absence de cuvette à une cuvette correspond à un niveau 1 (modulation NRZl soit Non Retour à Zéro, IBM). La longueur des cuvettes enregistrés sur le disque s'en trouve allongée. Pour conserver une valeur moyenne nulle du signal de lecture, on introduit des mots de liaison de trois bits entre chaque échantillon codé et transposé EFM. Pour se protéger des macro-défauts (rayure du disque, trace de doigts, défaut de fabrication, etc.) pouvant entraîner la perte d'un ou plusieurs octets de données, on accroît la protection des données enregistrées en ayant recours à un procédé appelé entrelacement. Le procédé consiste à changer l'ordre naturel des octets à l'enregistrement. Le scrambling est le résultat d'un entrelacement réalisé au niveau des octets constituant une trame. Pour autoriser la correction de défauts plus important, on entrelace les octets sur un grand nombres de trames : c' est ce qu'on appelle interleaving.
Les dispositifs permettant de corriger les erreurs de transmission (à l'enregistrement et à la gravure du disque ou lors de la lecture) sont regroupés dans un circuit de codage (à l'enregistrement) et dans un circuit de décodage (à la lecture). L'entrelacement est réparti sur un ensemble important de trames : cet ensemble constitue un secteur. Le codage et le décodage sont réalisés selon une procédure rigoureuse appelée CIRC soit Cross Interleaving Reed-Solomon Code. Un secteur est constitué de 98 trames comportant 98 x 24 = 2 352 octets de données audionumériques. La capacité de correction atteinte par le procédé CIRC est supérieure à un secteur. En lecture, quand la capacité de correction est atteinte, le signal de sortie est assourdi : c'est un mute.
Caractéristiques principales d’un lecteur CD • • • • • • • • •
2 canaux durée 60 mn diamètre 120 mm épaisseur 1,2 mm départ programme intérieur vitesse linéaire constante (1,2 à 1,4 m/s) profondeur de la microcuvette 0,11 µm longueur de la microcuvette 0,9 à 3,2 µm largeur de la microcuvette 0,5 µm
• • • • • • • •
pas 1,6 µm matériau : polycarbonate densité linéaire : 43 kbits/inch fréquence d’échantillonnage 44,1 kHz quantification : 16 bits linéaire modulation EFM correction d’erreur CIRC débit 2,03 Mbits/s
Figure 69. Allure du signal en sortie du bloc optique d’un lecteur CD.
jean-philippe muller
Le traitement numérique du signal audio
42
4) Le minidisc : Le lecteur enregistreur minidisc peut fonctionner avec deux types de disques différents mais de diamètre identique ( 64 mm) : • •
le CD normal utilisé pour les minidiscs préenregistrés le CD enregistrable magnéto-optique
Le bloc optique d’enregistrement lecture doit donc être capable d’exploiter ces deux types de disques. Sony a mis au point un système d'enregistrement magnétique (c'est une couche magnétique qui supporte les données) qui combine, pour l'enregistrement, les effets d'un laser et d'une tête magnétique. La technique consiste à faire chauffer à l’aide d’une impulsion lumineuse suffisamment énergique ( 5 mW environ ) une couche magnétique de ferrite au terbium et cobalt, pour l'amener à son point de Curie, température à laquelle il perd son magnétisme. Simultanément, cette couche est soumise à un champ magnétique correspondant à un « 0 » ou à un « 1 » qui oriente les molécules de cette couche. Lors du refroidissement, la polarité magnétique présente au moment du passage au point de Curie reste piégée dans la couche magnétique. Cette technique présente l'avantage de ne pas exiger de puissance magnétisante trop importante ; en revanche, le laser doit élever fortement la température de la couche magnétique. L’échauffement est très localisé, c' est la surface du point échauffé qui détermine la taille du signal. Le laser est guidé par un sillon moulé dans le disque vierge, son optique focalise la puissance du laser sur la couche magnétique. Figure 70. Principe de l’enregistrement sur disque magnéto-optique.
Un minidisc enregistrable devra donc, contrairement au minidisc préenregistré, présenter une fenêtre d’accès au disque sur chaque face.
jean-philippe muller
Le traitement numérique du signal audio
43
Pour la lecture, on utilise le phénomène de changement de polarisation de la lumière par un champ magnétique. La lumière est une onde électromagnétique, et à ce titre caractérisée par la présence simultanée d’un champ électrique et d’un champ magnétique, tous deux perpendiculaires à la direction de propagation. Figure 71. La lumière est une onde électromagnétique .
Cette lumière est dite « polarisée » lorsque le champ électrique a une direction fixe et connue. Certaines substance appelées dichroïques absorbent plus ou moins les ondes selon la direction du champ magnétique. La lumière qui sort d’une telle substance est polarisée. Figure 72. Action d’une substance dichroïque sur la polarisation de la lumière.
Certaines substances sont dites optiquement actives quand la direction de la polarisation tourne lorsque la lumière polarisée les traverse ou s’y réfléchit. Ainsi, une fine couche d’un alliage de terbium-ferrite-cobalt placée entre deux couches diélectriques présente une activité optique rémanente quand les molécules constituant l’alliage sont orientées correctement. Dans un minidisc, le faisceau laser est émis, se réfléchit sur le disque et va être renvoyé vers le photodétecteur avec une polarisation qui dépendra de l’état magnétique de la couche magnétooptique. Figure 73. Le trajet optique dans un lecteur enregistreur minidisc.
Un dispositif transforme ensuite cette modulation de polarisation en modulation d'amplitude. On peut utiliser pour cela des filtres polariseurs ou un prisme de Wollaston. jean-philippe muller
Le traitement numérique du signal audio
44
On remarquera que, la puissance de la diode étant plus importante que dans un lecteur CD, il n’est plus possible de placer la photodiode de contrôle de puissance dans le boîtier de la diode laser. La cible utilisée dans le minidisc a un arrangement particulier et ne compte pas moins de 8 surfaces sensibles. Figure 74. Agencement de la cible utilisée dans le bloc optique du minidisc.
En sortie du prisme de Wollaston, on a un faisceau principal et 4 faisceaux secondaires. Les capteurs I et J servent pour la mesure du signal optique, les autres surfaces sensibles sont utilisées pour la mesure de la focalisation du faisceau laser et pour le suivi de piste. ⇒ lors de la lecture d’un minidisc magnéto-optique, la variation de la polarisation du faisceau se traduit par une variation opposée des intensités des faisceaux I et J : • pour un « 1 » enregistré sur le disque, le faisceau J sera plus intense que le I • pour un « 0 » enregistré sur le disque, le faisceau J sera moins intense que le I ⇒ lors de la lecture d’un minidisc préenregistré, le passage sur une cuvette se traduit par une variation simultanée des intensités des faisceaux I et J : • si le spot tombe en dehors d’une cuvette, les faisceaux I et J seront égaux et forts • si le spot tombe dans une cuvette, les faisceaux I et J seront identiques et faibles L’électronique de mesure exploite les signaux issus des deux cellules I et J pour produire le signal numérique contenant l’information enregistrée.
Figure 75.
Interface laser utilisant un CXA1381R de Sony
jean-philippe muller
Le traitement numérique du signal audio
45
En ce qui concerne le suivi de piste ( tracking), la technique utilisée pour le CD à dû être adaptée vu l’absence de cuvettes sur les minidisc enregistrable. Le minidisc enregistrable est donc muni à la fabrication d’un sillon prégravé, au pas de 1,6 µm, destiné à guider la tête d’enregistrement laser. La profondeur de ce sillon est la même que celle des cuvettes d’un minidisc préenregistré.
Figure 76.
Le sillon prégravé sur un minidisc enregistrable.
Le spot éclaire le sillon en débordant de part et d’autre, ce qui permet de détecter une variation de niveau d’éclairement sur les 2 capteurs latéraux E et F si le spot s’écarte de la trajectoire idéale. Figure 76.
La modulation en fréquence du sillon prégravé.
Pour avoir des repères sur le disque, la position du sillon oscille autour de la position moyenne à la fréquence de 22,05 kHz. Cette fréquence est modulée en fréquence par des informations concernant l’adresse ( ADIP : ADress In Pregroove ). Ce signal à 22,05 kHz modulé en fréquence pourra être récupéré dans l’électronique de suivi de piste et permettra, après démodulation, au système de se repérer sur le disque.
jean-philippe muller
Le traitement numérique du signal audio
46
Contrairement au CD, toutes les informations musicales arrivant dans le message à enregistrer ne sont pas inscrites sur le disque. La technique de compression de données utilisée par le mini-disc s’appelle l’ATRAC et permet une diminution de débit d’un facteur 5 environ sans perte sensible de qualité... pour une oreille « normale » ! Dans ce système, le processeur travaille par tranches de signal et calcule le spectre de cette tranche pour évaluer les composantes spectrales par bande de fréquence et les numériser en tenant compte de l’effet de masquage. Les signaux tombant dans la bande de fréquence où l’oreille est sensible seront digitalisés avec une meilleure précision que ceux qui tombent en bout de bande audio.
Figure 77.
Structure du codeur ATRAC.
Le spectre audio est divisé, par deux filtres numériques, en 3 sous-bandes : • les basses fréquences de 0 à 5,5 kHz • les fréquences moyennes de 5,5 à 11 kHz • les fréquences aiguës de 11 à 22 kHz Les signaux issus de ces filtres sont ensuite transformés en composantes spectrales par une transformée en cosinus modifiée ( MDCT) qui est une variante de la transformée de Fourier discrète. La longueur des tranches n’est pas fixe et ATRAC analyse plus finement les passages musicaux dont le contenu est riche. Ainsi la longueur temporelle des blocs analysés peut varier entre 1,45 ms et 11,6 ms. Avant l’application de cette transformée en cosinus, le signal est donc analysé pour savoir s’il varie rapidement ou lentement. Si le signal varie rapidement, la transformée en cosinus sera calculée sur un bloc court. En sortie des blocs de calcul de la transformée discrète, le signal est maintenant représenté par 512 coefficients spectraux.
jean-philippe muller
Le traitement numérique du signal audio
47
Ces coefficients spectraux seront alors quantifiés avec réduction de débit : • • •
en tenant compte de la courbe de sensibilité de l’oreille on peut quantifier de façon moins précise les raies de fréquence très basse ou très élevée en tenant compte des effets de masquage éventuels on peut s’éviter de quantifier des raies qui ne seraient de toutes façons pas audibles en supprimant les bits de poids le plus fort lorsqu’ils sont nuls ( signaux de faible amplitude)
Figure 78.
Allocation des bits par le codeur ATRAC.
La première version de l'Atrac n'a pas reçu un accueil unanime des amateurs d'audio une nouvelle version, plus subtile l'a remplacée et réduit l'écart entre le son numérique non comprimé et le son comprimé. A cause de la compression de débit obtenue grâce à ATRAC, le débit de données nécessaire (0,3 Mbits/s) est 5 fois inférieur au débit de lecture sur le disque ( 1,4 Mbits/s) Contrairement à ce qui se passe dans un lecteur CD, les données ne sont pas lues en continu, mais de façon intermittente. Une mémoire de capacité assez importante ( 1 Mbit soit 3 secondes de musique, ou 4 Mbits ) sert de tampon entre le dispositif de lecture de données et le décodeur ATRAC.
Figure 79.
Comparaison CD/minidisc.
jean-philippe muller
Le traitement numérique du signal audio
48
Cette mémoire tampon est indispensable pour une autre raison. Un des défauts inhérents à la lecture, ou d'ailleurs à l'enregistrement optique, réside dans la relative sensibilité aux chocs.
Figure 80.
Le rôle de la mémoire tampon.
Le fait de disposer de quelques secondes de musique dans la mémoire tampon laisse le temps à l’asservissement de suivi de piste de replacer le spot laser à l’endroit adéquat.
Figure 81.
Comportement du lecteur minidisc en cas de choc.
Le MD ne supporte que la fréquence d'échantillonnage de 44,1 kHz, impossible donc de faire entrer sur ces appareils les signaux d'un DAT enregistrés à 48 kHz ou ceux d'un récepteur radio satellite. La solution existe sur certains magnétophones MD, elle consiste à intégrer un convertisseur de fréquence d'échantillonnage. Son inconvénient, dans le cas d'un signal enregistré à 48 kHz, est que la bande passante est réduite. En revanche, en entrant à 32 kHz, on n'élargit ni ne rétrécit le spectre... Les données numériques enregistrées sur le MD sont stockées par paquets. Si le disque est vierge, ils seront vraisemblablement placés côte à côte. En revanche, lorsque vous avez enregistré un disque il vous est parfaitement possible d'effacer une plage. Cet effacement est purement virtuel, ce n'est que lorsque l’espace qu'elle utilisait sera réoccupé que l'effacement aura vraiment lieu. Il n'y a pas, ici, d'effacement avant enregistrement, tout s'effectue en même temps. L’effacement d'une plage se réduira à un changement dans une table d'allocation. Cette technique permet de disposer de tout l'espace laissé disponible par l'effacement de plages pour enregistrer d'autres morceaux, même plus longs, technique impensable avec un support en bande.
jean-philippe muller
Le traitement numérique du signal audio
49
Voici un exemple de courbe de réponse et de caractéristiques de distorsion obtenus avec un enregistreur minidisc Sony MZ-R30:
Figure 82.
Caractéristiques d’un lecteur minidisc Sony.
jean-philippe muller