Univerzitet Crne Gore Elektrotehnički fakultet Prof. dr Srdjan Stanković MULTIMEDIJALNI SISTEMI -Draft verzija skripte-
Podgorica, 2005
1. Uvod
Multimedija je jedna od intenzivnije upotrebljavanih riječi tokom zadnjih 10-tak godina i uglavnom je vezana za korišćenje računara za predstavljanje informacije sadržane u više medija (slika, tekst, grafika, video,...). U svakom slučaju treba praviti razliku kod pojma Multimedija u pojedinim disciplinama, kada se kombinacijom različitih medija dobija sveobuhvatniji pristup odredjenoj oblasti, od samog inženjerskog pristupa, kada se Multimedijima bavimo u smislu pronalaženja što sveobuhvatnijih algoritama za objedinjavanje ovako složenih informacija u cilju njihove obrade, prenosa i prikaza. Multimedia potiče od latinske riječi multi, koja predstavlja množinu nečega i od riječi medium, čije značenje je centar. Dakle, multimedia znači više centara i asocira na to da se računar koristi u cilju objedinjavanja i kombinovanja više različitih tipova informacija (slike, zvuka, teksta, videa,...) u jedinstven doživljaj. Osnovu u proučavanju multimedija prestavljaju najznačajniji tipovi multimedijalnih informacija: Tekst Grafika Slika Animacije Video Zvuk
Primjetimo da je jedna multimedijalna informacija zapravo kombinacija dva ili više navedenih tipova informacija. Takodje, treba naglasiti da su Multimediji interdisciplinarni i danas predstavljaju presjek sljedećih oblasti: Digitalne obrade signala Arhitekture računara Računarskih mreža Telekomunikacija Generalno, multimedijalne informcije se mogu podijeliti u dvije grupe: I) Vremenski zavisni (zvuk, video i animacije) II) Prostorno zavisne (slika, tekst i grafika) Primijetimo da su animacije, tekst i grafika sintetizovani pomoću kompujtera. Pretvaranje analognog signala u digitalni Obzirom da se u Multimedijima bavimo digitalnim zapisima signala, to je u slučajevima analognog zapisa originalnog signala (što je čest slučaj) neophodno izvršiti njihovu digitalizaciju. Postupak digitalizacije se može predstaviti sljedećom procedurom: Analogni signal→Odabiranje→Kvantizacija→Digitalizacija Odabiranje ili uzimanje uzoraka analognog signala se dovija po Teoremi o odabiranju, što nam omogućava potpunu rekonstrukciju signala iz njegove diskretne forme. Teoremom o odabiranju je definisan najveći korak izmedju dva odbirka signala: T
1 2 f max
gdje fmax predstavlja maksimalnu frekvenciju signala koji se odbira. Iz prethoden veze izmedju koraka odabiranja i maksimalne frekvecnije se vidi da povećanje koraka odabiranja znači srazmjerno smanjenje maksimalne frekvencije signala (što se može iskoristiti za jednostavna filtriranja signala).
Odbirci analognog signala, u skladu sa njegovom prirodom mogu poprimiti sve vrijednosti izmedju minimalne i maksimalne definisane za dati signal. To znači da bi trebalo koristiti ogroman broj bita da bi se odbirci signala mogli tačno prikazati u digitalnoj formi. Jasno je da ovaj zahtjev nije moguće ispuniti u praksi, pa se svi odbirci moraju predstaviti preko konačnog broja bita, kojim je definisan i broj kvantizacionih nivoa, čije vrijednosti mora poprimiti odbirak signala. Dakle, ukoliko je vrijednost odbirka u oblasti izmedju dva kvantizaciona nivoa, on će poprmiti vrijednost bližega. Ovo znači da se originalna vrijednost signala promijenila, što može biti shvaćeno kao uticaj šuma, koji se naziva šum kvantizacije. Ukoliko se signal predstavlja sa n bita u digitalnom obliku onda će on imati 2n kvantizacionih nivoa. Radi ilustracije navedimo primjere 8 bitnog i 16 bitnog signala; prvi je predstavljen sa 256, a drugi sa 65536 kvantizacionih nivoa, odnosno mogućih vrijednosti. Iz ove kratke analize jasno je da digitalni predstavljenj ima odredjene nedostatke. To je razlog da navedemo prednosti i mane digitalnog predstavljanja signala.
Prednosti: Univerzalnost prezentacije Robustnost na šumove Skladištenje različitih tipova informacija na istom uredjaju Prenos raznih tipova informacija preko istog kanala Obrada i manipulacije raznih signala kompjuterskim programima Manje više sve navedene prednosti su očigledne, osim ove koja se odnosi na robustnost na šumove. Naime, kod digitalnog signala 0 ili 1 zapravo znače visok naponski nivo (često 5V) i nizak naposnki nivo (često 0V). Najčešće se kao prag izmedju 0 i 1 uzima polovina raspona od napona logičke nule do napona logičke jedinice (u navedenim slučajevima 2,5V). Digitalni signal je prilikom prenosa takodje izlože uticaju šuma, ali očigledno je da ovaj uticaj nema efekta dokle god njime nije toliko promijenjena vrijednost napona da sa nivoa logičke jedinice predje na nivo logičke nule i obratno.
Nedostaci Šumovi kvantizacije Aliasing Potreba za velikim kapicitetom medija za skladištenje Potreba za kompresijama Pored navedenih klasifikacija multimedijalnih informacija, interesantno je i dati podjelu s aspekta interaktivnosti. U tom slučaju postoje dva tipa sistema: -Pasivni ili linerani kod koga korisnik nema kontrolu nad informacijom (TV program, Film, Emitovanje) -Interaktivni ili nelinearni kod koga korisnik ima kontrolu nad formom prezentacije, brzinom i vremenu. U svim navedenim podjelama ne treba zaboraviti da Mutlimedijalni sistem mora biti kompjuterom kontrolisan sistem, odnosno kompjuter mora biti uključen makar za prezentaciju infromacije. Na samom početku smo rekli da multimediji u sebi uključuju više disciplina, zato je važno i napraviti neki sistematski pristup ovoj oblasti kroz različite podoblasti koje sačinjavaju odredjenu logičku cjelinu i omogućavaju lakši pristup u proučavanju ove kompeksne oblasti. Svakako da u prvu grupu podoblasti treba svrstati izučavanje sljedečih tipova informacija: Audio, Video, animacije, Grafika i slika. Kroz izučavanje ovih informacija stalno se prožimaju algoritmi za kompresije podataka i kompjuterske arhitekture za njihovu brzu obradu. Druga grupa podoblasti bi bila sačinjena od: Optičkih medija za smještanje podataka, Quality of service, Mreža, Komunikacija, Programiranja, ... Treća grupa: Analiza sadržaja, Zaštita sistema, Sinhronizacije, Grupne komunikacije,... Četvrta grupa je vezana za korisnike i predstavlja razne aplikacije kojim se nećemo baviti tokom ovog kursa.
Primijetimo da su telekomunikacione mreže i prenos signala veoma važni u multimedijima. Razlog za ovo je priroda multimedijalnih podataka, sa slučajevima periodičnog, slabo periodičnog i aperiodičnog toka podataka. Takodje kao rezultat kompresije može da se javi variranje količine podataka u datom paketu Primjeri multimedijalnih podataka Neki prosti primjeri dobro poznatih podataka i njihova zahtijevnost prilikom prenosa ili skladištenja biće ovdje prezentirani. Tekst Neformatirani tekst 1 byte/karakteru Formatirani tekst (više fontova, veličina) 2 byte/karakteru Jedan primjer za formatirani tekst 64 linije/strani 80 karaktera/ liniji 80x64x2x8=84 Kb prenos preko modema 14.4K traje 5.7s Kolor slika Dimenzija 1024x768 piksela (slika je sačinjena od piksela) RGB 8 bita/boji, 24 bita/pikselu 1024x768x24=18.8 Mb Preko modema: 14.4 kb/s potrebno 21 min 28.8 kb/s potrebno 10 min Primjer prenosa glasa preko telefona 8KHz potrebno je 8000x8bita= 64 Kb/s Primjer prenosa video signala 640x480x24=27.7 MB/s (true color) 640x480 rezolucija slike (frame-a)
Osnovne transformacije Predstavljanje signala (bilo jednodimenzionih audio, dvodimenzionih slika i trodimenzionog video signala) u transformacionim domenima igra krucijalnu ulogu u raznim obradama, kao na primjer kompresijama i filtriranjima. Od posebne važnosti je Fourierova transformacija, koja čini osnovu i za niz drugih transformacija definisanih u obradi signala. Ukažimo na potrebu i značaj Fourierove transformacije preko jednog jednostavnog primjera. Naime, posmatrajmo jedan sinusoidalni signal.
Slika 1.1 Predstavljanje signala: a) vremenski domen b) frekventni domen
Vidimo da je ovaj signal u potunosti definisan frekvencijom i amplitudom. Ova dva parametra se mogu dobiti preko Fourierove transformacije signala. Dakle, prikaz ovog signala u frekventnom domenu je dat na Slici 1.1b. Posmatrajmo sada signal oblika prikazanog na Slici 1.2. U ovom slučaju je očiglednija efikasnost predstavljanja u frekventnom domenu.
Slika 1.2 Prikaz složenog signala a) vremenski domen b) frekventni domen
Iz frekventnog prikaza je jasno da je signal zapravo sastavljen od dvije sinusoide različite frekvencije i amplitude. Signal naročito biva „nečitljiv“ ako je zahvaćen šumom u vremenskom domenu, Slika 1.3a. Prelazeći u frekventni domen, Sloika 1.3b, vidimo svu prednost ovakvog predstavljanja signala.
Prethodni prikaz signala u frekventnom domenu može biti ostvaren preko Fourierove transformacije. Na Slici 1.1a sinusoida je predstavljena preko dva pika u frekventnom domenu. Razlog za to se može naći u samoj prirodi Foureirove transformacije, kod koje se u slučaju realnih signala javljaju i negativne frekvencije koje nemaju fizički smisao. To je razlog da se prije obrade signal transformiše u njegovu analitičku formu ili da se koriste transfromacije poput diskretne kosinusne. Fourierova transformacija signala f(t) je definisana sa: F ( )
f (t )e jt dt
Obzirom da se u Multimedijima bavimo diskretnim signalima, to je neophodno definisati diskretnu Fourierovu transformaciju:
N 1
DTF (k ) f (n)e
j
2 nk N
n 0
Iz definicije je lako izvesti da je Fourierova transformacija diskretnih signala, periodična po frekvenciji sa periodom 2π. Da bi izračunavanje Fourierove transformacije bilo efikasnije (kraće) razvijeni su algoritmi za njeno brzo računanje. Osnovni algoritam je tzv. FFT algoritam (Fast Fourier Transform). Dobijanje signala iz njegove Fourierove transformacije se vrši preko inverzne Fourierove transformacije: 1 f (t ) 2
F ( )e
jt
d
U diskretnom domenu inverzna Fourierova transformacija je data sa: 1 f ( n) N
N 1
DFT (k )e
j
2 nk N
k 0
Radi sticanja rutine pri radu sa Fourierovom transformacijom daćemo primjer predstavljanja jednostavnog signala u frekvencijskom domenu korišćenjem programskog jezika Matlab. Prikazati signal y sin(150 t ) za t (1,1) u Fourierovom domenu. Uzeti korak odabiranja T=1/1000. » t=-1:1/1000:1; »y=sin(150*pi*t); »F=fft(y); »F=fftshift(F); »plot(abs(F)) Naredba fft je korišćena za računanje Fourierove transformacije, a fftshift da bi negativne frekvencije prilikom prikaza bile pozicionirane sa lijeve strane nulte frekvencije koja predstavlja srednju tačku niza (algoritam FFT računa Fourierovu transformaciju tako što negativne frekvencije pozicionira od srednje tačke na desno, što nije prirodan način prikaza negativnog i pozitivnog dijela ose. Primjetimo da je maksimalna frekvencija definisana korakom odabiranja i iznosi fmax=1/(2T)=500Hz, dok se frekvencija signala f dobija 2 ft 150 t f 75Hz , što zadovoljava uslov f≤fmax.
Filtriranje u Fourierovom domenu Pored toga što omogućava efikasno predstavljanje signala, frekventni domen je veoma pogodan za filtriranja signala. Jednostavna filtriranja u frekventnom domenu se mogu obaviti pomoću filtara: niskopropusnika, visokopropusnik i prpusnika opsega. Navedeni filtri imaju sljedeće oblike: Filtar niskopropusnik 1 za g
H ( )
0 za ostalo
Filtar visokopropusnik
1 za g
H ( )
0 za ostalo
Propusnik opsega
1 za d g
H ( )
0 za ostalo
Filtriranje datim filtrima se može obaviti tako što se spektar signala (predstavljen Fourierovom transformacijom) pomnoži sa odgovarajućim filtrom, a potom se preko inverzne Foureirove transformacije dobije filtrirani signal. Posmatrajmo primjer filtriranja govornog signala korišćenjem Matlaba. Signal proba.wav filtrirajmo niskopropusnim filtrom sa graničnom frekvecnijom 1,1025kHz. Učitajmo signal proba.wav snimljen u direktorijumu temp na C disku »[y,x]=wavread(‘c:\temp\proba.wav’); »% promjenljiva y predsatvlja signal, a x frekvenciju odabiranja tog signala »size(y) ans=44000 x ans=22050
»%dužina signala je 44000 odbiraka,a 11025Hz
maksimalna frekvecnija
»F=fft(y); »F=fftshift(F); »H=[zeros(1,x/2-2200) ones(1,4400) zeros(1,x-2200)]; »%Vidimo da su pozitivne frekvencije od 22000-tog do 44000-tog odbirka. Dakle 22000 odbiraka predstavlja 11025 Hz odnosno 2200 odbiraka predstavlja 1102,5Hz. Isto važi i za negativne frekvencije. Dakle 4400 odbiraka sa jedne centrrianih oko nulte frekvencije (središna tačka vektora F) predstavljaju frekvencije ispod 1102,5 Hz. »Ffilt=F.*H; »Ffilt=fftshift(Ffilt); »yfilt=ifft(Ffilt); »soundsc(real(yfilt),x) Naredba soundsc se koristi za reprodukciju filtriranog signala preko zvučnika. Ukoliko se u ovoj naedbi zaboravi x, onda će reprodukcija biti vršena po difoltnoj vrijednosti 8184 i dobiće se u ovom slučaju neprirodan zvuk, odnosno jako usporen jer je brzina reprodukcije podešena za frekvenciju odabiranje 8184, što značida će toliki broj odbiraka u sekundi biti poslat na zvučnik.
2. DIGITALNI AUDIO 2.1 Priroda zvuka Zvuk je posljedica vibracije materijala. Ove vibracije izazivaju talasne fluktuacije oko materijala koji vibrira. Zvuk se dosta lako prenosi kroz gasove jer su oni zapravo najveće energetsko stanje materije, to je i razlog velike pokretljivosti gasova u odnosu na
tečnosti. Brzina zvuka iznosi 344 m/s (na temperaturi od 20 stepeni Celzijusa) Važna karakteristika zvučnog talasa je frekvencija. U multimedijalnim aplikacijama posebna pažnja se posvećuje govoru i muzici, njihovim karakteristikama, prenosu i reprodukciji. Zvuk koji ima prepoznatljivu periodičnost je karakterisan kao muzički signal. Veoma važno je znati frekvecijske spektre muzike i govora. Naime frekvencijski spektar muzike je od 20 Hz do 20 kHz, dok je kod govora od 50 Hz do 10 kHz. Medjutim, najznačajnije komponente govornog signala se nalaze izmedju 700 Hz i 6600Hz. Posmatrajmo šta utiče na percepciju zvuka kod čovjekovog slušnog sistema. Zapazimo da do slušnog sistema stižu dva tipa talasa: direktni i reflektovani. Na osnovu odnosa direktnih i reflektovanih talasa stvaramo predstavu o distanci sa koje se emituje zvuk. Kašnjenja reflektovanih talasa nam daju informaciju o geometriji prostorije u kojoj se emituje zvuk.
Slika 1.1 Primjer prostiranja zvuka unutar zatvorene prostorije
Obzirom da je naš slušni sistem stereo, na osnovu kašnjenja direktnog talasa detektovanog izmedju lijevog i desnog uha, stvaramo predstavu o poziciji izvora zvuka unutar neke prostorije. Vremensko kašnjenje od jednog do drugog uha iznosi oko 0.7 ms. Interesantno je zapaziti da ako neki zvučni signal zakasnimo sa jednog od zvučnika za 15-tak ms, čak i u slučaju iste amplitude imaćemo
utisak de je slabija amplituda zvuka sa strane zvučnika kod koga je izazvano kašnjenje, te da utisak možemo promijeniti ako povećavamo amplitudu. Ukoliko kašnjenje predje 50 ms čuće se dva različita zvuka. Veoma važna veličina, kada se govor o zvuku je nivo zvučnog pritiska SPL (Sound Preasure Level). Ova veličina govori koliki je odnos zvučnog pritiska u odnosu na refrentni nivo zvučnog pritiska Po=20 µ Pa, koji je zapravo prag čujnosti, odnosno najmanji nivo zvučnog pritiska koji se može registrovati našim slušnim sistemom u bešumnojokolini. Nivo zvučnog pritiska se dobija iz: SPL 20 log
P [dB ] P0
Nezaobilazna u audio tehnici je familija krivih koja definiše frekvencijsku zavisnost osjetljivosti, u funkciji različitih zvučnih prirtisaka. Ovo je tzv. Fletcherova kriva i data je na Slici 1.2
Slika 2.2 Fletcherova kriva
2.2 Razvoj sistema za smještanja i reprodukciju audio zapisa Prvi zapis i reprodukcija audio signala je uradjena 1877 godine (Edisonov phonograph). Prvi gramofon potiče iz 1893 godine, dok je 1925. godine počela relizacija električnih sistema koji zamjenjuju mehaničke. Emitovanje AM audio signala počinje 1930. godine. Od 1948. godine u upotrebi je LP sistem sa vremenom reprodukcije od oko 25 minuta. Kada se uporede navedeni rezultati može se doći do zaključka da je već i do tada postojao značajan napredak u audio industriji. Naime prvi gramofoni su imali vrijeme reprodukcije od oko 2 minuta sa 78 obrtaja u minuti, sa frekvencijskim opsegom 200Hz-3 kHz i dinamičkim opsegom od 18 dB, dok su ovi posljedni imali frekvencijski opseg 30Hz -15 kHz i dinamički opseg od 65 dB. Napori da se poboljšaju performanse audio uredjaja doveli su do korišćenja kasetofona i traka za kasetofone tokom 60 tih i 70 tih godina. Razvoj kompakt diska počinje 70 tih godina prošlog vijeka, kada je intenzivno radjeno na razvoju optičkog video diska. Tako 1977. godine Mitsubishi, Sony i Hitachi demonstriraju njihov digitalni audio disk DAD. Ovaj disk je bio dimenzija kao LP ploča, odnosno 30 cm prečnika. Philips i Sony nastavljaju da rade zajedno na ovom sistemu i kao rezultat toga proizveden je disk prečnika 12 cm, kapaciteta 74 minuta (što je jednako trajanju devete Beethoven-ove simfonije). Uporedo sa razvojem digitalnih audio uredjaja rasla je potreba i za razvojem sistema za emitovanje digitalnih audio signala (Digital Audio Broadcasing DAB). Tako je 1987 godine počeo Evropski projekat Eureka 147 u okviru kojeg ja počeo rad na razvoju DAB. Širina opsega je 1.54 MHz, signal je kodiran standardom MPEG layer II i uključuje mogućnosti frekvencija odabiranja od 48 kHz i 24 kHz. Broj frekvencijskih blokova za opseg 87-108 MHz je 12, dok je za VHF (174-240 MHz) predvidjeno 38 blokova, a za L opseg (1.4521.492 GHz) predvidjena su 23 bloka. Blok šema DAB sistema je data na slici 1.3.
Slika 2.3 Blok šema DAB sistema
Pored pomenutih medija tokom ovog kursa ćemo se upoznati i sa Mini diskom, SACD diskom (Super Audio CD) kao i DVD audio diskom.
2.3 Uticaj odabiranja i kvantizacije na kvalitet audio signala Već smo pomenuli da je odabiranje prvi korak u dobijanju digitalnog signala iz analognog. Prisjetimo se da diskretizacija u vremenskom domenu izaziva periodično produženje u frekvencijskom. Ukoliko je diskretizacija izvršena po toeremi o odabiranju onda se, teorijski, osnovna komponenta spektra neće preklapati sa periodično produženim. Medjutim, ukoliko je korak odabiranja veći onda dolazi do preklapanja odnosno aliasinga.
Slika 2.4 Ilustracija efekta aliasinga
Sasvim je očigledno da se izdvajanje osnovnog spektra signala od periodično produženih komponenti mora obaviti pomoću filtra. Za ovu svrhu treba upotrijebiti veoma strm antialiasing filtar (fuunkciaj prenosa data na slici 1.5), koji je veoma skup.
Slika 2.5 Primjer funkcija prenosa filtra sa strmim prelazom
U velikom broju realnih aplikacija potrebno je dobiti željeni rezultat sa ekonomičnijim varijantama antialiasing filtara. Tada je neophodno izvršiti odabiranje sa manjim korakom od onog koji je definisan teoremom o odabiranju. Tako na primjer kod CD-a vršimo odabiranje sa 44100 Hz iako je maksimalna frekvencija signala koji želimo reprodukovati 20 kHz. Odabiranje signala može se izvršiti sa kolom datim na slici:
Slika 2.6 Kolo za odabiranje
Vidimo da je upotrijebljen jedan FET tranzistor, kao prekidački element i njime se upravlja preko signala Fs kojim je definisana frekvencija odabiranja. Jedinični pojačavač realizovan preko oprecionog pojačavača obezbjedjuje veliku otpornost, a time i veliku vremensku konstantu pražnjenja kondenzatora C. Dakle napon na kondenzatoru se neće mijenjati izmedju dva upravljačka impulsa Fs. Nakon odabiranja potrebno je izvršiti kvantizaciju. Broj kvantizacionih nivoa je ograničen, a sami signal može imati beskonačno različitih vrijednosti, što uzrokuje da signal nakon kvantizacije može zadovoljiti samo odredjen stepen tačnosti koji je definisan brojem kvantizacionih nivoa. Drugim riječima kvantizacijom se unosi odredjeni šum, nazvan kvantizacioni šum. Veoma korisno je izvesti relaciju koja će dati vezu odnosa signal šum S/N i broja bita kojim je uslovljen broj kvantizacionih nivoa. Posmatrajmo kvantizacionu grešku za dati bit n ilistrovanu na slici.
Slika 2.6 Vjerovatnoća greške kvantizacije
Označimo sa N broj intervala kod n bitnog sistema tj. N=2n. Ako je amplituda signala V tada je kvantizacioni interval dat sa
Q=V/(N-1) Kako je kvantizacioni šum distribuiran ravnomjerno izmedju ±Q/2 (-Q/2<En
2 Q/2 2 2 (Q / 2) 3 Q 2 N= ∫ x dx = Q 3 = 12 Q 0 S druge strane snaga signala (sinusnog oblika) je:
1 2π V 2 1 V2 2 P= ∫ ( ) sin xdx = 2π 4 2π 0 2
2π
∫
0
1 − cos 2 x V2 dx = 2 8
Sada imamo da je:
P V 2 /8 3 S/N = = = 2 2n N V 2 /(2 2 n / 12) 2 odnosno:
S 3 = 10 log + 10 log 2 2 n = 1,76 + 6n N 2 Dakle možemo približno pisati da je S / N [dB ] = 10 log
S/N ≈6n [dB] Vidimo da je, na primjer, za 16 bitni signal S/N ≈96 dB Navedimo sada podatke za neke značajnije audio sisteme u pogledu maksimalne frekvencije, odnosa signal šum i stepena distorzije: Medij CD FM radio AM radio Telefon Kasetofon Nelinearna kvantizacija
Frekvencijski opseg 20Hz-20kHz 20Hz-15 kHz 50 Hz-5kHz 300 Hz-3400 Hz 20 Hz- 17 kHz
Kvalitet 98 dB 75 dB 60 dB 42 dB 75 dB
Kada smo do sada govorili o kvantizaciji podrazumijevali smo linearnu kvantizaciju kod koje su intervali Q identični, medjutim ako to nije slučaj onda se govori o nelinearnoj kvantizaciji. U tom slučaju se kvantizacioni nivoi podešavaju prema amplitudi ulaznog signala. Signal male amplitude će imati manje kvantizacione intervale i obratno. Formula koja se koristi kod nelinearne kvantizacije je tzv. Apravilo koje je dualno sa µ-pravilom u analognom domenu. A-pravilo je opisano sljedećom formulom:
Ax /1 log A za 0 x V / a V V log( Ax / V ) /1 log A za V / a x V
F ( x)
i dato je na Slici 1.7.
Slika 2.7 Nelinearna kvantizacija
Na jednoj osi je data normalizovana amplituda ulaznog signala, dok je na drugoj data vrijednost kvantizacionog intervala za razne slučajeve. Vidimo da, na primjer, kada vrijednost amplitude padne na četiri puta manju vrijednost (ekvivalent u decibelima -12 dB), uzimamo kvantizacioni interval koji iznosi 3/4Q.
Na principu nelinearne kvantizacije zasnovana je floating point konverzija koja se koristi u svim profesionalnim audio sistemima. Princip floating point konverzije dat je na Slici 1.8.
Slika 2.8 Floatiog point konverzija
Ovaj sistem je uradjen po principu logaritamske skale. Naime, signal se šalje kroz nekoliko paralelnih kola sa različitim pojačanjem. Tako je obezbijedjeno da na linearni A/D konvertor stiže signal čija vrijednost je pogodna za lineranu konverziju. Konvertovani dio signala se naziva mantisa. Informacija o veličini signala je obezbijedjena kroz drugi dio sistema, na čijem izlazu se dobija binarna vrijednost, koja se naziva eksponent. Vidimo da sa tri bita eksponenta možemo kvalitetno da konvertujemo signale čije su pojačanja 0, 6, 12, 18, 24, 30, 36 i 42 dB. Možemo zaključiti da je na ovaj način moguće veoma efikasno digitalizovati signale sa veoma različitim nivom, što je uvijek realan zahtjev kod audio signala. Tipična kriva odnosa signa šum za signal 8 bitne mantise i 2 bitnog eksponenta dat je na Slici 1.9.
Slika 2.9 S/N za signale predstavljene eksponentom i mantisom
Treba primijetiti da iako je dinamički opseg ovog sistema isti kao kod 11 bitnog sistema odnos signal šum je izmedju 42 i 48 dB odnosno njegova maksimalna vrijednost je definisana mantisom. Blok floating point konvezija Ovo je specijalan slučaj floating point konverzije, kod koga nije svaki odbirak skaliran eksponentom, već je to uradjeno nad odredjenim blokom odbiraka. Na ovaj način je omogućena prilična ušteda u protoku podataka. Ova tehnika se često naziva i kodiranje bliskih trenutnih vrijednosti. Diferencijalna impuslno kodna modulacija (PCM) Kod dosadašnjih konverzija posmatrali smo svaki odbirak posebno i pripremali ga za prenos. Diferencijalna impulsno kodna modulacija, medjutim, razmatra mogućnosti prenosa razlike medju susjednim odbircima. Ova modulacija je jedan vid prediktivnog kodiranja kod koga je predikcija za tekući odbirak obavljena na osnovu vrijednosti prethodnog. Važno je naglasiti da je ovaj vid kodiranja veoma efikasan za slučajeve kada je odabiranje izvršeno sa veoma malim
korakom odabiranja, odnosno kada imamo veliki broj odbiraka, jer su u tom slučaju razlike izmedju susjednih odbiraka veoma male i mogu biti reda promjene za 1 bit. Za ovaj vid konverzije koriste se sigma delta konvertori. Obzirom da je serijski tok bita nepraktičan, uvijek se koristi digitalni filtar (decimation filter) kojim se konvertuje serijski tok u multi bit format (u slučaju CD sistema 16 bitni). Jednobitni A/D konvertor dat je na Slici 1.10.
Slika 2.10 Jednobitni A/D Konvertor
Super bit mapiranje Kod CD tehnologije koriste se 16 bita za kodiranje audio signala. Medjutim, u profesionalnim audio studijim koristi se kodiranje do 20 bita. Obzirom da 20 bitni signal treba smjestiti na 16 bitni medij, koristi se super bit mapiranje, kod koga se četiri bita koriste za povećavanje tačnosti bita najmanje težine, pri čemu omogućavaju smanjenje uticaja šuma i time povećanje kvaliteta zvuka. DSD (Direct Stream Digital) Koristi jednobitnu konverziju tj. sigma delta konvertore uz veoma visoku frekvenciju od 2,8224 MHz. Ovaj format omogućava reprodukovanje zvuka do granice od 100 kHz. Postavlja se pitanje šta znači ova granica od 100 kHz, ako smo konstatovali da je maksimalna frekvencija audio signala (koji naš slušni sistem registruje) do 20kHz. Maksimalna frekvencija od 20kHz uglavnom zadovoljava veliki broj zahtjeva, ali u profesionalnoj audio industriji ti zahtjevi stalno rastu. Naime, neki viši harmonici muzičkih instrumenata koji se nalaze van opsega od 20 kHz imaju uticaj na originalne zvuke unutar ovog
opsega. Da bi bili sposobni da reprodukujemo i ovaj uticaj razvijamo sisteme sa boljim performansama. Poredjenjem CD i DSD obrade uočavamo: Prva ima 16 bitnu a druga 1-bitnu konverziju, frekvencija odabiranja prvog je 44,1 kHz a drugog 2.8224 MHz. Kod DSD je znatno smanjena potreba za preciznim D/A konvertorima, digitalnim filterima i interpolacijiom. Medutim, treba napomenuti da za 74 minuta audio zapisa CD treba 650 MB memorijskog prostora, dok DSD za istu minutažu zahtijeva 3.5 GB. Na Slici 1.11 su ilustrovani sistemi za snimanje i reprodukciju podataka.
Slika 2.11 Sistem za snimanje i reprodukciju
2.4 Govorni signal Sistem za obrazovanje govornog signala se može iliustrovati kao na Slici 1.12. Sa slike se vidi da pluća inicijalizuju kretanje vazduha pod pritiskom preko dušnika i grkljanj u usnu šupljinu. Na usnama se formira longitudinalni talas koji se dalje prostire kroz vazduh.
Slika 2.12 Ilustracija sistema za obrazovanje govornog signala
Primijetimo da se prolaskom kroz grkljan, preko glasnih žica vrši modulacija vazdušne struje. Dakle, glasne žice generišu talase koji se dalje oblikuju prolazeći kroz usnu i nosnu šupljinu. Posmatrani sistem za stvranje glasa može se posmatrati preko dva podsistema koji se nazivaju glotalni i vokalni trakt. U glotalnom traktu (koji predstavlja dio sistema do ulaza u ždrijelo) se generišu talasi pod uticajem glasnih žica, dok vokalni trakt funcioniše kao skup rezonatora i filtara, koji taj talas modulišu i oblikuju stvarajući odredjene glasove. Obzirom da glasove možemo podijeliti na samoglasnike i suglasnike, važno je opisati kako navedeni sistem proizvodi jedne i druge. Kod samoglasnika glasne žice osciluju proizvodeće kavziperiodične impulse koji se dalje oblikuju u vokalnom traktu, gdje usna šupljina djeluje kao rezonator, tako što pojedine frekvencije slabi, a druge pojačava. Kod spektra samoglasnika mogu se uočiti pojedini harmonici koji dominiraju u odnose na ostale. Takvi harmonici se nazivaju formantima. Formanti zapravo predstavljaju rezonantne učestanosti vokalnog trakta. U analizama govornog signala se posmatraju četiri formanta, od kojih prva dva imaju poseban značaj. Frekvencijska oblast najačih formanata za samoglasnik A je od 700 do 1000Hz, za samoglasnik I 200-400 i 2200-3200 Hz, dok je za O 400 do 800 Hz. Suglasnike možemo podijeliti na bezzvučne i zučne.
Kod zvučnih suglasnika glasne žice proizvode šum, koji se dalje moduliše u vokalnom traktu. Iako je spektar šuma kontinualan i ovdje se mogu uočiti djelovi spektra koji predstavljaju formante. Bezvučni suglasnici nastaju samo u usnoj šupljini, kada glasne žice nisu aktivne. Pošto je formant veoma važna karakteristika glasa bitno je definisati neke njegove najznačajnije parametre. Frekvencija formanta je maksimalna frekvencija unutar frekvencijske oblasti pokrivenoj formantom. Širina formanta je rastojanje izmedju tačaka u kojma je maksimalna vrijednost smanjena za 3 dB. Sasvim je jasno da je spektar fonema različit za različite govornike. Imajući u vidu prirodu sistema za obrazovanje govora jasno se uočava da govorni signal može imati beskonačno različitih vrijednosti, odnosno može se mijenjati kontinulano. Iako je to tako, sa perceptive tačke gledišta razlikuje se konačan broj različitih glasova koje je moguće proizvesti prethodno opisanim sistemom. Ta konačnost je uslovljena ograničenim skupom smislenih informacija sadržanih u govornim signalima. Na ovaj način posmatraju se samo funkcionalne jednice koje odgovaraju našem govoru, a koje se nazivaju fonemi. Primijetimo da se jedan isti fonem može predstaviti u različitim varijantama, koje nemaju uticaja na njegovo značenje. Drugačije rečeno jačina glasa, boja itd neće uticati na razumijevanje fonema i neće promijeniti njegovu funkcionalnu vrijednost. Imajući u vidu prethodna razmatranje možemo modelirati sistem za obrazovanje govora.
Slika 2.13 Model sistrema za obrazovanje govora
Prenosne funcije glotalnog i vokalnog trakta, kao i funkcija prenosa usana, označene su sa G(z), V(z) i L(z). Sa e(n) je označen ulazni ekscitacioni signal, koji se može modelovati povorkom dirakovih impulsa ili Gausovim šumom (zavisno od slučaja samoglasnika ili suglasnika). Imajući u vidu sliku možemo pisati:
S ( z ) = E ( z )G ( z )V ( z ) L( z )
Ako uvedemo: A( z ) =
imamo:
1 G ( z )V ( z ) L( z )
E ( z ) = A( z ) S ( z )
Uzimajući funkciju filtra u obliku: p
A( z ) 1 ai z i 11
dobijamo tzv. autoregresioni model
reda p: p
s ( n ) + ∑ a i s ( n − i ) = e( n) i =1
Obzirom da je pokazano da na svakih 700 Hz treba uzeti po jedan par polova,možemo zaključiti da će u opsegu do 3400 Hz trebati p=10. Posmatrajmo sada uticaj glotalnog trakta i usana, koji su od posebnog značaja u slučaju pobude šumom. Glotalni trakt se može modelovati karakteristikom: Hg ( z ) =
1 (1 − qz −1 ) 2
tj. karakteristikom sa padom od –12 dB/oct. q≈1. Uticaj zračenja sa usana se aproksimira sa:
L ( z ) = 1 − z −1 Imajući u vidu:
u g ' (n) = (1 − z −1 )u g (n) = u g (n) − u g (n − 1) dobija se:
s (n) = V ( z )u g ' (n) Uzimajući da je:
⇒
s ' (n) = V ( z )u g '' (n)
V ( z) =
1 = A p ( z)
1 p
1 + ∑ a i z −i i =1
dobija se autoregresioni model za pobudu tipa Gausovog bijelog šuma: p
s ' (n) A p ( z ) = s ' ( n) + ∑ a i s ' (n − i ) = u g '' (n) i =1
2.4 Psihoakustički efekti Već ranije smo napomenuli da uho nije podjednako osjetljivo na različite frekvencije. Funkcija osjetljivosti izvedena je eksperimentalno i izgleda: 2 f −0.8 f 4 ) − 6.5e −0.6( f / 1000−3.3) + 10 −3 ( ) dB 1000 1000 Oblik ove funkcije je već ranije prikazan. Izvršimo sada analizu čovjekovog slušnog sistema. On je sastavljen od spoljašnjeg uha (ušna školjka), srednjeg uha i unutrašnjeg uha, Slika 2.14. Naš slušni sistem do unutrašnjeg uha predstavlja kombinaciju roga i otvorene cijevi.
T ( f ) = 3.64(
Slika 2.14 Ilustracija čovjekovog slušnog sistema
Zvučni talasi se prikupljaju ušnom školjkom i prosljedjuju preko slušnog kanala ka bubnoj opni. U unutrašnjem uhu se nalazi Hortijev organ koji se sastoji od niza vlakana različite dužine i različite rezonantne učestanosti. Ova vlakna su vezana za nerv preko kojeg se informacija o zvučnom nadražaju prenosi do mozga. Pod uticajem zvučnog talasa vlakna osciluju, ali obzirom na različitu rezonantnu učestanost informaciju će prenosti vlakna koja najintenzivnije osciluju. Slušni sistem radi praktično kao banka filtara, i to je razlog što smo u stanju da čujemo više različitih zvukova odjednom, a pažnju posvećujemo odredjenom zvuku tek nakon obrade u dijelu mozga zaduženom za to. Maskiranje Već smo napomenuli da postoji prag ispod kojeg nismo u stanju da čujemo zvučni signal, Slika 2.15. Interesantno je naglasiti da pojedini tonovi jačeg inteneziteta utiču da susjedne nižeg intenziteta slabije čujemo. Ova pojava se naziva audio maskiranje. Dakle, ukoliko je poznat uticaj pojedinih frekvencija odnosno ako je poznata vrijednost praga ispod kojeg su susjedne frekvencije neaudibilne, moguće je sve frekvencije ispod tog praga zanemariti u svim analizama (bez uticaja na kvalitet obradjenog zvučnog signala). Ova osobina je veoma
značajna u nizu aplikacija, posebno u kompresijama o kojima će biti riječi kasnije.
Slika 2.16 Audio maskiranje
Važno je takodje napomenuti da postoje pojedini opsezi unutar kojih je naše uho podjednako osjetljivo. Ovi opsezi se nazivaju kritičnim opsezima. Osjetljivost se dakle razlikuje od jednog do drugog kritičnog opsega, kojih ima 24. Napomenimo da širina kritičnih opsega varira od 100-nak Hz na nižim do nekoliko kHz na višim frekvencijama. Ilustracija maskiranja unutar jednog opsega data je na Slici 1.16.