Tehnologii Multimedia Cursul Tehnologii Multimedia (TM) este orientat spre pregatirea avansata in tehnologia informatiei utilizata in sistemele de comunicatii multimedia distribuite, incluzand atat prelucrarea semnalelor de orice tip (voce, imagini, text) cat si recunoasterea lor. Se pune accent pe analiza, sinteza si proiectarea stiintifica, dar si pe aducerea de plus de cunoastere prin cercetare aplicativa. Cunoștinte teoretice:
Analiza, proiectarea, testarea si evaluarea sistemelor multimedia distribuite. Modelarea si planificarea sistemelor multimedia si a sistemelor de telecomunicatii. Instalarea, configurarea, operarea si intretinerea hardware si software a retelelor de telecomunicatii complexe. Prelucrarea multimedia a semnalelor (voce, date, text, imagini). Proiectarea de sisteme avansate de codare si compresie. Aplicatii software pentru telecomunicatii in tehnologii web si multimedia
Note de Curs «Tehnologii Multimedia» Pavel Chirev Nina Sava Tema 1. Întroducere în Tehnologii Multimedia. Domeniile principale și probleme abordate. 1.1.Definiții. 1.2. Multimedia disciplină la intresecția științelor. 1.3. Dezvoltatrea Tehnologiilor Multimedia. 1.4. Principiile de bază și aplicabilitatea Sistemelor Multimedia. 1.5. Clasificarea aplicațiilor tehnologiilor Multimedia. 1.6. Standardele IEEE 802.1 și tehnologiile Ethernet. 1.7. Domeniile de aplicare Tehnologii Multimedia și probleme soluționate.
Scopul cursului este de a determina care este: • • • • •
Domeniul Multimedia și Clasificarea componentrlor Rolul şi importanţa Tehnologiilor Multimedia. Domeniile de aplicare Tehnologiilor Multimedia Tehnologii de captare și procesare Content Multimedia, Tehnologii de depozitatre și de acces la Contentul Multimedia.
Competențe obținute: La finalizarea studierii unității de curs și realizarea sarcinilor de învățare studentul va fi capabil: Să explice și să identifice caracteristicile principale ale contentului multimedia (sunet, video, animație, text, obeicte grafice). Să identifice etapale de elaborare a unui scenariu multimedia interactiv sau static utilizând instrumentariul mediilor de elaborare a acestora. Să efectueze diverse operații asupra contentului multimedia cu ajutorul mediilor de elaborare universale sau specificate de tipul contentului.
Să elaboreze scenarii multimedia utilizînd limbaje de programare orientate pe obiecte cu posibilități de export/import a datelor precum și realizarea unei interactivități prietenoase utilizatorului. Să elaboreze aplicații multimedia integrate utilizând tehnologiile WEB cu elemente de metastructurare XML, HTML, CSS. Să explice structura și principiile funcționale ale resurselor hardware utilizate la crearea contentului multimedia, metodele de procesare, depozitare, codificare în formate digitale ale Să proiecteze aplicaţiile multimedia în conformitate cu standardele în vigoare Să analizeze și să prelucreze semnale complexe audio-video Să proiecteze structuri hardware și software pentru sisteme multimedia Să folosească mediile actuale de comunicaţie pentru diseminarea aplicaţiilor multimedia. Rolul şi importanţa Tehnologiilor Multimedia Tema 1. Întroducere în Tehnologii Multimedia. Domeniile principale și probleme abordate. • •
Termenul ”multimedia” sau ”multe medii” sau din mai multe surse. De obicei sub termenul multimedia se subânțelege procesarea interacțiunilor efectelor vizuale și audio sub controlul și manipularea de programe (soft) interactive pe calculator. Etimologic, multimedia este un cuvânt compus format din prefixul „multi” (mai mult decât unul, mai multe) şi substantivul „media” care este pluralul termenului „medium” (cu sensul de mijloc, intermediar, menire)
1.1.Definiții ale Multimedia Fiind o noţiune la intersecţia mai multor domenii, multimedia cunoaşte o mare varietate de definiţii şi criterii de clasificare. ► Astfel, în Cartea Albă elaborată de Interactive Multimedia Association dinS U A , o aplicaţie multimedia interactivă este definită ca o aplicaţie ce per mite utilizatorului să reacţioneze “în propriul ritm” şi combină textul cu sunetul, imaginea fotografică, animaţia sau video. Această definiţie urmăreşte criteriul interactivităţii. Tehnologii Multi-Media - (engl. multi – mult, media – medii)
Multimedia – adjective, mul·ti·me·dia \ˌməl-ti-ˈmē-dē-ə\ MULTIMÉDIA (‹ lat.) s. n. Ansamblu de tehnici (texte, imagini fixe sau animate, sunete, grafică) care permit recepționarea, depozitarea, prezentarea și prelucrarea informațiilor simultan și interactiv. După cum sugerează și numele, multimedia este integrarea mai multor forme de mass-media. Acest lucru include text, grafică, audio, video, etc. De exemplu, o prezentare care implică clipuri audio și video ar fi considerat o "prezentare multimedia”. Software educațional care implică animații, sunet și text se numește "software multimedia." CD-uri și DVD-uri sunt adesea considerate a fi "formate multimedia", deoarece acestea pot stoca o mulțime de date, dar cum se știe multimedia necesită o mulțime de spațiu pe disc.
Datorită progresele în viteza calculatorului și creșterea spațiului de stocare, multimedia, este un lucru obișnuit astăzi. Conceptul de multimedia Multimedia reprezintă ansamblul mijloacelor de comunicare prin care informaţiile pot fi percepute vizual şi auditiv în diferite forme. Dezvoltarea multimediei s-a realizat datorită unui proces cunoscut sub denumirea de Revoluţie Digitală care s-a bazat pe trei mari descoperiri: Conversia semnalului din anlog în digital. Proces care genera un volum mare de date, deci necesita un spaţiu mare de memorie pentru stocarea resurselor multimedia în format digital; Dezvoltarea tehniciilor de compresie / decompresie a datelor. Procesul de compresie / decompresie a datelor nu este specific resurselor multimedia. Inainte de exisenţa multimediei se comprimau / decomprimau date alfanumerice existente în diferite tipuri de documente. Dezvoltare rețrele și tehnologii de Transport Date. Tehnologii ce au permis schimbul de informație între sursa de informație și utilizator în regim de timp real: Text and sound Text, sound, and still or animated graphic images Text, sound, and video images Video and sound Multiple display areas, images, or presentations presented concurrently In live situations, the use of a speaker or actors and "props" together with sound, images, and motion video MULTIMÉDIA (‹ lat.) s. n. Ansamblu de tehnici (texte, imagini fixe sau animate, sunete, grafică) care permit recepționarea, depozitarea, prezentarea și prelucrarea informațiilor simultan și interactiv. Multimedia - este o tehnologie informațională contemporană, care permite de a mixa în sistemul calculatorului a textului sunetului imaginilor video, imagini grafice și animare (Multiplicația). Multimedia - este un set de tehnologii, care permit calculatorului de întroduce, procesa, păstra (depozita), transmite și de a vizualiza tipurile de date cum ar fi: text, grafica, animația, imagini statice digitizate, video digitizat, sunet digitizat și voce digitizată. Multimedia -- sunt sisteme interactive ce asigură procesarea imaginilor statice și imagini video în mișcare, animația graficii digitale, a textelor și a vocii de înaltă claritate. Tehnologiile Multimedia sunt unele din cele mai cu perspectivă domenii din informatică. Ele au ca scop de a produce un product ce conține: ”O colecție de imagini, texete și date ce sunt însoțite de sunete, video și de animație și alte efecte vizuale (simulare) inclusiv o interfață interactivă și alte mijloace de manipulare”. Această definiție a fost formulată în 1988 de o Comisie Europeană ce se preocupă de problemele de implementare și utilizare a noilor tehnologii. 1.2.Puțină istorie Cresterea masiva a numarului de servicii si produse Web este data de utilizarea unui tot mai bogat continut informational: texe, imagini, video si sunet. Combinarea și integrarea acestor medii formează multimedia, utilizată pe scară largă în reprezentarea și interschimbarea informatiilor.
Diverse obiecte/documente multimedia incluzind hiperlegaturi definesc conceptul de hipermedia. Sunt mai multe definiții a noțiunii multimedi. Putem privi multimedia drept sursă a activităților de design, stocare, interogare si utilizare a documentelor electronice compuse din "medii" multiple ca video, audio, animatie, text, grafica si imagine. In general, o aplicație este considerată a fi multimedia, dacă ea conține macar o media continua (video, de pilda) si una discreta (cum ar fi textul). Multimedia a fost precedată initial de noțiunea hipermedia, pentru a reprezenta masivele mari de texte și imagini. Pentru a înțelege noțiunea Hiprtmedia trebuie să vedem ce înseamna hipertextul. In anul 1965, Ted Nelson inventează termenul hipertext (text non-linear), definindu-l drept "material scris sau grafic interconectat într-o maniera complexă care în mod convențional nu poate fi reprezentat pe hârtie. El poate conține cuprinsuri ale propriului sau conținut și relațiile dintre diverse părți componente; poate de asemeni conține adnotări, adăugiri și note de subsol pentru cei care doresc să-l examineze." Ideea de a reprezenta printr-o modalitate nelineară mai multe tipuri de medii este insă mult mai veche. Inceputurile hipertextului și multimediei apar intr-un articol publicat în iulie 1945 în Atlantic Monthly: "As We May Think" (Așa cum am putea crede), autorul articolului fiind Vannebar Bush, profesor la MIT si Institutul Carnegie din Washington. El descrie o mașină menită a ajuta omul în cadrul procesului de memorare, pe baza asociațiilor între conținut și formă, această mașină numind-o MEMEX (MEMory EXtended). MEMEX se baza parțial pe tehnologia microfilmelor, fiind prevazută cu dispozitive de selecție foto-optică și tastaturi, "dispozitiv ce poate stoca toate carțile, înregistrările și comunicațiile și care este mecanizat în așa fel încât consultarea informațiilor se realizează flexibil și rapid." (Bush, 1945). O alta persoana implicată în dezvoltările de început ale multimediei este Douglas Engelbart, membru al Institutului de Cercetare de la Stanford unde dezvoltă revoluționarul proiect ”Augment”. Acest proiect deschide o direcție importantă de cercetare odată cu prezentarea lui la Fall Joint Computer Conference în 1968. Engelbart propune dispozitive computerizate de scriere automată cu un deceniu înainte (în anul 1963) de apariția primelor procesoare de texte evoluate. În cadrul prezentării din 1968, prima demonstrație publică a unor facilități de bază standard ale actualelor programe de tehnoredactare, interfețe grafice, aplicații hipertext și multimedia, Engelbart ilustrează urmatoarele idei inovative și invenții: mouse-ul, ferestre multiple pe ecranul computerului, facilități de procesare de texte și hipertexte, poșta electronică, teleconferințe, documente compuse din text și grafică, limbaje de comandă de tip script, interfața grafică. A treia figură importantă în istoria multimediei este Ted Nelson, inventatorul termenului de hipermedia și a unui sistem hipermedia: ”Xanadu, ideea de baza a proiectului Xanadu era aceea de a concepe un sistem care să conțină întreaga literatura universală, plus alte informații, într-un singur depozit de date. Prototipul lui Xanadu exista intr-o versiune dezvoltată de Autodesk (in 1991) și permitea: - stocarea digitală a informatiilor de tip text, grafică, video etc. - legături flexibile între documente (la nivel de caracter, cuvânt, fragment de imagine etc.) - atașarea de senzori activi părților de documente,
- controlul versiunilor și compararea lor, - accesul concurent și sigur al mai multor utilizatori. Desigur, în prezent, Xanadu a fost depașit de ceea ce inseamna Web-ul, dar multe din ideile de pionerat ale lui Nelson se regasesc in cadrul WWW –ului contemporan și a altor sisteme hipermedia actuale. In cadrul Laboratorului Media de la MIT, incepând cu anii '70, s-au dezvoltat o serie de sisteme multimedia clasice, surse de inspirație pentru aplicațiile actuale. Dintre acestea se pot mentiona: Spatial Data Management System, Aspen Movie Map, Project Athena, care definesc și domeniile de interes ale hipermediei: - simulări interactive, - colaborări științifice la distanță, - invățământ. Normal, cu anii, numarul aplicatiilor multimedia și hipermedia a crescut și pentru a le descrie, chiar și succint, pe fiecare dintre ele am depași cu mult spatiul acordat acestui capitol. 1.3.Noduri si legaturi Conceptul esential prezent in cadrul hipertextului este cel al legaturilor (ce apar in cadrul aceluiasi document si/sau intre documente diferite). Aceasta caracteristica de legare permite organizarea non-lineara a informatiilor. Un sistem hipermedia este constituit din noduri (concepte) si legaturi (relatii). Un nod reprezinta, in mod uzual, un concept unic (o idee), putind contine text, grafica, animatie, audio, video, imagini sau programe. Un nod poate avea asociat un tip (detaliu, propozitie, colectie, observatie etc.) inglobind o informatie semantica. Nodurile sint conectate de alte noduri prin intermediul legaturilor. Nodul sursa al unei legaturi se numeste referinta , iar cel destinatie referent , putind fi denumite si ancore. Continutul unui nod se afiseaza la activarea legaturii. Legaturile sint conexiuni intre noduri (sau concepte) dependente unul de altul, putind fi bidirectionale sau doar unidirectionale (similare comunicatiilor duplex ori simplex). Si legaturilor li se pot asocia tipuri (legatura de specificare, de elaborare, legatura membru, legatura de opozitie etc.), definind natura relatiei dintre noduri. Legaturile pot fi referentiale (pentru realizarea referintelor incrucisate) sau ierarhice. Activarea marcajelor unei legaturi duce la vizualizarea (activarea) nodurilor. Conceptele de mai sus isi au originile in istoria omenirii. Talmudul (utilizind din plin comentarii si adnotari imbricate, colaterale), Ramayana si Mahabharata sint prototipuri antice ale reprezentarii hipertextului. Dictionarele si enciclopediile tiparite pot fi considerate vechi forme de hipertext, fiind vazute ca retele de noduri-text unite de legaturi-referinte. ► Din punct de vedere informatic, multimedia este o combinaţie de medii de natură diferită şi de elemente de interacţiune ce sunt accesibile omului prin intermediul calculatorului. Combinarea acestor elemente este făcută de un software author sau de un limbaj de programare. ► Din punctul de vedere al domeniului pe care îl poate acoperi, multimedia se regăseşte la intersecţia dintre informatică, telecomunicaţii şi audio-vizual. Întâlnirea acestora
este facilitată de existenţa suporţilor de stocare digitali. Domeniul Multimedia
CONTENT ММ
NAVIGARE CONTENT TRANSPORT ȘI VIZUALIZARE
VIDEO/ MULTIPLI
DEPOZITARE
SUNET/ AUDIO
DIGITIZARE
IMAGINI/ GRAFICA
CAPTARE
TEXT/ HIPERTEXT
Тhnologii ММ
Fig.1.1. Componente Domeniul Multimedia. ► O altă categorie de definiţii ia în considerare staţia de lucru de la care se poate accesa o aplicaţie multimedia şi care poate fi: un terminal, o consolă de tip teleconferinţă sau un chioşc interactiv pentru instruire sau informare. Aceste periferice impun moduri specifice de operare, acces şi vizualizare a informaţiei multimedia. ► După tipul de aplicaţii şi posibilităţile de distribuţie a documentelor, multimedia este on-line permiţând tele-cumpărături, tele-educaţie, tele-bancă, tele-viziune interactivă, ceea ce poziţionează multimedia la intersecţia dintre reţelele de difuzare şi cele de transmisie, dintre reţele de tranzacţii şi cele de informare şi multimedia off-line. Cele două tehnologii pe care se bazează multimedia on-line şi off-line este Internetul şi Cd-ul sau DVD-ul. ► După modul în care organizează informaţia, multimedia este considerată un mediu “n-dimensional”, ce se bazează pe tehnici de structurare şi distribuire a informaţiei cunoscute sub denumirea de hipertext şi hipermedia. Aceste tehnici au determinat un mod specific de parcurgere sau navigare a documentului multimedia ce se desfăşoară după un scenariu sau storyboard. ► Din punct de vedere tehnic, multimedia este percepută ca ansamblul componentelor hardware ce permit captarea, editarea şi redarea conţinutului multimedia.
Multimedia şi intersecţia mai multor domenii În Cartea Albă elaborată de Interactive Multimedia Association din SUA, o aplicaţie multimedia interactivă este definită ca o aplicaţie ce permite utilizatorului să reacţioneze “în
propriul ritm” şi combină textul cu sunetul, imaginea fotografică, animaţia sau video. Această definiţie urmăreşte criteriul interactivităţii. ► Din punct de vedere informatic, multimedia este o combinaţie de medii de natură diferită şi de elemente de interacţiune ce sunt accesibile omului prin intermediul calculatorului. Combinarea acestor elemente este făcută de un software author sau de un limbaj de programare. ► Din punctul de vedere al domeniului pe care îl poate acoperi, multimedia se regăseşte la intersecţia dintre informatică, telecomunicaţii şi audio-vizual. Întâlnirea acestora este facilitată de existenţa suporţilor de stocare digitali. ► O altă categorie de definiţii ia în considerare staţia de lucru de la care se poate accesa o aplicaţie multimedia şi care poate fi: un terminal, o consolă de tip teleconferinţă sau un chioşc interactiv pentru instruire sau informare. Aceste periferice impun moduri specifice de operare, acces şi vizualizare a informaţiei multimedia. ► După tipul de aplicaţii şi posibilităţile de distribuţie a documentelor, multimedia este on-line permiţând tele-cumpărături, tele-educaţie, tele-bancă, tele-viziune interactivă, ceea ce poziţionează multimedia la intersecţia dintre reţelele de difuzare şi cele de transmisie, dintre reţele de tranzacţii şi cele de informare şi multimedia off-line. Cele două tehnologii pe care se bazează multimedia on-line şi off-line este Internetul şi Cd-ul sau DVD-ul. ► După modul în care organizează informaţia, multimedia este considerată un mediu “ndimensional”, ce se bazează pe tehnici de structurare şi distribuire a informaţiei cunoscute sub denumirea de hipertext şi hipermedia. Aceste tehnici au determinat un mod specific de parcurgere sau navigare a documentului multimedia ce se desfăşoară după un scenariu sau storyboard. ► Din punct de vedere tehnic, multimedia este percepută ca ansamblul componentelor hardware ce permit captarea, editarea şi redarea conţinutului Câteva domenii importante prelucrare si codificare multimedia: analiza de content multimedia, regăsire multimedia pe baza de content, securitate multimedia, prelucrare audio, prelucrare imagine si video, compresie, etc; suport de sistem și prelucrare în rețea multimedia: protocoale de rețea, Internet, sisteme de operare, servere si clienți, calitate a serviciului (QoS – „quality of service”), baze de date; instrumente multimedia, „end-systems” și aplicații: sisteme hipermedia, interfețe utilizator, sisteme „authoring”; interacțiune și integrare multi-modale: dispozitive web răspândite („webeverywhere”), educație multimedia incluzând invațare colaborativă bazată pe calculator („Computer Supported Collaborative Learning”), proiectare și aplicații de medii virtuale.
1.4.
Aplicaţii multimedia
Aplicaţiile multimedia sunt apreciate luând în considerare câteva dimensiuni specifice, care sunt: - publicul care le accesează. După acest criteriu aplicaţiile multimedia sunt de interes public sau de interes personal, ca de exemplu: bornele interactive de informare, aplicaţii de prezentare şi de instruire, publicaţii şi biblioteci multimedia, jocuri şi aplicaţii de divertisment. - profesionalismul sau generalitatea informaţiei difuzate; - zona de acces. După acest criteriu aplicaţiile sunt locale sau telematice. - gradul de interactivitate. Aplicaţiile multimedia în comunicare se regăsesc mai ales pentru prezentare şi reclamă. Datorită eficienţei comunicării, tehnicile multimedia sunt mult apreciate în activităţile de marketing, permiţând demonstaraţii autolansabile sau parcurse după legături generate de utilizator. Fiecare document este adresat unei audienţe şi unui canal de distribuţie diferit. Multimedia dezvoltă medii noi interactive, oferind materiale mai multe şi mai detaliate, ea adaugă valoare unui produs tradiţional şi transmite produsele în forme deosebite şi pe suporţi uşor de accesat. Astfel, un dicţionar poate fi parcurs cu imagini instantanee, explicaţii verbale. Audienţa aplicaţiilor multimedia din acest domeniu poate fi una specializată, cu necesităţi deosebite sau de masă. Aplicaţiile multimedia au o eficienţă deosebită în înlocuirea colecţiilor mari de date cu biblioteci digitale de materiale textuale sau imagine ce se pot accesa rapid şi într-o formă convenabilă. Tehnologiile multimedia asigură informarea rapidă a publicului, documentarea sa în mod facil şi, mai ales, complet, într-un timp relativ scurt.
1.5.
Documentul multimedia
Definiție general a Documentului Multimedia Un document multimedia conţine obiecte media de natură diferită între care se stabilesc anumite relaţii de secvenţiere şi prezentate, bazate pe anumite specificaţii temporale, spaţiale sau de condiţionare. Caracteristicile documentului Documentul multimedia are o serie de caracteristici deosebite faţă de alte tipuri de documente: - este descris prin interactivitate, distributivitate şi deschidere, - are o structură hipertext / hipermedia, - componentele sale sunt elemente media digitale de natură diferită, dar şi elemente necesare pentru structurarea, sincronizarea sau prezentarea documentului şi elemente de interactivitate ce asigură interacţiunea cu utilizatorul, - dinamicitate, - Citirea lui se face din aproape în mai aproape prin procesul de „navigare”, Un document multimedia este definit de caracteristici speciale: - are o structură hipermedia cu legături ce se stabilesc între anumite obiecte, într-un anumit context. Această structură permite crearea de versiuni diferite ale aceluiaşi document, vizualizări multiple cu subseturi sau căi de navigare multiple.
deţine o sincronizare inter-medii obţinută ca legătură între obiectele dependente sau independente şi o sincronizare intramediu stocată în procesul de captare a acestuia; - este un document dinamic datorită dependenţei de timp. Crearea şi parcurgerea sa este dată de contextul de derulare. - are o dimensiune spaţială obţinută prin relaţiile de prezentare a componentelor media pe suprafaţa ecranului; - deţine interactivitate şi interacţiune cu utilizatorul; - prezentarea se face prin interfaţe interactive, intuitive, uşor manevrat de către utilizator (user-friendly); - este portabil şi are diferite formate de transfer (fişiere) între platformele calculator. - are un format unitar de stocare pentru diferite componente media interdependende, în mişcare; - datorită complexităţii sale, la redarea şi distribuţia documentului multimedia se impun operaţii de împachetare şi de compactare a resurselor media necesare, dar şi a unor resurse ale aplicaţiilor authoring sau ale limbajelor de programare. Are trei dimensiuni: logică, temporală şi spaţială: - Dimensiunea logică vizează structurarea şi organizarea documentului multimedia cu mai multe componente logice ce se includ unele pe altele, de obicei într-o formă ierarhică. În acest fel, crearea şi prezentarea documentului, la un anumit moment dat, se concentrează doar asupra unei singure componente, cum ar fi de exemplu o scenă dintr-un scenariu multimedia sau o pagină web. - Timpul este o dimensiune şi o caracteristică specială a documentului multimedia, el derulându-se în timp. - Organizarea spaţială a documentului se realizează pe suprafaţa ecranului şi crează ceea ce se numeşte interfaţa cu utilizatorul. Organizarea logică poate fi folosită pentru a sugera informaţia temporală şi spaţială în mod automat. Aceste dimensiuni asigură complexitatea documentelor multimedia ce impun o anumită cale în documentare şi în redare. Paradigma WYSIWYG (What You See Is What You Get) este foarte folositoare pentru editarea de documente tradiţionale, dar nu mai este aplicabilă şi pentru documentele multimedia. Datorită dinamicităţii sale şi a obiectelor componente, dependente în principal de factorul temporal, precum şi din necesitatea de a le organiza în conformitate cu anumite relaţii şi condiţii, documentul multimedia nu poate fi creat şi prezentat asemănător celui tradiţional. Datorită complexităţii sale documentul multimedia se mai numeşte şi proiect. 1.6.Principiile și proprietățile MultiMedia: Principiile Multimedia: • Reprezentarea informației prin combinare a mai multor medii de percepție a omului (multi - medii); • Prezența a mai multor regii în prezentarea contentului informației ( inclusiv regii construite de însuși utilizatorul în baza ”navigării libere” prin contentul informațional); • Design artistic al interfeței și a mijloacelor de ”navigare”. Proprietățile Multimedia: -
•
Posibilitatea de a depozita și păstra pe termen lung a unor massive mari de informații pe un singur dispozitiv (volume de texte, imagini de calitate, 40-60 min. de împrimare video, mai multe ore de muzică)
Posibilitatea de a mări imaginea reflectată pe ecran (pentru a evidenția unele fragmente), utilizarea instrumentului ”lupa”, păstrând calitatea imaginii, ce este foarte important când studiem unele opere de artă, documente sau manuscrise istorice, Posibilitatea de a procesa și compara imaginile utilizând o gamă de produse soft în scopuri științifice și de cunăaștere, Posibilitatea de a selecta din imagine texte, hipertext sau referințe hipermedia prin care putem obține informație suplimentară referitor la imagine, Posibilitatea de realiza un acompaniment sonor sau muzical ce corespunde unui șir de imagini statice sau dinamice, Posibilitatea de a utiliza efecte ”stop-Cadru” sau răsfoirea evenimentului cadru după cadru, suprapunere fragmente video din alte scene video, Posibilitatea conexiunii la rețele globale Internet sau de transport date, Prezența a unei game largi de instrumente pentru procesare și redactare: texte, imagini, sunet, video, animație, Posibilitatea de a crea ”galerii” proprii de informații prin selectare din masivul de informație disponibil, creare slide-shou, Lista posibilităților șinfacilităților poate fi extinsă..
1.7.Tehnici de utilizare multimedia Sistemele multimedia sunt utilizate în tot mai multe domenii de activitate [1]: − birotică, − editare şi producţie video, − muzică, − învăţământ (mai ales învăţământ la distanţă), − divertisment, − comunicaţii multimedia. Dezvoltarea acestor sisteme este strâns legată de tehnicile de codificare şi comprimare a datelor precum şi de performanţele reţelelor privind viteza de transmitere a informaţiilor (text, imagini, semnale digitale audio-video) între diferite noduri. O aplicaţie multimedia este un sistem de comunicaţie între mai multe terminale care îşi transferă informaţii audio, video, grafice, etc. Aceste aplicaţii diferă prin: − scopul şi particularităţile comunicaţiei, − structura echipamentelor terminale, − parametrii transmisiei de date, − parametrii reţelei de transport utilizate. 1.7.1. Clasificările aplicațiilor Clasificările acestor aplicaţii ţin cont de următoarele criterii [2]: − numărul şi natura participanţilor (a şi b), − modul de transfer al datelor (c), − scopul aplicaţiei (d). a) În funcţie de tipul participanţilor la comunicaţia multimedia aplicaţiile sunt: − aplicaţii interpersonale (transferul se realizează între mai multe persoane), − aplicaţii persoană-sistem (un capăt al legăturii este un sistem de calcul). b) După numărul participanţilor la comunicaţie aplicaţiile pot fi:
− individuale, dacă la o sesiune participă: − o singură persoană dacă aplicaţia este de tip perosană-sistem, − două persoane dacă aplicaţia este interpersonală, − de grup, dacă este realizată: − distribuţia informaţiei către mai multe persoane, pentru aplicaţii de tip perosană-sistem, iar în funcţie de mulţimea utilizatorilor căreia i se adresează aplicaţia aceasta pot fi de tip: - broadcast, se adresează tuturor utilizatorilor, − multicast, se adresează unei anumite părţi a utilizatorilor; − comunicarea între mai multe persoane sau grupuri de persoane pentru aplicaţiile interpersonale. c) După momentul relativ al realizării etapelor: − sincrone (prezentarea datelor se desfăşoară simultan cu transmisia lor), − asincrone (prezentarea datelor se efectuează după transmisia lor, la solicitarea arbitrară a utilizatorului). d) În funcţie de scopul aplicaţiei: − profesionale (învăţământ la distanţă sau lucru prin colaborare), − de divertisment (aplicaţii rezidenţiale). − de tranzacţii (achiziţii de produse, servicii, operaţiuni bancare, etc.). 1.7.2. Clasele de aplicaţii multimdia Aplicații multimedia interpersonale şi persoană-sistem precum şi subclasele acestora (care vor fi prezentate în secţiunile următoare) sunt reprezentate în următoarele două figuri:
Figura 1.3. Aplicaţii multimdia interpersonale.
Figura 1.4. Aplicaţii multimdia persoană-sistem. • •
Hipermedia și multimedia Un hipertext reprezintă un text care poate fi citit neliniar, urmând linkuri care indică alte parți ale documentului sau alte documente. Hipermedia, este o extensie logică a termenului de hipertext, poate să fie mai mult decat un hipertext (impreuna cu hiperlinkuri), incluzând și alte medii ca grafica, imagini, dar in special medii continue, sunet si video. Cel mai bun exemplu de aplicatie hipermedia este World Wide Web.
Fig.1.5. O structura hipertext compusa din mai multe noduri si modul de vizualizare folosind un browser hipertext In prezent există o serie de sisteme hipertext operaționale dintre care se pot aminti: Hyperwave (http://www.hyperwave.com), Microcosm http://www.multicosm.com/microcosm/index.html) Storyspace (http://www.eastgate.com/Storyspace.html), Webthing (http://www.webthing.com/self-org/) si, desigur, World Wide Web (http://www.w3.org/pub/WWW/WWW/). Hipermedia: multimedia + hiperlegaturi Creșterea masivă a numărului de servicii și produse Web este dată de utilizarea unui tot mai bogat continut informational: imagini, video și sunet. Combinarea și integrarea acestor medii formează multimedia, utilizata pe scară largă în reprezentarea și interschimbarea informațiilor. Diverse obiecte/documente multimedia incluzând hiperlegaturi definesc conceptul de hipermedia 1.7.3. Aplicaţii interpersonale audio-video În cele ce urmează vor fi prezentate două modalităţi de îmbunătăţire a comunicaţiilor între persoane telefonia şi videofonia asistate de calculator. Pentru a permite rularea simultană şi a altor aplicaţii trebuie ca acestea să utilizeze doar o mica parte a resurselor sistemului. - Telefonia asistată de calculator Calculatorul poate fi utilizat: a) ca un aparat auxiliar al telefonului (apelurile şi convorbirea fiind asigurate de telefon), b)fără telefon operaţiile fiind executate prin intermediul calculatorului. În prima variantă (a) se pot implementa diverse funcţii uzuale (prin care creşte rolul calculatorului în aceste aplicaţii) cum ar fi [3]: − identificarea persoanei care telefonează, − înregistrarea mesajelor, − realizarea de apeluri programate, − transmiterea unui mesaj mai mutor destinatari. În varianta b) calculatorul preia toate funcţiile pentru iniţierea şi derularea convorbirii şi de asemenea execută achiziţia şi redarea semnalelor vocale, precum şi compresia şi decompresia datelor [4]. Reţelele locale (LAN) permit derularea simultană a câtorva zeci de convorbiri, însă în cazul
apelurilor la mare distanţă (reţele WAN) se recomandă transmiterea comprimată a semnalului vocal (pentru ca probabilitatea de pierdere a pachetelor din cauza supraîncărcării reţelei să scadă). Videofonia asistată de calculator Acest tip de aplicaţii (televideofonie) implică prezenţa imaginii (asociate vocii utilizatorului) şi a camerei video, precum şi realizarea recepţiei, codificării şi a transmiterii imaginilor. Sistemul videofonic este conceput pentru a fi utilizat la un moment dat doar de două persoane, permiţând un contact vizual printr-o cameră video fixă, focalizată pe bustul vorbitorului. Rezoluţia imaginii transmise este scăzută (320x200) pentru a permite redarea mişcării (cca. 10 imagini/sec.). Pentru reţele cu comutaţie pe circuite (figura 1.5.) transmisia videofoniică se poate face analogic sau digital, aceasta din urmă fiind utilizată pentru comunicaţiile la distanţă (legături internaţionale, ISDN de bandă îngustă, cu debit între 64-384 kbps). Debitul binar maxim poate fi asigurat prin utilizarea a şase canale de bază ISDN, fiecare de 64 kbps (majoritatea echipamentelor videofonice digitale permit un debit de 128 kbps).
Figura 1.5. Sistem videofonic cu comutare de circuite pe reţele digitale Reţelele cu comutare pe pachete permit realizarea unei calităţi superioare a semnalului audio-video datorită vitezei de transfer superioare. Pe o reţea locală (LAN, figura 1.6.) viteza de transfer poate fi între 10-100 Mbps.
Figura 1.6. Sistem videofonic cu comutare de pachete pe reţea locală 1.7.4. Aplicaţii multimedia destinate lucrului în cooperare La aceste aplicaţii interpersonale(shared workspace), cu caracter profesional, pot participa la dialog mai multe persoane simultan pentru a coopera la elaborarea unui proiect comun, printransmiterea simultană la fiecare participant a unei ferestre ecran (suprafaţă de lucru) cu acelaşi conţinut. Aplicaţiile de acest tip vor permite un schimb de informaţii în timp real, având următoarele caracteristici: − vizualizarea comună (afişarea pe mai mute monitoare a aceloraşi informaţii),
− teleoperarea (posibilitatea de a interacţiona prin ferestra comună). Aplicaţii shared-whiteboard O astfel de aplicaţie poate simula pe ecranul fiecărui participant o tablă comună, utilizând editoare de texte sau grafice. Pentru a putea distinge contribuţia fiecărui utilizator trebiue făcută o anumită convenţie (de exemplu atribuirea unei culori fiecăruia). Există două posibilităţi de lucru: − având iniţial tabla goală, se poate face un schimb de informaţii, , − având un document pe tablă, se poate comenta de către participanţi (figura 1.7.).
Figura 1.7. Tabla comună Pe timpul utilizării acestor aplicaţii se impun anumite reguli (politici de acces la suprafaţa de lucru comună): a) Accesul necontrolat - participanţii pot utiliza în orice moment tabla comună, (acestă metodă funcţionează bine doar pentru utilizatori experimentaţi sau pentru doar doi participanţi). b) Acces cu blocare implicită - în momentul în care un participant acesează tabla, aceasta se blochează pentru ceilalţi utilizatori, iar la solicitarea acestora, cel care deţine controlul va fi atenţionat. c) Acces cu blocare explicită - protocolul este asemnănător cu cel precedent (FIFO), doar că cererile şi cedarea controlului se face explicit odată cu afişarea acestora pe toate ecranele participanţilor. d) Control centralizat - cererile sunt transmise unui participant desemnat ca moderator care poate permite accesul şi poate prelua controlul în orice moment . Ferestre comune de program Există o serie de aplicaţii prin care un grup de utilizatori rulează acelaşi program şi fiecare interacţionează cu acest program care afişează pe fiecare ecran conţinutul ferestrei de execuţie. Deoarece într-o astfel de aplicaţie un utilizator poate modifica starea unui program şi în acest caz este necesară impunerea unor politici de acces la comnezile programului. Cele mai frecvente reguli adoptate sunt de acces cu blocare implicită şi de control centralizat (moderator fiind în acest ultim caz cel care a lansat programul, dar acest rol poate fi transferat
şi altui participant). Reţelele care asigură suportul acestor aplicaţii trebuie să fie cât mai rapide (timp de întârziere cât mai mic) pentru a nu genera conflicte între participanţi (se recomandă utilizarea reţelelor locale). 1.7.5. Aplicaţii de distribuţie audio-video Aplicaţiile de distribuţie audio-video se adresează unor grupuri de utilizatoriprin transmiterea de date audio-video de la o sursă (server) spre mai mulţi receptori (clienţi). Cu toate că aceste transmisii au un caracter pasiv (nu se urmăreşte ca receptorii să intervină în derularea transmisiei), totuşi unele aplicaţii permit un anumit grad de interactivitate (utilizând un canal de întoarcere). Aceste aplicaţii solicită o legătură de tip punct-la-multipunct datorită numărului de participanţi, iar în funcţie de numărul potenţialilor receptori pot fi de tip • multicasting, dacă transmisia se adresează doar unor eventulai receptori, • broadcasting, dacă fluxul de date audio-video este propagat spre toţi receptorii posibili. Pentru a permite aceste două tipuri de propagare, reţeua de transport trebuie să permită legături multiple punct-la-punct (figura 1.8.a) sau să conţină un serviciu multicast / broadcast (figura 1.8.b).
Figura 1.8. Multicasting prin: a) legături punct-la-punct multiple, b) mecanism intern al reţelei. Multicasting prin legături punct-la-punct multiple.
Figura 1.9. Multicasting prin legături punct-la-punct multiple: a) pe circuite fizice separate, b) prin reţea cu aceces partajat (LAN, IP, ATM). Serviciu intern multicast.
Figura 1.10. Reţea WAN cu multicast spre grupuri deschise prin multiplicare în noduri Bibliografie E. M. Iacob, J. Robu, Birotică şi multimdeia, Editura Universităţii Babeş- Bolyai, Centrul de Formare Continuă şi Învăţămînt la Distanţă, Cluj-Napoca, 1999. 1.8. Standardele IEEE 802.1 și tehnologiile Ethernet Ethernet. Notiuni generale. Functionare Este cel mai utilizat in zilele noastre standart de retele locale. Numarul total de retele ce functioneaza in baza protocolului Ethernet in timpul de fata este de citeva milioane. Modalitatea de funcţionare a reţelelor Ethernet se bazează pe ptotocolul CSMA/CD (Carrier Sense Multiple Access with Collision Detection). Ideea de bază este simplă: o staţie din reţeaua Ethernet poate trimite pachete de date in reţea atunci cand nu există alte pachete de date care circulă in reţea (reţeaua este “liberă”). In caz contrar, staţia care doreşte să transmită pachete de date in reţea aşteaptă pană cand reţeaua devine “liberă”, exact ca o persoană care doreşte să intre intr-o conversaţie şi aşteaptă politicoasă ca altă persoană să termine de vorbit. 1.8.1 Modelul de referinţă OSI Modelul OSI (Open Systems Interconnection) propune o solutie de conectare a sistemelor deschise. El a fost elaborat de catre Organizatia Internationala de Standarde (ISO - International Standards Organization) intre 1977 si 1994. Proprietatea de "open" (deschis) a unui sistem se refera la faptul ca sistemul este pregatit
pentru comunicatii cu orice alt sistem din retea fiind "deschis" pentru schimburi informationale cu alte gazde, pe baza unor reguli (protocoale de comunicatie). Modelul de referinţă OSI permite vizualizarea traseului parcurs de informaţii sau pachete de date, de la un program de aplicaţii (de tipul documentelor, foilor de calcul tabelar, bazelor de date, prezentărilor etc.) la un alt program de aplicaţii localizat într-un alt computer din reţea, chiar dacă expeditorul şi destinatarul fac parte din reţele cu topologii diferite,cu tipuri diferite de medii. Acest model este conceput ca având şapte straturi (sau niveluri), fiecare având funcţii specifice, realizând împreună comunicarea în reţea. Această separare a funcţiilor într-o reţea se numeste stratificare (layering). Funcţiile nu specifică cum trebuie efectuată o operaţiune, ci doar ce trebuie să îndeplinească un anumit nivel, modul de realizare fiind sarcina protocoalelor (seturi de reguli şi metode). Implementarea protocoalelor se poate realiza fie software, fie hardware, fie în ambele moduri. În general producătorii implementează nivelele superioare în software şi cele inferioare în hardware. Proiectarea arhitecturii pe nivele determină extinderea sau îmbunătăţirea facilă a sistemului. De exemplu, schimbarea mediului de comunicaţie nu determină decât modificarea nivelului fizic, lăsând intacte celelalte nivele. Comunicarea în reţea Să luăm ca exemplu de comunicare întâlnit zi de zi comunicarea între două facultăți. La nivel superior, decanii comunică între ei. Similar şi profesorii comunică între ei. Nu în ultimul rând, şi studenții comunică între ei printr-un limbaj caracteristic. Pentru ca această comunicare să fie posibilă, există nişte reguli de comunicare ce sunt respectate de fiecare categorie de persoane. Acesta este un exemplu bun pentru a înţelege ce presupune comunicarea bazată pe niveluri şi protocoale.
Fig.1.11 Reguli de comunicare în rețea ce sunt respectate de fiecare categorie de persoane.
Cele sapte niveluri ale modelului OSI sunt: Fiecare nivel este independent, însă oferă servicii nivelului situate deasupra lui şi primeşte
de la cel de sub el, comunicarea fiind realizată în ambele sensuri. Nivelele sunt adesea identificate nu doar prin nume ci şi prin cifre. Astfel nivelul Aplicaţie este considerat nivelul 7 iar cel Fizic nivelul 1.
Fig. 1.12 niveluri ale modelului OSI Noţiunea de protocol Ca şi între oameni, pentru a putea comunica între ele, calculatoarele trebuie să vorbească acelaşi limbaj, sau altfel spus, să folosească acelaşi protocol. Aşadar, un protocol este un set de reguli pe care fiecare calculator trebuie să-l respecte pentru a comunica cu un altul.
,
Dacă vorbim de conversaţie între două calculatoare apar următoarele întrebări:
Fig.1.13. Fiecare nivel OSI defineşte un set de funcţii și protocoalele Funcţiile nivelurilor OSI Fiecare nivel OSI defineşte un set de funcţii, protocoalele stabilind modul în care sistemul furnizează aceste funcţii (fig. 1.13).
Nivelul n al unui calculator poate comunica cu nivelul n al altuia. Prin urmare, se spune că regulile folosite în comunicare se numesc protocoale de nivel n. În realitate datele nu sunt transmise de la nivelul n al unei maşini către nivelul n al alteia. În schimb, fiecare nivel realizează prelucrările specifice asupra datelor şi le transmit nivelului inferior, până la nivelul fizic unde se realizează schimbul efectiv de date. Doar din punct de vedere logic se poate vorbi de o "conversaţie" între nivelurile a două maşini. Deci fiecare nivel al modelului OSI are un set predeterminat de funcţii pe care le realizează pentru a face posibilă comunicarea în reţea. Aceste funcţii ale modelului OSI sunt:
Fig.1.14. Set predeterminat de funcţii pe care sunt realizate în procesul de comunicarea în reţea Încapsularea După cum arătam mai sus, nivelurile de la emiţător comunică cu echivalentul lor de la receptor, de exemplu nivelul 5 al emiţătorului transmite informaţii nivelului 5 al receptorului. Comunicarea se realizează pe baza protocoalelor fiecărui nivel. Acest tip de comunicare se numeste comunicare peer-to peer. Pentru a putea fi adresată informaţia către un anumit nivel corespunzător, şi pentru ca acesta să o poată recunoaşte ca fiind adresată lui, datele sunt supuse unor modificări pe parcursul comunicării.
.
Acest proces este numit încapsulare, iar în cadrul lui informaţiile sunt grupate în pachete Un pachet de date este o unitate de informaţii grupate logic care circulă între computere (unităţi de date -Protocol Data Units - PDUs). În pachete sunt incluse informaţiile de la emiţător, precum şi alte elemente care sunt necesare pentru a face posibilă şi sigură comunicarea cu receptorul. Prin procesul de încapsulare fiecare nivel adaugă un anumit identificator la informaţia primită (antete / headers, secvenţe terminale / trailers şi alte informaţii) şi o trimite mai departe. Astfel, de la emiţător datele pornesc de la nivelul 7 Aplicaţie şi ajung să fie împachetate
până la nivelul 1 Fizic, iar la receptor se va derula procesul invers, despachetând de la nivelul 1 spre nivelul 7 Procesul de conversie a datelor presupune următorii paşi: 1. Construirea datelor. Utilizatorul scrie email-ul al cărui text şi eventual imagini vor fi convertite în straturile superioare (7,6,5) pentru a avea un format care să poată fi trimis în reţea. 2. Segmentarea datelor. Se face la nivelul 4, în aşa fel încât se garantează că datele vor ajunge în siguranţă de la un calculator la altul. 3. Adaugarea adreselor de reţea. Se face la nivelul 3 şi constă în adaugarea unui header la segmentul nivelului 3, rezultând ceea ce numim pachet. Acest header vine cu informaţii deosebit de preţioase: adresa logică către care va fi expediat pachetul, adresa logică a sursei. Tot la acest nivel se decide care va fi următoarea maşină căreia i se va livra pachetul (next hop). 4. Adăugarea headerului de strat 2. Aici se adaugă un header care conţine informaţii cu privire la următoarea maşină care va primi acea informaţie. Rezultatul acestei asamblări fiind ceea ce numim un cadru (frame). Trebuie deosebită această adresare de cea de la nivelul 3: spre exemplu dacă sunt într-o reţea A şi trimit informaţie în aceeaşi reţea, IP-ul destinaţiei va fi al maşinii către care trimit, MAC-ul deasemeni; pe când dacă trimit într-o altă reţea, IP-ul va fi al destinaţiei, iar MAC-ul va fi al “default gateway-ul” din reţeaua A în care ne aflăm. 5. Convertirea în biti pentru transmitere. Cadrul trebuie convertit într-un format binar pentru transmiterea printr-un mediu de propagare. O functie de tip clocking permite echipamentelor să distingă aceşti biţi, pe măsură ce aceştia călătoresc prin mediul de transmitere. Mediul fizic de transmitere poate varia de-a lungul căii folosite.
Fig.1.15. Convertirea în biti pentru transmitere
Fig.1.16. Nivelul Aplicaţie Nivelul Aplicaţie identifică şi stabileşte disponibilitatea partenerului de comunicaţie, sincronizează aplicaţiile între ele şi stabileşte procedurile pentru controlul integrităţii datelor şi erorilor. De asemenea identifică dacă există suficiente resurse pentru a sprijini comunicaţia între parteneri. La acest nivel începe procesul de încapsulare. Astfel, datelor li se adaugă un antet numit application header. Acesta conţine informaţii ce permit receptorului recunoaşterea informaţiilor primite. Protocoale de la acest nivel care fac posibilă comunicarea sunt: 1. DHCP (Dynamic Host Configuration Protocol) - atribuirea dinamica de adrese IP echipamentelor de reţea 2. DNS (Domain Name System) – translatarea numelor în adrese IP 3. FTP (File Transfer Protocol) - transfer de fişiere 4. HTTP (Hyper Text Transfer Protocol) – aplicaţii web (prezentare, baze de date, etc.) 5. IMAP (Internet Message Access Protocol) şi POP (Post Office Protocol) - protocoale folosite de clienţii locali de email de preluare a e-mail-urilor de pe servere de email 6. SMTP (Simple Mail Transfer Protocol) – standard pentru transmiterea e-mail-urilor 7. SNMP (Simple Network Management Protocol) - administrare şi monitorizare 8. SSH (Secure Shell) - transmitere securizată a datelor 9. Telnet - terminale virtuale
Fig.1.17. Nivelul Prezentare Nivelul Prezentare este nivelul care formatează datele pe care nivelul aplicaţie al unui sistem le transmite, pentru ca acestea să fie standardizate şi deci să poată fi citite de către nivelul aplicaţie al altui sistem. Atunci când este necesar, nivelul face translaţie între diferitele formate ale datelor folosind un format comun (cod ASCII) pentru reprezentarea acestora. În procesul de încapsulare antetul nivelului 6 (presentation header) este adăugat la cel primit de la nivelul 7 şi este transmis către nivelul 5.
Fig. 1.18. Nivelul Sesiune După cum spune chiar numele său, nivelul Sesiune stabileşte, gestionează şi finalizează sesiunile de comunicaţie între aplicaţii.
Prin sesiune se înţelege dialogul între două sau mai multe entităţi. Altfel spus, nivelul Sesiune este responsabil de crearea conexiunilor, de sincronizarea şi menţinerea lor şi de întreruperea acestora. În plus, acest nivel oferă garanţii în ceea ce priveşte expedierea datelor, clase de servicii şi raportarea erorilor. Antetul adăugat la acest nivel se numeşte session header. Până în acest moment al încapsulării informaţia transmisă are denumirea de date. Protocoale pentru acest strat: ADSP, NetBEUI, NetBIOS.
Fig. 1.19. Nivelul Transport Nivelul Transport are rolul de a transporta datele în siguranţă şi de a asigura şi menţine un flux al acestora. Nivelul furnizează un serviciu pentru transportul datelor către nivelurile superioare şi, în special, caută să vadă cât de sigur este transportul prin reţea. Nivelul transport oferă mecanisme prin care: stabileşte, întreţine şi ordonă închiderea circuitelor virtuale; detectează „căderea" unui transport şi dispune refacerea acestuia; controlează fluxul de date pentru a preveni rescrierea 01.11.2013acestora. Pentru realizarea acestor responsabilităţi, datele sunt descompuse în unităţi mai mici, segmente, numite şi unitati de date de nivel Transport (transport layer Protocol Data Units PDUs) pentru a fi mai uşor administrate. Un PDU descrie datele care se deplaseaza de la un nivel la altul în modelul OSI. Antetul (transport header) adăugat la acest nivel conţine informaţii legate de porturi, numere de secvenţă şi de confirmare, necesare pentru transferul sigur al datelor. Protocoale: TCP şi UDP, SPX, PEP, VOTS.
Fig. 1.20. Nivelul Reţea Nivelul Reţea adaugă antetul propriu transformând segmentele de la nivelul Transport în pachete. Acest antet conţine adresele logice ale interlocutorilor precum şi informaţii de control, rolul acestui nivel fiind: adresarea între hosturi şi rutarea pachetelor (găseşte cea mai bună cale pe care informaţia trebuie să o parcurgă pentru a ajunge la destinaţie). Protocoale: ARP (mapează adrese MAC cu IP), ICMP (folosit pentru anunţarea erorilor), IGP, IS-IS, IGRP, EIGRP, RIP (toate sunt protocoale de routare folosite pentru schimbarea tabelelor de routare între routere), IPX, IP.
Fig.1.21. Nivelul Legătură de date
Este nivelul care face trecerea datelor din calculator în mediul prin care este trimisă informaţia (cablu, fibra optică sau unde radio). Acest nivel controlează fluxul de date în mediul de transport, oferă adresarea fizică (adresele MAC). Aici se regăsesc tehnologiile care asigură diferite topologii logice ale reţelelor (Ethernet, IEEE 802.3, IEEE 802.5, FDDI, Token Ring, etc). Cu alte cuvinte nivelul Legătură de date este responsabil cu adresarea fizică şi cu accesul la mediu (canal de comunicare). La nivelul Legătură de date pachetele primite de la nivelul Reţea sunt transformate în cadre (frame-uri). Antetul adăugat la formarea cadrelor conţine adresa fizică a interlocutorilor, iar coada adăugată conţine informaţii pentru corectarea de erori
Fig. 1.22. Nivelel Fizic. Modelul OSI introduce astfel câteva concepte importante care sunt reluate și în alte arhitecturi de comunicație. Acestea sunt: 1. Protocoale: conțin regulile de comunicare care se stabilesc între două entități de pe același nivel al stivei de protocoale dar de pe sisteme diferite 2. Servicii: includ funcțiile de deservire reciprocă între două nivele succesive ale aceluiași sistem 3. Interfețe: definesc modul de abordare a nivelelor adiacente din stiva de protocoale. 1.8.2 Modelul de referinţă TCP/IP Deşi modelul de referinţă OSI a fost creat pentru asigurarea interoperabilităţii echipamentelor de reţea, modelul TCP/IP a fost conceput pentru a oferi o referinţă pentru dezvoltarea de protocoale compatibile. Modelul de referinţă TCP/IP şi stiva protocolului TCP/IP (TCP/IP protocol stack) au făcut posibilă comunicarea între două computere aflate în oricare parte a lumii, cu viteza luminii. Astfel, TCP (Transmission Control Protocol) are rolul de împărţire a datelor în pachete şi asigură transmiterea corectă a mesajelor între computere. Pachetele sunt numerotate, putându-se verifica primirea lor în forma în care au fost transmise şi reconstituirea mesajelor lungi, formate din mai multe pachete. IP (Internet Protocol) asigură livrarea pachetelor numai dacă în funcţionarea reţelelor nu apar erori. Dacă un mesaj este prea lung, IP cere fragmentarea lui în mai multe pachete.
Transmiterea pachetelor IP se face între calculatoare gazdă şi nu direct între programele de aplicaţie. Protocolul TCP/IP are avantajul că nu depinde de configuraţia hardware, de mediile de transmisie, şi este suportat de majoritatea sistemelor de operare. Spre deosebire de OSI, modelul TCP/IP are doar patru niveluri:
Fig. 1.23. Modelul de referinţă TCP/IP. Deşi două dintre niveluri au acelaşi nume ca la modelul OSI, nu trebuie confundate între ele pentru că fiecare nivel are funcţii total diferite pentru fiecare model în parte. Nivelul Aplicaţie Proiectanţii TCP/IP au considerat că protocoalele de nivel superior trebuie să includă detaliile nivelurilor prezentării şi sesiunii ale modelului OSI.
Pur şi simplu au creat un nivel aplicaţie care manevreaza protocoalele de nivel superior, problemele de reprezentare, codificările şi controlul dialogurilor. TCP/IP combină toate aceste deziderate într-un singur nivel, care asigură împachetarea corectă a datelor pentru nivelul următor. Nivelul Aplicaţie oferă servicii de reţea aplicaţiilor utilizator cum ar fi browserele web, programele de e-mail, terminalul virtual (TELNET), transfer de fişiere (FTP). Nivelul Transport Nivelul transport al modelului TCP/IP administrează transmisia de date de la un computer la altul, asigurând calitatea serviciului de comunicare, siguranţa liniei de transport, controlul fluxului şi detecţia şi corecţia erorilor. Una dintre funcţiile acestui nivel este de a împărţi datele în segmente mai mici pentru a fi
transportate uşor prin reţea. El este proiectat astfel încât să permită conversaţii între entităţile pereche din gazdele sursă, respectiv, destinaţie. Nivelul Transport este compus din două protocoale capăt-la-capăt(peer-to-peer): 1. protocolul de control al transmisiei (TCP) 2. protocolul datagrama al utilizatorului (UDP)
TCP (Trasmission Control Protocol) este un protocol sigur orientat pe conexiune care permite ca un flux de octeţi trimişi de pe o maşină să ajungă fără erori pe orice altă maşină din reţea. Orientarea pe conexiune nu semnifica faptul că există un circuit între computerele care comunică, ci faptul că segmentele nivelului Aplicaţie călătoresc bidirecţional între două gazde care sunt conectate logic pentru o anumită perioadă. Acest proces este cunoscut sub denumirea de packet switching. TCP/IP fragmentează fluxul de octeţi în mesaje discrete şi pasează fiecare mesaj nivelului Internet. TCP tratează totodată controlul fluxului pentru a se asigura că un emiţător rapid nu inundă un receptor lent cu mai multe mesaje decât poate acesta să prelucreze. Al doilea protocol din acest nivel, UDP (User Datagram Protocol), este un protocol nesigur, fără conexiuni, destinat aplicaţiilor care doresc să utilizeze propria lor secvenţiere şi control al fluxului. Protocolul UDP este de asemenea mult folosit pentru interogări rapide întrebare-răspuns, clientserver şi pentru aplicaţii în care comunicarea promptă este mai importatntă decât comunicarea cu acurateţe, aşa cum sunt aplicaţiile de transmisie a sunetului şi a imaginilor video. Iniţial nivelul reţea trebuia să asigure rutarea pachetelor în interiorul unei singure reţele. Cu timpul a apărut posibilitatea interconexiunii între reţele, astfel încât acestui nivel i-au fost adăugate funcţionalităţi de comunicare între o reţea sursă şi o reţea destinaţie. Pe lângă rolul nivelului Internet de a trimite pachete de la sursă spre reţeaua internetwork (dintre reţele) este şi cel de a controla sosirea lor la destinaţie indiferent de traseul sau reţelele traversate până la destinaţie. Protocolul specific care guvernează acest nivel se numeşte protocol Internet (IP). În acest nivel se realizează alegerea căii optime şi distribuirea pachetelor. Acesta este locul unde acţioneaza routerul în internet. În stiva TCP/IP, protocolul IP asigură rutarea pachetelor de la o adresă sursă la o adresă destinaţie, folosind şi unele protocoale adiţionale, precum ICMP sau IGMP. Determinarea drumului optim între cele două reţele se face la acest nivel. Comunicarea la nivelul IP este nesigură, sarcina de corecţie a erorilor fiind plasată la nivelurile superioare (de exemplu prin protocolul TCP). În IPv4 (nu şi IPv6), integritatea pachetelor este asigurată de sume de control. Nivelul Acces rețea
Protocoalele TCP/IP
Fig. 1.24. Protocoalele TCP/IP Comparaţie OSI - TCP/IP Modelul OSI şi modelul TCP/IP sunt ambele modele de referinţă folosite pentru a descrie procesul de transmitere a datelor. Dar de ce trebuie să le studiem pe amândouă când unul poate ar fi suficient? Modelul OSI este folosit pentru dezvoltarea standardelor de comunicaţie pentru echipamente şi aplicaţii ale diferiţilor producători. Specialiştii îl preferă pentru analize mai atente şi ca fundament în orice discuţie legată de reţele. Pe de altă parte este adevărat că TCP/IP este folosit pentru suita de protocoale TCP/IP şi este mai folositor pentru că este implementat în lumea reală. Comparând cele două modele de referinţă (OSI şi TCP/IP) vedem diferenţe însă sunt şi asemănări. Deşi modelul OSI are 7 niveluri iar TCP/IP are doar 4 niveluri, rolul lor per ansamblu este în final acelaşi.
Fig. 1. 25. Comparare OSO- TCP/IP Asemănări Ambele au niveluri Ambele au nivelul aplicaţiei, deşi fiecare conţine servicii diferite Ambele au nivelurile reţelei şi transportului comparabile Ambele folosesc tehnologia de tip packet switching (nu tehnologia circuit switching) Administratorii de reţea trebuie să le cunoască pe amândouă Deosebiri TCP/IP combină în nivelul său Aplicaţie (4) nivelele Aplicaţie (7), Prezentare (6) şi Sesiune (5) din modelul OSI. TCP/IP combină nivelul Legătură de date (2) şi nivelul Fizic (2) din modelul OSI într-un singur nivel numit Acces Reţea (1). TCP/IP pare a fi mai simplu deoarece are mai puţine niveluri. Protocoalele TCP/IP reprezintă standardele pe baza cărora sa dezvoltat Internetul. Reţelele tipice nu sunt construite pe baza protocoalelor OSI, deşi modelul OSI este considerat ca ghid. TCP / IP foloseşte protocolul UDP care nu garantează întotdeauna livrarea de pachete precum face nivelul transport din modelul OSI. Concluzii Avantajele oferite de împărţirea reţelelor în niveluri sunt: Standardizarea componentelor reţelelor, permiţând astfel crearea acestora de către diversi producători. Permiterea comunicării între tipuri diferite de componente software şi hardware. Previne ca schimbările apărute într-un nivel să nu afecteze celelalte niveluri, permiţând astfel dezvoltarea rapidă a acestora. Fenomenul de comunicare în reţea este descompus în părţi mai mici şi implicit mai simple. Comunicarea prin reţea devine mai puţin complexă, înţelegerea şi învăţarea modului în care informaţia este trimisă şi primită devenind mai uşor de făcut. Protocoale de transmisie în rețele wireless
Protocol – regulile prin care se realizează schimbul de date în rețea Pentru reducerea complexitatii proiectarii retelei, activitatea de comunicare se organizează în straturi (niveluri) ⇒ ierarhie de niveluri Interfata – asigură comunicarea între două niveluri consecutive Serviciu – furnizează funcționalitatea unui nivel Principiul de baza: ceea ce se primește la destinatar la nivelul n este exact ceea ce se transmite la emițător la nivelul n Cel puțin pot fi enumărate: Bluetooth UWB Universal Measurement Bus for Meteorological Sensors ZigBee Insteon Z-Wave ANT RuBEE. (IEEE P1902.1) RFID. Radio Frequency Identification X10. WI-FI PDC IDEN CDMAOne WiMAX. Worldwide Interoperability for Microwave Access GSM. Groupe Special Mobile GPRS (General Packet Radio Service UMTS (Universal Mobile Telecommunications System
Bluetooth Prin Bluetooth se realizează transferuri de date pe distanţe scurte între un calculator şi diverse echipamente periferice, de exemplu căşti, telefoane mobile, playere, imprimante, camere video, GPS etc. Numele provine de la numele unui rege danez, Blatand din secolul 10 care a unit triburile scandinave. Conectarea unui dispozitiv Bluetooth la un calculator gazdă se realizează printrun software de descoperire. Tehnologia Bluetooth, permite obţinerea unor debite de date de pînă la 1 Mbps (ce corespunde la 1600 transmisii pe secundă în full-duplex), pe o rază de aproximativ 10 m cu un emiţător de clasă II şi aproape 100 m cu un emiţător de clasă I.
Fig. 1.21. Stiva de protocoale Bluetooth UWB Universal Measurement Bus for Meteorological Sensors ZigBee is the most popular industry wireless mesh networking standard for connecting sensors, instrumentation and control systems. ZigBee, a specification for communication in a wireless personal area network (WPAN), has been called the "Internet of things." Theoretically, your ZigBee-enabled coffee maker can communicate with your ZigBee-enabled toaster. ZigBee is an open, global, packet-based protocol designed to provide an easy-to-use architecture for secure, reliable, low power wireless networks. Z-Wave is an international standard for wireless home automation. Home automation allows to interconnect all functions dealing with electricity such as light, heating, cooking, cooling, security etc with each other and to apply automation of these functions. This results in more security and more convenience in homes and offices. • ANT™ is a practical wireless sensor network protocol running in the 2.4 GHz ISM band. Designed for ultra-low power, ease of use, efficiency and scalability, ANT easily handles peer-to-peer, star, connected star, tree and fixed mesh topologies. ANT provides reliable data communications,
flexible and adaptive network operation and cross-talk immunity. ANT protocol stack is extremely compact, requiring minimal microcontroller resources and considerably reduces system costs. • ANT provides carefree handling of the Physical, Network and Transport OSI layers. In addition, it incorporates key low-level security features that form the foundation for user-defined sophisticated network security implementations. ANT ensures adequate user control while considerably lightening computational burden in providing a simple yet effective wireless networking solution. ANT technology has been incorporated into a family of products that allows a particular implementation to be scaled to suit the needs of the application and the vision of the product designer. Details of the available ANT chips, chipsets, modules, USB sticks etc. are available online at www.thisisant.com/developer/components.
Fig.1.22. ANT Layers in Standard ANT/HOST and System on Chip Devices • RuBee este o tehnologie nouă cu standardul IEEE 1902.1 folosită ca instrument automat de identificare. Etichetele RuBee utilizate pentru această tehnologie sunt competente pentru etichetele RFID și pentru routere. • RuBee este un protocol care utilizează undele de frecvență joasă care operează în semnale magnetice cu undă lungă pentru a trimite și recepționa pachetele de date. Este un transceiver radiant utilizat pentru identificarea și urmărirea țintei. Costul scăzut al chipului și consumul
redus de energie Tehnologia CMOS reprezintă proprietățile semnificative utilizate în acest nou proiectat protocol de vizibilitate de rețea. • The X-10 PRO code format is the "De Facto" standard for Power Line Carrier (P.L.C.) transmission. • The code format was first introduced in 1978 for the Sears Home Control System and the Radio Shack Plug 'n Power System. Since then, X-10 PRO has developed and manufactured O.E.M.* versions of its Home Control System for many companies including IBM, Leviton Manufacturing Co., General Electric, RCA, Philips, Stanley and Leviton, also distribute the system in Canada and have manufactured OEM versions of the system for Germany, Holland, France, Switzerland, Japan and Australia. • All of these systems use the X-10 PRO code format, all are compatible and virtually all P.L.C. Home Automation Systems currently available in the USA use X-10 PRO Modules developed and manufactured by X-10 PRO. It is therefore advantageous for any Home Automation System to be compatible with the X-10 PRO standard. This enables any O.E.M. to take advantage of the very large installed base of X-10 PRO customers as well as having access to the extensive array of different types of X-10 PRO Modules available. • Wi-Fi este o marca inregistrata de Wi-Fi Alliance pentru a descrie tehnologia WLAN(wireless local area networks) bazata pe standardul IEEE 802.11. • O retea wireless (Wi-Fi) WLAN este o retea fara fir, locala, extinsa pe arii limitate, in functie de echipamentele folosite si de puterea acestora, prin care se poate face transfer de date si internet folosind undele radio. Wi-Fi - "Wireless Fidelity", reprezinta o categorie de produse compatibile cu standardele WLAN (Wireless Local Area Networks) bazate pe protocoale IEEE 802.11. •
Noile standarde care au precedat specificatiile 802.11, cum ar fi 802.16 (WiMAX), fac parte din retelele actuale și oferă multe imbunătățiri, de la arii mari de acoperire pana la viteze mari de transfer.
• Diferențe rețea terestră si rețea Wi-Fi 1. Spre deosebire de alte sisteme radio, Wi-Fi foloseste un spectru de frecvente radio care nu au nevoie de licență deci nu necesită aprobare pentru utilizare. 2. Se permite dezvoltarea variată a unei rețele locale WLAN fara utilizarea cablurilor, reducand costurile necesare dezvoltării rețelei și evitând diferite obstacole in implementarea rețelei (locuri inaccesibile, care nu pot fi cablate). 3. Multe rețele Wi-Fi suportă roaming, permițând unui client să se mute dintr-un punct de acces în altul în aceeași clădire, sau zonă geografică. 4. Wi-Fi este un standard global, clienții Wi-Fi putând lucra în diferite țări de pe glob. 5. Posibilități variate de conectare a utilizatorului final, prin intermediul plăcilor Wi-Fi PCMCIA, PCI, USB sau a variatelor sisteme Wi-Fi 802.11b sau 802.11g integrate in majoritatea notebook-urilor moderne.
• Standardele IEEE 802.11 Standardul IEEE 802.11 a fost inițiat în 1990 si finalizat in 1997 pentru a acoperi rețelele care asigura conexiuni wireless intre stații fixe, portabile și în mișcare pe arie locală; • In loc de un singur standard (IEEE 802.11b), exista un intreg alfabet de variante wireless din care utilizatorii pot alege. • 802.11a, 802.11b, 802.11g si 802.11h concureaza pentru preferința userului, ca tehnologii de bază,cu 802.11n asteptând la rând. • Iar 802.11c, 802.11d, 802.11e, 802.11f si 802.11i adaugă încă puțină culoare acestui amestec. • Pentru a rezolva problemele legate de transmisiune se pot folosi două variante de organizare funcţională a reţelei cum ar fi: • DCF (Distributed Coordination Function) care este similară organizării din reţelele de comutare de pachete şi este destinată transferului asincron de date; • PCF (Point coordination Function) care se bazează pe interogări controlate de punctul de acces (AP) şi care este destinată transmisiunilor sensibile la întârzieri;
Fig.1.23. Structura pachetului de standarde IEEE 802.11. • Standardul IEEE 802.11 Aspecte generale - Blocul fundamantal în arhitectura standardului 802.11 este reprezentat de Setul de Serviciu de Bază – BSS; - Acesta reprezintă un grup de staţii care lucrează conform uneia dintre funcţiile de coordonare menţionate anterior: DCF sau PCF; - Aria geografică acoperită de BSS este numită Basic Service Area (BSA) şi este analogică unei celule din comunicaţiile celulare. - Toate staţiile dintr-o BSS pot comunica direct cu oricare alte staţii din BSS. - Totuşi, fadingul şi interferenţele care pot apărea între BSS vecine care utilizează aceeaşi parametrii pentru nivelul fizic (frecvenţă şi cod de împrăştiere) pot face ca anumite staţii să apară ascunse pentru celelalte staţii • Conform standardului 802.11 se disting două tipuri de reţele locale: • reţele ad-hoc; • reţele infrastructurale.
Fig. 1.24. Exemplu de rețea ad-hoc O reţea ad-hoc (BSS independente) este o grupare a staţiilor într-un singur BSS cu scopul comunicării inter-reţele fără ajutorul unei reţele infrastructurale.
Orice staţie poate stabili o sesiune de comunicaţie directă cu altă staţie fără a fi necesară direcţionarea traficului printr-un punct de acces (AP) centralizat. Contrar cu reţelele ad-hoc, reţelele infrastructurale au scopul să servească utilizatori cu servicii specifice şi cu extinderea zonei. Aceste reţele se constituie utilizându-se un AP (analogic cu staţia de bază în comunicaţiile celulare). AP permite extinderea zonei prin conectarea între mai multe BSS formând un Set de Serviciu Extins (ESS). ESS poate apare ca un BSS mai larg pentru subnivelul LLOC (Logical Link Control) din fiecare staţie. ESS constă din mai multe BSS care pot coopera utilizând un sistem de distribuţie (DS) implementat independent (poate fi Ethernet LAN, token ring, LAN FDDI, MAN sau alt mediu fără fir IEEE 802.11). Sistemul de distribuţie este utilizat pentru transferul pachetelor între diferite BSS. ESS poate oferi şi accesul pentru utilizatorii reţelei fără fir la o reţea cu fir cum ar fi Internetul. Aceasta se realizează printr-un dispozitiv numit portal care specifică punctul de interconectare din DS unde reţeaua IEEE 802.11 interacţionează cu o reţea de alt tip. Dacă noua reţea este IEEE 802.X atunci portalul incorporează funcţii similare cu un pod (bridge). În figura de mai jos este dat un ESS realizat cu două BSS, un DS şi acces printr-un portal la o reţea LAN cu fir.
Fig. 1.25. Exemplu de set serviciu extins
Nivelul fizic Specificaţiile standardului IEEE 802.11 prevăd trei variante de implementare pentru nivelul fizic: • folosind spectru împrăştiat cu salt de frecvenţă (FHSS), • folosind spectru împrăştiat cu secvenţă directă (DSSS) şi • folosind radiaţii în infraroşu (IR). Sistemele care au la bază FH-SS utilizează banda ISM (Industrial, Scientific and Medical band) de 2,4GHz. In SUA sunt specificate maxim 79 de canale pentru salturi de frecvenţă. Primul canal are frecvenţa centrală de 2,402 GHz iar celelalte canale sunt distanţate cu 1 MHz. Sunt precizate trei seturi de secvenţe de salt cu câte 26 de secvenţe pe set. Aceasta permite coexistenţa mai multor BSS în aceeaşi zonă geografică ceea ce poate fi important pentru evitarea congestiilor şi pentru maximizarea transferului de date în BSS. Motivul pentru care sunt trei seturi diferite constă în evitarea perioadelor prelungite cu coliziuni între secvenţele de salt dintr-un set. Rata minimă pentru saltul de frecvenţă este de 2,5 salturi/s. Pentru rata de transfer de 1 Mb/s se utilizează modulaţia binară cu deplasarea frecvenţei GFSK (two-level Gaussian frequency shift keying) unde 1 se codează cu Fc+f, iar 0 se codează cu Fc-f. Pentru creşterea ratei la 2 Mb/s se utilizează o modulaţie pe patru nivele GFSK prin codarea simultană a doi biţi utilizându-se 4 frecvenţe. Sistemele care folosesc DS-SS lucrează de asemenea banda ISM de 2,4 GHz, - În acest caz pentru transmisiunile cu viteza de bază de 1Mb/s se foloseşte modulaţie diferenţială binară cu comutarea fazei (DBPSK) - Pentru viteze de 2 Mb/s se foloseşte modulaţie diferenţială în cuadratură cu comutarea fazei (DQPSK). - Imprăştierea este realizată prin împărţirea benzii disponibile în 11 subcanale, fiecare cu lăţimea benzii de 11 MHz Se foloseşte o secvenţă de împrăştiere 11 biţi/simbol şi rezultă o capacitate maximă a canalului de 1 Mb/s. - In cazul unor BSS adiacente sau suprapuse trebuie asigurată o separare între frecvenţele centrale pentru BSS diferite de 30 MHz. Această condiţie conduce la posibilitatea ca numai două BSS să fie adiacente sau suprapuse fără interferenţe. Exemple: • DS: - WaveLAN - At&T - Solektec AIRLAN - AT&T • FH:
- Xircom Netwave - Proxim RangeLAN/2 Aceste sisteme necesită numai omologarea modelului de către administraţia radio a ţării unde se instalează. Au dezavantajul că au statut de utilizator secundar, cu alte cuvinte pot exista şi alţi utilizatori în aceiaşi bandă. - Sistemele care folosesc IR lucrează cu lungimi de undă între 850 şi 950 nm. - Aceste sisteme se utilizează în interiorul clădirilor şi operează cu transmisiune nedirecţională. - Staţiile pot recepţiona transmisiuni în vizibilitate directă sau reflectate. - Pentru viteza de acces de bază de 1 Mb/s se foloseşte tehnica de modulaţie 16-PPM (Pulse Position Modulation); - Pentru 2 Mb/s se utilizează 4-PPM; Exemple: • Photonics Collaborative / Cooperative • IBM literatura 1. R. Boatright. Understanding IEEE's new audio video bridging standards//wcww.embedded.com/217201257?pgno=1. 1.9. Domeniile de Aplicație a Sistemelor Multimedia Aplicațiile multimedia au cunoscut în ultima perioadă o dezvoltare fără precedent. Începând cu prezentarea de produse, firme sau activități, până la interfețe multimedia pentru aplicații economice si de la baze de date sau enciclopedii, până la software de instruire, multimedia a revoluționat modul de comunicare al informațiilor. 1.9.1. Aplicații în domeniul educației Aplicațiile multimedia în domeniul învățării asistate de calculator reflectă schimbările din tehnologie. Ca urmare a rapidei deprecieri a informației, învățarea continuă este o condiție a competitivității oricărei instituții. „Computer based training” a devenit în contextual actual o componentă majoră a sistemelor multimedia. Pentru a înțelege impactul acestui sistem de instruire trebuie cunoscut faptul că aportul calculatorului este major, în procesul de căutarem regăsire si redare a informație. Produsele multimedia accesează direct sau prin ODBC (Object Data Base Conectivity) baze de date complexe, poate integra aceste date în procesul dinamic al învățării, sau poate iniția căutari, în funcție de subiectul care îl învață. În acelasi timp, libertatea navigației este foarte mare, sistemele hypermedia permițând folsirea simultană a mai multor criterii de structurare si de navigare. 1.9.2. Aplicații în realizarea de prezentări și reclame Aceste aplicații reprezintă un segment important în cadrul produselor multimedia.
Comunicarea prin mai multe medii simultan, face ca mesajul transmis, să fie mai efficient perceput,și să își atingă obiectivul. Astfel, tehnologiile multimedia sunt frecvent folosite în activitatea de marketing. Dezvoltarea comunicațiilor prin rețele de calculatoare si pefectarea unor tehnici de navigare informațională, au facilitat utilizarea lor la scară largă. În plus, realizarea unor interfețe multimedia pentru aplicații din domeniul marketingului a condus la conturarea unor principii. În general, scurtele informații textuale ce însoțesc prezentările, grupează caracteristicile tehnice ale produsului, recomandări de utilizare, rapoarte de analiză și altele. Faciliățile de hypertext pot asigura legăturile între diferitele entități ale textului. În cazul prezentării unor produse program, a unor servicii, aplicația de prezentare se poate constitui și într-un demo, în sensul mixării unor secvențe cu execuția unor funcții ale produsului, cu revenire la aplicația de prezentare. Suportul tehnic este oferit în acest caz de către bibliotecile cu legare dinamică. În cazul prezentărilor de produse se folosesc prezentări scurte video, asociate, ce pot contribui la conturarea rapidă a unei viziuni asupra produsului repectiv. Prezentarea poate fi însoțită, în funcție de situație, de un clip muzical, care trebuie să fie ales cât mai sugestiv, să creeze o ambianță plăcută si să fie sincronizat în timp cu mesajul vizual care este transmis. 1.9.3. Aplicații în Sistemele informatice geografice (Geographical Information System) Sistemele informatice geografice au rolul de a stoca si manipula informații din diferite domenii, strâns corelate cu informațiile geografice. Obiectele sunt localizate exact, prin fotogrametrie sau direct pe teren, de către om, informația fiind codificată în raport cu un sistem de coordonare, de obicei un caroiaj, astfel încât obiectele să fie afisate în relația lor spațială reală. Aceste sisteme au fost inițial destinate industriei extractive si combinau hărțile cu informație numerică cu rutine de calcul si afisare. Ulterior sistemele informatice geografice au preluat o serie de informații publice privind transportul, dirijarea traficului, poluare, marketing, poliție, salvare, etc. toate în conexiunea lor spațială. Cele mai frecvente obiective ale sistemelor geografice vizează: Gestiunea mediului (elaborare de bilanțuri ecologice, meteo, studiul poluării, evaluarea riscurilor si identificarea si urmărirea strategiilor de salvare); Orientarea în teritoriu (localizarea facilă a unor obiective pe hartă, extragerea unor adrese utile, alegerea unor anumite trasee ale mijloacelor de transport pentru deplasarea între două puncte, identificarea diferitelor tipuri de rețele de comunicații); Amenajarea teritorială (amplasarea centrelor de servire si arondare pe centre, dezvoltarea rețelelor de alimentare cu apă, gaz, energie, etc.) Determinarea rutelor optime si alternative (pentru pilotaj) între centre de servire si centre de consum, între centre de locuințe si zone industriale, etc.) Proiecte de dezvoltare regională (amplasarea sectorului agricol ținând seama de climă, sol, etc. si poziția zonelor populate sau a celor de prelucrare ținând cont de marii consumatori); Studii mixte (longitudinale) pe un teritoriu dat si elaborarea de scenarii de dezvoltare. Cea mai mare parte a informațiilor este destinată publicului larg. De aceea, aceste sisteme dispun de interfețe grafice cu utilizatorul, ce au o mare flexibilitate. Localizarea spațială usoară presupune vizualizarea pe hărți de diferite scări de reprezentare. Ele sunt elaborate în tehnologia graficii vectoriale, suportând scalări rapide, reducând stocarea în mai multe exemplare a aceleiasi hârtii, la diferite scări de reprezentare. Percepția vizuală este mult îmbunătățită prin utilizarea animației, de exemplu deplasarea spre un traseu căutat, evoluția formațiunilor noroase, urmărirea extinderii polouării în condiții meteo specifice, etc.
O parte din informații sunt furnizate textual, altele prin voce sau combinat text si voce. Imaginile vide pot însoți cu imaginile grafice, contribuind la percepția si individualizarea mai profundă a unor locuri. Grafica 3 D permite vizualizarea unor locuri din diferite unghiuri de vedere, pentru a crea o realitate virtuală. Prin urmare, adresanduse într-o proporŃie semnificativă unor utilizatori finali neinformatici, sistemele informatice apelează la o comunicare multimedia, apropiată de percepția comună. Din punct de vedere logistic GIS-urile combină algoritmii de cercetări operaționale (grafuri, optimizări, stocuri, etc.) cu tehnici ale inteligenței artificiale (asistarea în conducerea unor operațiuni de salvare, conducere de trafic, etc.) si anumite concepte din domeniul geomaticii. 1.9.4. Tehnologii Multimedia în turism Noile tehnologii şi-au făcut apariţia şi în sectorul turistic, care speră să profite de pe urma "minei de aur" a datelor personale online, prin intermediul unor camere de hotel automatizate şi personalizate în funcţie de preferinţele clienţilor şi unor ochelari de realitate virtuală care pot fi utilizaţi ca o broşură turistică, informează AFP. În hotelurile viitorului, nu vor mai exista recepţionişti, ci o oglindă echipată cu funcţia de recunoaştere facială. După ce clientul a fost identificat, camera se adaptează instantaneu la toate dorinţele formulate de acesta în timpul procedurii de rezervare: temperatură, ambianţă luminoasă, reproduceri după Picasso sau Van Gogh în cadre digitale agăţate pe pereţi. "Chiar şi broasca de la uşă este inteligentă: ea se deschide şi se închide prin aplicaţia Whatsapp din telefonul clientului", a explicat Carlos Mendez, directorul departamentului de inovare din cadrul companiei franceze de consultaţii tehnologice Altran, care a prezentat un astfel de prototip la Salonul internaţional de turism Fitur, organizat în această săptămână la Madrid. Dacă unele dintre hoteluri propun deja versiuni cu funcţii mai simple, acea cameră, destinată hotelurilor de lux, integrează cele mai noi descoperiri din domeniul funcţiilor de recunoaştere vocală, permiţând de exemplu clientului să comande pizza în 40 de limbi. Saltelele, echipate cu senzori, înregistrează cele mai mici mişcări ale clientului, permiţând angajaţilor hotelului să îi aducă cafeaua imediat după ce se trezeşte. Dincolo de aspectul deosebit al acestor gadgeturi, inteligenţa artificială promite managerilor de hotel o cunoaştere extrem de intimă a clienţilor. "Tehnologia ne va permite să cunoaşte nevoile clientului înainte ca acesta însuşi să fie conştient de ele", a explicat Alvaro Carrillo de Albornoz Braojos, directorul Institutului tehnologic hotelier din Madrid. Această cunoaştere este întărită de datele personale furnizate în momentul rezervării pe internet, dar şi după ce clientul ajunge la hotel, graţie tehnologiei "beacon" - autorizată în anumite ţări - ce constă într-o baliză care permite detectarea locurilor în care se află telefoanele inteligente în hotel sau în oraş. Algoritmi Alimentaţi cu acele date, algoritmii programelor de inteligenţă artificială identifică obiceiurile clientului, pentru a-l fideliza oferindu-i o primire pe măsură sau vânzându-i produse suplimentare. Dacă algoritmul "ştie că atunci când vii cu soţia ta la hotel, nu iei cina la restaurant, ci comanzi cina în cameră, el îţi va propune un meniu special în cameră şi o sticlă de şampanie.Dar dacă vii cu familia, îţi va propune o reducere la meniul pentru copii", a explicat Alvaro Carrillo de Albornoz Braojos.
În plus, aceste instrumente tehnologice pot să contribuie la îmbunătăţirea productivităţii în hotel. "Toate cumpărăturile pot fi automatizate. De exemplu, dacă soseşte un grup mare de britanici, sistemul ştie că va trebui să comande mai mult bacon", a declarat Rodrigo Martinez, directorul cabinetului de consultanţă Hotel Servicers. Producătorii unor gadgeturi high-tech în mare vogă, ochelarii de realitate virtuală (VR), încearcă să pătrundă şi ei în sectorul turistic. La standurile amenajate la salonul Fitur, cei interesaţi pot să "viziteze" astfel străzile din Marrakech sau să parcurgă o parte a traseului urmat de credincioşi în timpul pelerinajului spre Santiago de Compostella. Pentru moment, "ne aflăm într-o fază încă incipientă. Deşi le prezentăm realitatea virtuală, profesioniştii din industrie spun 'ce minunăţie', dar nu o cumpără. Ea nu se află printre priorităţile marcate în bugetul lor de marketing", a explicat Marcial Correal, preşedintele Societăţii spaniole a agenţiilor de turism virtual, care promovează acest dispozitiv. Lanţul hotelier Palladium, bazat în Baleare, s-a lansat totuşi în această aventură: managerii săi nu mai aduc broşuri pentru a-şi prezenta stabilimentele în faţa reprezentanţilor agenţiilor de turism, ci ochelari VR. Fişiere video sunt disponibile pentru fiecare hotel din grup, permiţând vizitarea camerelor, piscinelor şi restaurantelor. "Agenţiile de turism cunosc mult mai bine hotelurile în acest fel şi ne-au spus că acest dispozitiv îi va ajuta să vândă mai uşor locurile de cazare", a declarat Ivan Corzo, directorul de marketing al diviziei pentru Europa a lanţului Palladium, asigurând că turiştii aprecizează posibilitatea de a vizualiza la scară reală camerele de hotel. "E mult mai dificil să trişezi cu ochelari VR", a subliniat Cesar Urbina, reprezentant al agenţiei de realitate virtuală Iralta. Deşi ochelarii VR sunt disponibili la preţuri destul de accesibile (între 50 şi 600 de euro), fişierele video produse în realitate virtuală pot să coste de la 2.000 până la 150.000 de euro, a precizat el. Oficiul pentru Turism din Maroc s-a declarat cucerit de noua tehnologie şi a realizat deja mai multe videoclipuri VR. "Turismul este asociat cu experimentul, cu sensibilitatea. Realitatea virtuală nu poate să înlocuiască gustul gastronomiei locale sau mirosul oceanului. Însă ea ne oferă dorinţa de a explora mai mult". 1.9.5. Aplicații Multimedia în Medicină E-Health, (E-Medicina) http://www.e-sanatate.md/ Sănătate Info - Știri, comunicate, opinii, interviuri, agenda locală și internațională din domeniul sănătății Sănătate TV Reportaje, campanii, rubrici TV și emisiuni de utilitate publică din domeniul sănătății SanoClub Comentarii, bloguri și reflecții despre realitatile sistemului e sănătate din Moldova E-Sănătate Medici Acces pentru cadrele medicale în Sistemul Informațional Integrat în Sănătate
E-Sănătate Instituții Acces pentru instituțiile medicale în Sistemul Informațional Integrat în Sănătate E-Sănătate Pacienți Dosar electronic pentru evidența și administrarea informațiilor de sănătate Spitale.MD Informații, clasament, compararea și evaluarea spitalelor din Moldova Tuberculoza Info Materiale utile, istorii de succes, sfaturi și alte informații despre tuberculoză Donez Sânge Promovarea donării de sânge pentru a atrage cât mai mulți donatori voluntari SanoTeca Sfaturi utile, biblioteca și ghidul tău despre medicină și sănătate Școala E-Sănătate Educație și instruire on-line în domenii specifice din cadrul sănătății Centrul PAS Centrul pentru Politici și Analize în Sănătate-Partener Responsabilitate Socială TeleHealth, (telemedicine) “Totalitatea sistemelor care ajută la la procesul de îngrijire a sănătăţii prin schimbul cât mai efficient de informaţie medicinală” Videoconferinţa, transmiterea de imagini statice la distanţă, e-sănătate, incusiv portaluri destinate pacientului, monitorizarea la distanţă a semnelor vitale, educaţia medicală continua şi centrele de apel –sunt considerate patre a telemedicinii (teleHealth. (ATA- American Telemedicine Association) Telemedicina cuprinde: Teleradiologie, Telepatologie, Teledermatologie, Teleconsultanţă, Telemonitorizare, Telechirurgia, Teleoftalmologia Aproape 50 de specialităţi medicale diferite utilitează cu success telemedicina
eHealth reprezintă “utilizarea, în sectorul sanitar, a transmiterii digitale, stocarea si încărcarea electronică a datelor – în sprijinul serviciilor de sănătate, atât la nivel local cât şi la distanţă” [OMS] Data Agent (MMDA) MMDA is an agent to the ISH that requires integration with the hospital departments IS to archive interoperability. It acts as a broker, performing an integration service on behalf of all the system components, and as a client-server for webbased medical data browser (MDBrowser) application. In other words, the MMDA consolidates the ISH by indexing all the data used in the ISH.
will connect to the PACS, RIS and HIS to retrieve the data if necessary (Figure. 2). The indexing is performed by the use of the “information shelling” parsing method. Upon receiving of the input data, the input is parsed and then stored in the MMDA database server. Once the data is indexed, a request to the MMDA for certain data. Depending on the distribution requirement, the data can be transformed for Internet and the Intranet. Internet content is archived by the compression of image using recommended JPEG Compression Ratios by Medical Experts to accommodate low bandwidth of the Internet. For the internal hospital distribution, raw data format is used. The ability of the MMDA to be accessed by the web-based application MDBrowser has many significant advantages; distant communication and system independence being some of the benefits. However the main benefit that is introduced by this concept is the ability to establish a connection to the data of the ISH that are usually only available within the hospital environment. This can be viewed as an external portal to the hospital information systems including the PACS, HIS and the RIS. 1.9.6. Aplicațiile Multimedia în Tehnologiile biometrice și securitatea informației Tehnologiile biometrice - metode de recunoaştere unică a persoanelor pe baza uneia sau mai multor trăsături intrinseci fizice sau comportamentale. Tehnologiile biometrice implică
achiziţia „datelor biometrice” umane, stocarea acestora, şi prelucrarea lor utilizând metode automate în scopul identificării unei persoane sau: verificării identităţii (deci autentificării) acesteia. - Securitatea informaţiei - implică protocoale, tehnologii, sisteme, instrumente şi tehnici pentru a securiza şi opri atacurile rău intenţionate, atacuri ce pot duce la pierderea sau furtul de informaţie, uneori critică, din cadrul unei instituţii. Securitatea conţinutului multimedia Securitatea în reţelele de calculatoare Securitatea calculatorului personal - criminalistică și expertiza criminalistică- perfecţionarea activităţii judiciare şi imprimarea unui caracter modern luptei împotriva criminalităţii. tot mai multe ţări introduc astăzi înregistrări audio-video în rândul mijloacelor de probă, iar cunoaşterea aprofundată a principalelor tehnici de falsificare sau manipulare a semnalelor audio-video, ca şi a metodelor de expertizare şi verificare a autenticităţii fişierelor ce conţin informaţii audio şi/sau video, sunt vitale în domeniul expertizei criminalistice. Tehnologia vorbirii. Recunoaşterea vorbitorului Interfaţare vizuală om-maşină Tehnologii biometrice. Recunoaşterea semnăturii dinamice Analiza şi expertiza criminalistică a înregistrărilor audio Expertiză criminalistică pentru imagini şi secvenţe video Codoare vocale. Compresia audio mono şi multicanal Prelucrarea şi analiza imaginilor color
Aplicații în domeniul culturii şi ştinţei - Expoziţii virtuale - biblioteci virtuale - muzee virtuale - turism virtual. - istorie prin aplicaţii multimedia, - în agreement- filme , muzică, jocuri, muliplicaţie - în industria transportului (sisteme de control şi agreement) -în cercetări ştiinţifice - în cercetaea şi explorarera spaţială Întrebări pentru testare 1) Definiți conceptul de multimedia si precizați cauzele care i-au determinat apariția. 2) Care sunt principalele aplicații multimedia? 3) Care sunt aplicațiile multimedia în domeniul educației? 4) Care este rolul multimedia în realizarea de prezentări si reclame? 5) Care este rolul sistemelor informatice geografice? 6) Descrieţi minim trei obiective ale sistemelor informatice geografice.
T2. Digitizare.
Ce este digitizarea…? De ce digitizare? Biblioteci virtuale. Portaluri. Digitizarea patrimoniului științific și cultural. Biblioteca Naţională Digitală Moldavica. Modelul Europa Digitală. Moldova Digitală 2020. Procesul de digitizare. Normele de digitizare Metamorfoze. Recunoaşterea optică textelor tipărite. Binarizarea adaptivă. Recunoaștere simboluri. Clasificatoare. Recunoașterea textului manuscris. Metode și algoritmi de rrecunoaștere texte. Exemple Sisteme de recunoaștere optică. Asigurarea lingvistică a sistemelor OCR. Echpament digitizare. 2.1.
Ce este digitizarea…?
Digitizare reprezintă procedeul prin care informaţia este capturată în format digital (imagine, document text, fişier audio, etc.) cu ajutorul unui echipament tehnic digital (cameră digitală, scanner, etc.). Când vorbim despre digitizarea documentelor, de cele mai multe ori ne referim la imaginea paginii capturată de un astfel de echipament - pur şi simplu o poză a documentului – sau o versiune full-text, în care documentul este stocat folosind caractere text/scrise. Forma neprocesată a documentului (“plain-text”), reprezintă varianta integrală a documentului, folosind caractere ASCII sau Unicode, pentru acestea existând posibilitatea efectuării unei căutări în text (cuvinte sau fraze), însă se pierde structura şi aspectul original al documentului. Imagine digitală reprezintă setul organizat de elemente fixe, rectangulare, bidimensionale denumite pixeli, care definesc o imagine pe ecranul unui computer sau care sunt transformaţi într-un alt format, precum pagina tipărită. Principalele formate de fişier utilizate sunt: • Imagine: TIFF, GIF, JPG, JPG-2000, PNG, PDF • Text: HTML, XML, PDF, UTF-8, ASCII • Audio, Video: WAVE, MPEG, AVI, WMA, OGG • Arhivare: RAR, ZIP 2.2.
De ce digitizare?
Digitizare pentru prezervare. Folosim digitizarea in primul rand pentru a prezerva documentele. Republica Moldova are un patrimoniu urias, de ce sa nu profitam de el, de ce sa nu ne cunoaștem mai bine istoria și scriitorii? Avem documente care sunt unice si intr-un singur exemplar, astfel este foarte dificil sa avem acces la ele. Prin digitizare acestea se transpun in format electronic și astfel avem acces mai ușor si din mai multe locații. Există de asemnea manuscrise care se afla intr-un stadiu avansat de deteriorare si
este posibil ca in 5-10 ani sa fie distruse complet. Prin digitizare putem păstra documentul pentru posterioritate dar și asigura accesul larg la conținut. Folosim digitizarea pentru o mai buna informare a publicului larg. Dacă se vor scana toate registrele de la primarii si consilii raionale putem afla mai usor arborele genealogic al familiei, proprietățile pe care le-a avut aceasta. Studentii au un acces mai facil la informatie și iși pot organiza timpul cât mai rațional, pot elabora lucrări mult mai ample. 2.3.
Biblioteci virtuale. Portaluri
2.3.1. Cadrul general La începutul secolului XXI dezvoltarea societăţii informaţiei a devenit o realitate şi o necesitate la nivel mondial. Ea este impusă de dezvoltarea continuă, fără precedent şi într-un ritm susţinut a tehnologiilor informaţiei şi a domeniului telecomunicaţiilor, de schimbările sociale şi politice la nivel naţional, regional şi internaţional. Comisia Europeană a lansat încă din anul 1999 principalele direcţii strategice de dezvoltare informaţională, în cadrul unor iniţiative succesive, e-Europe, e-Europe 2005 şi continuate apoi cu iniţiativa i2010 (http://ec.europa.eu/information_society/eeurope/i2010/index_en.htm) care promovează creşterea economică şi crearea de noi locuri de muncă în societatea informaţională şi în industriile media. Ca element cu rol strategic în cadrul initiativei i2010, se prevede crearea, promovarea şi susţinerea Bibliotecii Digitale Europene (European Digital Library-EDL). Prin iniţiativa i2010 se are în vedere stimularea dezvoltării economiei digitale europene, se încurajează crearea de conţinut digital, îmbunătăţirea prezervării şi extinderea accesului publicului la colecţii organizate de material digital. Crearea de conţinut digital a devenit o necesitate în societatea informaţională. Desfăşurarea acestei activităţi, într-un mod coerent, va fi unul din factorii determinanţi în efortul de a impune Europa drept „cea mai competitivă şi dinamică economie bazată pe cunoaştere”. Prin toate iniţiativele luate la nivel european este încurajată crearea de conţinut digital şi constituirea de baze de date pentru o mai bună diseminare a informaţiei, pentru a permite utilizatorilor accesul on-line la resurse, pentru încurajarea procesului de creaţie în format electronic, pentru promovarea şi prezervarea digitală a patrimoniului cultural naţional şi european în format electronic. 2.3.2. Digitizarea patrimoniului științific și cultural
World Digital Library (WDL) https://www.wdl.org/en/ – pune la dispoziţia utilizatorilor gratuit şi în format multilingv materiale prime importante din diferite ţări cuprinzând cultura din întreaga lume. WDL oferă posibilitatea a descoperi şi studia comorile culturale din întreaga lume pe un singur site, într-o varietate de moduri. Aceste comori culturale includ manuscrise, hărți, cărți rare, partituri muzicale, înregistrări, filme, sigilii, fotografii și desene de arhitectură etc. Europeana – cuprinde milioane de elemente dintr-o gamă de conducere galerii, biblioteci, arhive și muzee din Europa. Cărţi şi manuscrise, fotografii și picturi, televiziune și film, sculptură și artizanat, agende și hărți, partituri și înregistrări etc. Europeana este sursa veridică a patrimoniului cultural prezentat de către Fundaţia Europeana și un număr mare de instituții culturale europene, proiecte și parteneri. Научная Библиотека «Киберленинка» – bibliotecă electronică ştiinţifică în Acces Deschis; scop: augmentarea vizibilităţii rezultatelor cercetărilor universitare, dezvoltarea
investigaţiilor interdisciplinare; citarea şi recenzarea publicaţiilor; Oferă acces la circa 1 128 801 reviste şi articole. IQLibrary – bibliotecă electronică; oferă acces la manuale, monografii, crestomaţii, contribuţii în limba rusă. Este înregistrată la Serviciul Federal de Proprietate Intelectuală. Discovery – este o companie media fondată în anul 1985. Discovery Communications este parte a companiei Discovery Holding Company. Compania deține postul de televiziune Discovery Channel, care în prezent, este distribuit în 170 de țări și teritorii și are un total cumulativ de 1,5 miliarde abonați. Compania deține și televiziunile TLC (The Learning Channel), Animal Planet, Travel Channel și Discovery Health Channel. Compania a început în 1985 cu un singur canal: Science Channel. Library of Congress – este cea mai veche instituție culturală a națiunii și servește ca ramura ştiinţifică de cercetare a Congresului. De asemenea, este cea mai mare bibliotecă din lume, cu milioane de cărți, înregistrări, fotografii, hărți și manuscrise din colecțiile sale. The European Library – funcţionează pentru consolidarea și sprijinul bibliotecilor de pe întregul continent. Acest serviciu permite partajarea simplă, stocarea conținutului și a datelor din patrimoniului cultural European. The British Library – Colecția Bibliotecii include peste 150 de milioane de articole, în limbile cele mai cunoscute, manuscrise, hărți, ziare, reviste, ştampile și desene, tipărituri muzicale, și brevete. Arhiva de sunet păstrează înregistrări sonore din secolul al XIX-lea pe CD, DVD. De asemenea desfăşoară activitatea ca cel mai mare serviciu de livrare de documente din lume, oferind milioane de articole pe an. Global Ethics Net – este o rețea globală informaţională, care oferă acces la un număr mare de resurse privind etica digitală. Reţeaua facilitează colaborarea în cercetarea, bazată pe web, prin conferințe prin publicarea on-line și schimbul de informații. Biblioteca electronică Bookboon – pune la dispoziţia utilizatorilor gratuit şi în format multilingv materiale prime importante din diferite ţări cuprinzând cultura din întreaga lume. WDL oferă posibilitatea a descoperi şi studia comorile culturale din întreaga lume pe un singur site, într-o varietate de moduri. Aceste comori culturale includ manuscrise, hărți, cărți rare, partituri muzicale, înregistrări, filme, sigilii, fotografii și desene de arhitectură etc. Colecţia Digitală ASME – fondata in anul 1880 (Societatea Americana a Inginerilor Mecanici). Subiecte integrate: informatică şi tehnologii informaţionale, ştiinţe tehnice, programare, aspecte industriale. Oferă acces la textele integrale ale publicaţiilor: ASME’s Transaction Journals (from 1960 to the present), ASME’s Conference Proceedings (from 2002(to the present), ASME Press eBooks selected (from 1993 to the present). WorldCat – catalogul integrează colecțiile și serviciile a circa 10.000 de biblioteci din întreaga lume. Gallica – platformă de acces online la patrimoniul documentar digital contemporan francez. Proiectul face parte din cadrul European. Domenii de interes accesate de pe platformă: drept, ştiinţe economice, limbă şi literatură, psihologie şi psihanaliză şi altele. ROAR – platformă de Acces Deschis la repozitoriile instituţionale din ţările Europei (circa 1447), Asiei (circa 728), Americii (circa 1203), Africa (circa 127) – statistici prezentate la 26 mai 2016 DOAJ – platformă lansată în anul 2003, la Universitatea din Lund, Suedia, cu 300 de reviste cu Acces Deschis. În prezent conține mai mult de 10 000 de reviste cu acces liber, care acoperă toate domeniile științei , tehnologiei, medicină, științe sociale și umaniste. Consorţiu interuniversitar pentru cercetări politice şi sociale – cea mai mare în lume arhivă electronică de cunoştinţe socio-umane.
WorldPress.org – revista de sinteză, a cărei misiune este de a promova schimbul internațional de perspective și informații. Conține articole retipărite din presa internaţională eLibrary.ru – Научная электронная библиотека – крупнейший российский информационно-аналитический портал в области науки, технологии, медицины и образования, содержащий рефераты и полные тексты более 22 млн научных статей и публикаций, в том числе электронные версии более 4800 российских научнотехнических журналов, из которых более 3800 журналов в открытом доступе. Электронная библиотека: Библиотека диссертаций – oferă acces la textele integrale ale circa 882 951 disertaţii şi autoreferate. National Geographic Moldavica – Biblioteca Nationala Digitala a Moldovei Dacoromanica – Biblioteca Digitala a Bucureştilor Biblioteca Nationala Digitala a Romaniei Biblioteca Digitala Universala Moldova Europeana – Biblioteca Digitala Europeana Biblioteca Digitala a ASE Romania Biblioteca Digitala Globala Biblioteca Digitala Globala de Etica Initiativa Bibliotecilor Digitale a Comisiei Europene Biblioteca electronica „KODEKS” Biblioteca virtuala romaneasca E-books, Universitatea din Bucuresti Scientific Electronic Library online 2.4.
Biblioteca Naţională Digitală Moldavica
BND Moldavica este concepută ca o bază centrală de full texte ale documentelor patrimoniale incluse în Registrul Programului Naţional “Memoria Moldovei”, accesibilă pe gratis pe site-ul Bibliotecii Naţionale a Republicii Moldova, şi în acelaşi timp ca un serviciu Web de asigurare a accesului integrat la variantele numerice ale documentelor patrimoniale neincluse în Registru, dar făcute disponibile pe serverele bibliotecilor şi a altor instituţii deţinătoare de fonduri patrimoniale. BND Moldavica constituie, de asemenea, un portal de acces, prin serviciul Web al Bibliotecii Digitale Europene, al bibliotecilor naţionale europene la colecţiile patrimoniale digitizate din Moldova şi al beneficiarilor din Republica Moldova la colecţiile patrimoniale digitale ale bibliotecilor naţionale din Europa. Prin digitizarea colecţiilor de documente şi constituirea bibliotecii digitale naţionale se asigură o bună promovare a valorilor naţionale, o mai bună diseminare a informaţiei şi o valorificare superioară, la nivel naţional şi internaţional, a colecţiilor speciale, a documentelor rare. Obiectivele care stau la baza acestui demers se referă la: - transpunerea în format electronic a patrimoniului cultural scris; - promovarea patrimoniului cultural scris la nivel european; - protejarea valorilor de carte bibliofilă şi manuscrise; - protejarea documentelor aflate într-o stare avansată de deteriorare; - îmbunătăţirea posibilităţilor de acces la documente, local sau la distanţă, cu impact asupra creşterii numărului de utilizatori şi a categoriilor acestora; - posibilitatea consultării simultane de către mai mulţi utilizatori a aceluiaşi document; - oferirea unui mod de consultare a documentelor modern, în acord cu noile tehnologii,
independent de spaţiul şi programul de funcţionare al bibliotecii (cu respectarea restricţiilor de copyright); - îmbunătăţirea calităţii procesului de consultare a documentelor. Etapele desfăşurării procesului de digitizare a) identificarea proiectelor de digitizare în curs; b) inventarierea documentelor digitizate în bibliotecile din ţară; c) identificarea priorităţilor de digitizare ale bibliotecilor şi a documentelor propuse spre digitizare; d) selecţia documentelor/colecţiilor ce urmează a fi digitizate; e) metodologia de lucru; f) stabilirea soluţiei de digitizare; g) identificarea echipamentelor şi a software-ului; h) crearea de conţinut digital; i) realizarea şi administrarea portalului Biblioteca Digitală a Moldovei; j) integrarea Bibliotecii Digitale a Moldovei în Biblioteca Digitală Europeană. Resurse informaţionale şi documentare în bibliotecile din Moldova Bibliotecile din sistemul naţional de biblioteci sunt componente definitorii ale sistemului naţional informaţional. Prin structuri, funcţionalităţi, servicii şi patrimoniu info-documentar ele trebuie să răspundă cerinţelor complexe şi variate de informare. Sistemul naţional de biblioteci, în raport cu funcţiile şi atribuţiile acestora, este structurat astfel: a) Biblioteca Naţională a Moldovei; b) Biblioteca Academiei de Științe; c) biblioteci universitare; d) biblioteci specializate; e) biblioteci publice; f) biblioteci şcolare. Prin participarea tuturor bibliotecilor din cadrul sistemul naţional de biblioteci, deţinătoare de documente şi colecţii, se va putea crea o bibliotecă digitală cu un conţinut eterogen din punct de vedere al tipului de documente (cărţi, manuscrise, publicaţii seriale), al perioadei de publicare, al adresabilităţii. Biblioteca Digitală Naţională (MOLDAVICA) se poate realiza respectând principiul partajării resurselor. Criteriile de selecţie pot fi şi de cele mai multe ori trebuie să fie combinate pentru obţinerea unui soluţii optime. Criteriile de selecţie sunt: - valoarea documentară; - reprezentativitatea pentru un anumit domeniu, o anumită perioadă de timp sau o anumită regiune geografică, atât la nivel naţional, cât şi la nivel internaţional; - gradul de interes şi adresabilitate; - prezervarea documentelor originale; - regimul juridic (dreptul de autor şi dreptul de difuzare); - criteriul financiar; - soluţia de scanare si tehnologia implicată. 2.5. Modelul Europa Digitală Modelul Europeana este modelul descentralizat promovat de toate bazele de date
europene. Interrelaţionarea sistemului asigură posibilitatea portalului de a culege metadatele documentelor digitale din bazele de date ale deţinătorilor şi de a le introduce în indexul general, punându-le astfel la dispoziţia utilizatorilor. Acesta este modelul utilizat la nivel european, în cadrul TEL, Europeana, Manuscriptorium. Metadatele se vor găsi în cadrul portalului, iar documentele digitale vor rămâne la deţinător.
Fig. 2.1. Biblioteca digitală 2.5.
Moldova Digitală 2020
STRATEGIA NAŢIONALĂ de dezvoltare a societăţii informaţionale ,,Moldova digitală 2020” Aprobată prin Hotărîrea Guvernului nr. 857 din 31 octombrie 2013 1) Pilonul I: Infrastructură şi acces – îmbunătăţirea conectivităţii şi accesului la reţea; 2) Pilonul II: Conţinut digital şi servicii electronice – promovarea generării conţinutului şi serviciilor digitale; 3) Pilonul III: Capacităţi şi utilizare – consolidarea alfabetizării şi competenţelor digitale pentru a permite inovarea şi a stimula utilizarea. Se prevede „Guvernul va întreprinde acţiuni ferme pentru a valorifica oportunităţile de creare şi promovare a conţinutului digital generat în Republica Moldova şi a serviciilor, inclusiv a serviciilor de poziţionare bazate pe GIS” Pentru realizarea acestei Strategii a fost elaborat „PLANUL DE ACŢIUNI privind implementarea Strategiei Naţionale de dezvoltare a societăţii informaţionale „Moldova Digitală 2020” În Punctul 4 al acestui Plan - „4. Programul crearea, dezvoltarea şi valorificarea
conţinutului digital din Republica Moldova. Acţiuni-cheie”, sunt stipulate 23 de acţiuni – cheie dinre care vom menţiona: acţiunea 4.3. „Ajustarea cadrului legal şi instituţional pentru digitizarea conţinutului, reieşind din constrîngerile identificate şi includerea în Cadrul Bugetar pe Termen Mediu a bugetării acţiunilor de transformare a conţinutului în format digital, inclusiv acceptarea extraselor din Sistemul Informaţional Automatizat ca documente confirmative cu putere juridică şi în formă electronică” - termen de realizare 2014- 2015 acţiunea 4.4. „Preluarea, aprobarea şi implementarea standardelor de bază internaţionale, reglementărilor tehnice din domeniul digitizării şi accesării on-line a conţinutului” – termen de realizare 2014- 2020. acţiunea 4.5.” Implementarea Cadrului de Interoperabilitate Guvernamental şi a Recomandărilor privind interconectarea şi interoperabilitatea conţinutului /resurselor autohtone (inclusiv cataloagelor, clasificatoarelor, identificatoarelor, metadatelor) pentru facilitarea creării şi interoperabilităţii conţinutului digital guvernamental” - termen de realizare 2016. acţiunea 4.6 „ Crearea condiţiilor pentru stabilirea centrelor de date/depozitelor digitale, inclusiv pentru date geospaţiale, înclusiv prin parteneriatul publicprivat, cu respectarea standardelor de gestionare, de conservare şi accesare a conţinutului în timp” - termeni de realizare 2014 – 2020. Acţiunea 4.7. „Crearea Registrului conţinutului digital de acces public, care va include şi conţinutul operelor care nu permit identificarea autorului” termen de realizare 2014- 2020. 2.6. Procesul de digitizare. Procesul de digitizare este diferit în funcţie de: vechimea documentului, formatul, accesibilitatea, suportul de cărte , grosime, cotor etc. Vechimea documentului este unul dintre cei mai importanţi factori în digitizare. În procesul de digitizare al unui document vechi se folosesc anumite norme de digitizare: 1. transportul si depozitarea documentului se face in cutii speciale (lumina nu patrunde, nu se deterioreaza la transport, factorii climatici nu influenteaza) 2. nu se expune la lumina calda 3. lumina de scanare trebuie sa fie lumina rece fara radiatii UV si IR 4. la scanare utilizatorul trebuie sa foloseasca manusi de bumbac 5. unghiul de deschidere al documentului trebuie respectat 6. respectarea in deplin a normelor de prezervare elaborate de Laboratorul de Prezervare si Arhivare. In functie de formatul, grosime si suportul documentului se poate opta pentru un scaner de carte profesional sau unul semi-profesional. Pentru harti si planse mari se foloseste un scaner profesional format A1 sau A0, pentru carti si manuscrise se pot folosii scanere format A2 (2xA3). 2.7.
Normele de digitizare Metamorfoze: Metamorfoze Preservation Imaging Guidelines sunt norme de digitizare si prezervare a imaginilor. Normele de digitizare Metamorfoze sunt impartite pe 3 nivele in functie de obiectele/documentele digitizare: “Metamorfoze“: norme de digitizare a obiectelor de arta
“Metamorfoze Light“: norme de digitizare a documentelor (carti, periodice, manuscrise, ziare, harti ) “Metamorfoze Extra Light“: norme de digitizare pentru documente alb -negru (bitonale). Mai detaliat vedeţi http://www.metamorfoze.nl/sites/metamorfoze.nl/files/publicatie_documenten/Metamorfoze_ Preservation_Imaging_Guidelines_1.0.pdf DIGITIZAREA, RECUNOAŞTEREA ŞI CONSERVAREA PATRIMONIULUI CULTURAL-ISTORIC Problema digitizării şi conservării patrimoniului istorico-lingvistic (cultural) reprezintă un domeniu prioritar din agenda digitală pentru Europa. UE evidenţiază necesitatea unui efort coordonat în domeniu şi întreprinde vaste acţiuni în vederea impulsionării acestui proces, printre care dezvoltarea bibliotecii virtuale Europeana, susţinută prin rezoluţia Parlamentului European din 5 mai 2010 şi adoptarea Programului de lucru pentru activităţi culturale 2011-2014. Menţionăm şi recomandările Comisiei Europene „Privind digitizarea şi accesibilitatea online a materialului cultural şi conservarea digitală” din 27 octombrie 2011. Dezideratele principale ale politicii culturale pentru zonele unde se vorbeşte limba română ţin de studierea, valorifi carea şi digitizarea patrimoniului cultural-istoric. Procesul de digitizare a patrimoniului necesită soluţionarea unui şir de probleme legate de recunoaşterea, editarea, traducerea, interpretarea, circularea şi recepţionarea textelor tipărite atât în limba română, cât şi în alte limbi moderne. Soluţionarea acestor probleme pentru patrimonial istorico-lingvistic românesc se confruntă cu difi cultăţi şi aspecte specifi ce: un număr mare de perioade în evoluţia limbii, un număr relativ mic şi foarte dispersat de resurse depozitate, o mare diversitate de alfabete folosite la tipărirea lor, în particular câteva „alfabete de tranziţie” chirilico-latine. Difi cultăţile în digitizarea şi conservarea acestui tezaur ţin de recunoaşterea corectă a literelor chirilico-latine, dar şi de inexistenţa unui lexicon adecvat perioadei de tipărire a resursei. O soluţie pentru problema lexiconului ar fi alinierea la normele lingvistice contemporane ale textelor vechi [1].
Fig. 2.2. Exemple digitizare
2.8.
Recunoaşterea optică textelor tipărite
2.8.1. Tehnici de conversie prin Recunoaşterea Optică a Caracterelor (Optical Character Recognition-OCR) Scurt istoric al conversiei documentelor din format tradiţional prin scanare şi Recunoaşterea Optică a Caracterelor (OCR). Recunoaşterea textului din imagini a fost un subiect mult discutat de-alungul timpului. „Recunoaşterea optică a caracterelor (OCR) transformă imagini de text, cum ar fi documentele scanate, în caractere de text. Cunoscută și sub numele de recunoașterea textului, OCR face posibilă editarea și reutilizarea textului conținut de imaginile scanate. OCR utilizează o formă de inteligență artificială, cunoscută sub numele de recunoașterea modelului, pentru identificarea individuală a caracterelor unui text dintr-o pagină, inclusiv semnele de punctuație, spațiile și sfârșitul de linie”. (http://office.microsoft.com/ro-ro/help/HP030812551048.aspx ). De la începuturile din 1950 tehnica a fost în permantenţă îmbunătăţită. Script-urile recognoscibile au fost la început numerele arabe şi apoi alfabetele latine, japoneze, chineze. Multe tipuri diferite de formate pe hârtie pot fi citite astăzi prin OCR-izare. Tehnicile de recunoaştere a caracterelor au cunoscut perioade diferite de dezvoltare. Se identifică două momente în care acestea au avut de suferit ca utilitate şi dezvoltare. Primul moment a fost în anii '80, atunci când au apărut programele de birotică. Acestea facilitau crearea documentelor direct în format digital (documente "born digital"). Al doilea moment a fost implementarea crescândă a noilor tehnologii şi utilizarea Internetului. Se reevaluează importanţa manuscriselor şi trecerea lor în format digital. Dispozitive mobile cu microcamere au acum incorporate unităţi de procesare capabile de recunoaştere în timp real al caracterelor. OCR a apărut în 1950 în Statele Unite ale Americii, în aceeaşi perioadă în care apărea calculatorul UNIVAC. În anii 1960 IBM crează propriul program de recunoaştere capabil să citească numere tipărite şi scrise. Tot în acest an, s-au mecanizat operaţiunile poştale, astfel scrisorile erau sortate cu ajutorul unor dispositive mecanice cu OCR. În 1974, Ray Kurzweil a dezvoltat un program capabil de a recunoaşte caracterele tipărite în orice font. În anii 1980 dispozitivele de recunoaştere şi-au redus dimensiunile datorită progreselor din sfera semiconductorilor şi a microprocesoarelor.
Starea actuală a tehnologiei OCR Recunoaşterea precisă a fontului latin, text scris la maşină nu este considerat o problema rezolvată în aplicaţiile unde imaginile clare sunt puse la dispoziţie prin scanarea documentelor printate. Rata preciziei depăşeşte 99%; acurateţea totală poate fi atinsă doar prin reverificare umană. Alte arii cum ar fi cele care includ recunoaşterea scrisului de mână şi a celui printat în alte fonturi (scripts), în special cele cu un număr mare de caractere, sunt în continuare subiectul cercetărilor în domeniu. Rata preciziei poate fi măsurată în mai multe feluri, precum şi modul în care acestea sunt măsurate pot afecta foarte mult rata raportată de precizie. De exemplu, dacă nu este folosit un dicţionar pentru a corecta cuvintele nonexistente găsite de către soft, o marja de eroare de 1% la litere (acurateţe de 99%) poate duce la o marja de eroare de 5% (acurateţe de 95%) sau mai mult în cazul în care fiecare cuvânt cu o litera greşită este luat ca şi greşit. Recunoaşterea on-line a caracterelor este deseori confundată cu recunoaşterea optică a caracterelor. OCR este un sistem de recunoaştere de caractere off-line, unde sistemul recunoaşte formele statice a caracterelor, în timp ce recunoaşterea on-line a caracterelor implică recunoaşterea mişcării dinamice a scrisului de mână. De exemplu, recunoaşterea online, cum ar fi recunoaşterea gesturilor în SO Penpoint sau în Tablet PC, poate preciza dacă o linie orizontală a fost desenată dinspre dreapta spre stânga sau invers. Recunoaşterea on-line a caracterelor este, de asemenea, echivalentă şi cu alţi termeni, cum ar fi: recunoaşterea dinamică a caracterelor, recunoaşterea în timp real a caracterelor şi recunoaşterea inteligentă a caracterelor denumita şi ICR. Sistemele dinamice de recunoaştere on-line au devenit cunoscute ca produse comerciale în ultimii ani. Printre acestea se numără şi dispozitivele periferice pentru asistenţă personală digitală asemenea celor care folosesc SO Palm. Corporaţia Apple a patentat acest produs. Algoritmii folosiţi în aceste dispozitive au avantajul faptului că ordinea, viteza şi direcţia liniilor de segment individuale la introducere sunt cunoscute. De asemenea, utilizatorul este obligat să folosească doar forme specifice. Aceste metode nu pot fi folosite în softuri care scanează documente de hârtie, astfel recunoaşterea cu acurateţe a documentelor scrise de mână este încă o problema mare. Rata acurateţei de 80% până la 90% a fişierelor cu scrisul de mână lizibil poate fi atinsă, dar cu o asemenea acurateţe tot mai apar zeci de greşeli pe pagină, astfel aceasta tehnologie este folositoare doar în aplicaţii limitate. Recunoaşterea textului cursiv este o zona activă de cercetare, cu rate de recunoaştere chiar mai mici decât cea a recunoaşterii scrisului de mână. Rate mai mari de recunoaştere a textului nu vom putea obţine fără ajutorul informaţiilor gramaticale. De exemplu, recunoaşterea cuvintelor întregi folosind un dicţionar este mai uşoară decât încercarea de analiză individuală a caracterelor. Cunoaşterea gramaticii limbii textului scanat poate de asemenea să ajute, de exemplu, să determine dacă un cuvânt este verb sau substantiv pentru o mai mare acurateţe. Formele individuale de caractere cursive pur şi simplu nu conţin informaţii suficiente pentru a recunoaşte cu acurateţe (mai mult de 98%) toate caracterele scrisului de mână. Este necesar a înţelege că tehnologia OCR este o tehnologie de bază de asemenea folosită de aplicaţiile de scanarea avansată. Din aceste motive, o soluţie de scanare avansată poate fi unică, patentată şi protejată de drepturile de autor, deşi este bazată pe tehnologia OCR de bază. Recunoaşterea optică a caracterelor se realizează în doi paşi: - utilizarea unui dispozitiv pentru scanarea informaţiei tipărite sau a unui maniscris într-un procesor ca imagine bit-map; - aplicarea algoritmilor de recunoaştere a caracterelor pentru crearea fişierului text.
Acurateţea atinsă în recunoaşterea caracterelor din imagini este cel mai important factor care determină eficacitatea şi fezabilitatea unui produs OCR. Software-ul OCR este proiectat pentru a asigura conversia documentelor scrise olograf sau tipărite, digitizate pein scanare, într-o formă care se pretează procesării computaţionale. Fişierele text în reprezentare ACSII sau Unicode sunt produse ale programelor de OCR-izare. Sistemele OCR îşi au originile în recunoaşterea "patternurilor" şi inteligenţa artificială. Recunoaşterea vizuală a caracterelor utilizând tehnici ca oglinzi şi lentile şi recunoaşterea digitală a caracterelor utilizând scanere şi algoritmi specifici se regăsesc în tehnicile OCR. Procesul de digitizare şi de recunoaştere pentru manuscrise este destul de complicat, deoarece necesită efectuarea unor operaţii suplimentare, de exemplu, ajustarea contrastului, „curăţirea imaginii’, segmentarea textului. De asemenea, trebuie elaborate algoritmi speciali de recunoaştere şi lexicoane specializate. Procesul de digitizare şi recunoaştere e constituit din următoarele etape (Figura 5): • Digitizarea textului pentru obţinerea copiei electronice grafice; • Recunoaşterea cu metode standardizate, adică utilizarea nemijlocită a OCR (Optical Character Recognition) [8], sau prin instruirea lui. În caz contrar, se vor folosi proceduri ale Inteligenţei Artificiale, aşa-numitul proces de conversie. Transliterarea textului se va efectua ţinând cont de literele specifice utilizate în textul iniţial. • Verificarea textului recunoscut se produce utilizând resursele lingvistice reutilizabile specializate pentru perioada de timp respectivă. Digitizarea textelor constă în scanarea lor şi obţinerea variantei electronice în formă de imagine. Pentru recunoaşterea textelor din imagine se aplică OCR. Sistemele standard OCR utilizează diferite metode de recunoaştere a textelor. În continuare se vor folosi tehnici de recunoaştere a formelor pentru identificarea individuală a caracterelor unei pagini de text, inclusiv semnele de punctuaţie, spaţiile şi sfârşitul de linie.
Fig. 2.3. Etapele tehnologice de recunoaştere a textelor tipărite Textul recunoscut se va prezenta ca un fişier editabil. Transliterarea este un proces strict individual ce depinde de perioada examinată. În funcţie de textul iniţial, se vor utiliza programe care conţin informaţie despre caracterele specifi ce întâlnite în text.
definiţie transliterare - Transliterarea presupune stabilirea unei relaţii bidirecţionale univoce între două sisteme de scriere astfel, încât un cunoscător să poată reconstitui textul original din varianta transliterată. Procesul de transliterare se va folosi doar la necesitate. Verifi carea textului se efectuează cu aplicaţii special elaborate, care utilizează resursele reutilizabile specifi ce pentru perioada istorică a textului tipărit. Totodată, cuvintele noi obţinute se vor introduce în lexiconul corespunzător. 2.8.2. Valorificarea si protejarea documentelor prin digitizare Criteriile de selecţie documentelor pentru digitizare: - selectare documente (manuscrise, cărţi vechi, lucrări de grafică, fotografii, hărţi etc) – regimul juridic (dreptul de autor şi dreptul de difuzare); – gradul de interes şi adresabilitate; – valoarea documentară; – reprezentativitatea pentru un anumit domeniu, o anumită perioadă de timp sau o anumită regiune geografică, atât la nivel naţional, cât şi la nivel internaţional; – prezervarea documentelor originale; Digitizarea documentelor se refera cu precădere la structurarea documentelor pe baza de hârtie: - înregistrarea, - “formatarea” prin capturare, - indexarea, - arhivarea, - refacerea si distributia lor pe cale electronica. Imaginile documentelor sunt replica exactă, digitizată a documentelor iniţiale, originale şi ele sunt superioare din punct de vedere calitativ deoarece se stochează uşor, se accesează în mod eficient, se pot copia şi transmite fără a se pierde din calitatea informaţiei vizuale. Operaţia de digitizare poate fi eficientă folosind tehnologiile actuale (vezi fig. 6). Faza de arhivare, cea care include operaţii de îmbunătăţire, compresie, recunoastere şi indexare, constituie operaţia cea mai importantă, atât din punct de vedere financiar cât mai ales din punct de vedere tehnologic
Fig.2.4. Reprezentarea “lumii” digitale
Fig.2.5. Exemplu Linie de digitizare Componentele procesului tehnologic de digitizare a documentelor: Arhiva de texte, Arhiva de imagini, Unitate de procesare text şi dosare, Server pentru documente şi imagini, Arhiva pe hârtie, Scanere, Imprimată, Reţeau de transport date
Fig. 2.6. Schema procesului de digitizare În termeni generali, software-ul OCR examinează o imagine scanată în hartă binară şi traduce textul din interiorul acesteia într-un fişier care poate fi editat. Primele sisteme OCR traduceau textul într-un singur font şi dimensiune. Programele actuale încearcă să reproducă nu numai fonturile, ci şi trăsături complexe de aşezare în pagină, cum ar fi: – coloane, tabele, antete şi note de subsol – chiar şi grafice
Fig. 2.7. Tehnologia de recunoaştere optică a caracterelor OCR Software-ul OCR citeşte textul caracter cu character. Există tipuri diferite de scheme de recunoaştere a tiparelor, şi fiecare software OCR – utilizează un set diferit de modele şi – le implementează de maniere diferite.
2.8.3. Componentele Sistemului OCR Sistemele OCR utilizate în mod frecvent includ trei componente: – Un scanner de imagine – Software-ul (Programul) şi Hardware-ul (Echipamentul) OCR – O interfaţă pentru afişarea rezultatelor procesării Procesul implică trei operaţiuni: Analiza imaginii (Extragerea imaginilor – pe caractere individuale – din documentul scanat) Recunoaşterea imaginii (Recunoaşterea/Identificarea acestor imagini după formă) Procesarea imaginii în funcţie de context – fie pentru a corecta clasificările greşite efectuate de algoritmul de recunoaştere – fie pentru a limita opţiunile de recunoaştere Rezultatul acțiunii sistemului de recunoaștere a texelor este un document formatat, depozitat în memoria unui calculator într-un format determinat (bine cunoscut) al datelor. Majoritatea sistemelor contemporane de recunoaștere (OCR) în procesare documentelor efectuează analiza documentului în una din două metode: top-down («de sus în jos») sau bottom-up («de jos în sus»). În digitizarea documentelor un rol important îl are analiza imaginilor obținute la scanărea documentului. La etapa analizei OCR sistema în documentul grafic identifică zonele cu informații ce se deosebesc (ce au forme diferite), păstrează dimensiunile și amplasarea acestor zone pe document. Zonele textuale sunt supuse unei analize suplimentare, în procesul analizei sunt edidențiate ”rândurile” (desigur aici pot fi diferite cazuri ce schimonosec structura rândului), tot la această etapă se analizează și structura ”tabelelor” din imagine. După analiză se identifică și se recunosc ”rândurile”, se identifică și se recunosc ”celulele” din tebel. Părțile rămase a imaginii sistema le clasifică ca imagine grafică, aceste fragmente nu se procesează și nu se recunosc, se transferă în documentul rezultativ cu păstrare dimensiunilor și pozițiiei de pe documentul inițial. Următoarea etapă de analiză a documentului este ”sinteza simbolurilor”. La această etapă OCR-sistema, în conformitate cu atributele simbolurilor, regenerează simbolurile și șriftul textului (dimensiune, font, înclinație, culoare, grosime). Textul se formatează în conformitatea cu ”harta” documentului inițial.
Fig. 2.9. Structurare unui document 2.8.4. Principiile de bază la Recunoașterea Optică În timp ce încă nu știm exact cum oamenii sunt capabili sa recunoasca obiectele, în tehnologia OCR există trei principii de bază, care sunt bine cunoscute: - Primul este integritatea, iar al doilea este finalitate, iar al treilea este adaptabilitatea (IPA). Principiul integrității spune că obiectul fiind observat întotdeauna trebuie să fie considerat ca un întreg dar nu doar piese individuale. Că întreg, cu toate acestea, trebuie totuși să fie recunoscute ca fiind compus din piese individuale. - Principiul intenționalitate (purposefulness) spune că orice interpretare a datelor care sunt scanate întotdeauna trebuie să servească un scop. În cele din urmă, - adaptabilitate înseamnă că programul trebuie să fie capabil de auto-învățare. Acest principiu permite cumularea cunoștințelor și economie de timp la alte recunoașteri prin utilizarea cunoștințelor cumulate.
Programele OCR folosesc aceste principii pentru a împărți paginile în blocuri de text, tabele, imagini și alte elemente. Rândurile sunt apoi împărțite în cuvinte, și apoi în caractere (litere adică și numere). Programul crează ipoteza că simbolurile recunoscute sun cele veridice. Binarizarea adaptivă. Clasificatoare.
Procedura de binarizare adaptivă (adaptive binarization, AB)este flexibilă la selectarea paramertilor pentru binarizare a unui segment concret (fragment de rând sau un cvânt).
Fig. 2.9. Privire de ansamblu asupra algoritmului de binarizare
Recunoaștere simboluri Recunoașterea optică a simbolurilor este precedată de identificarea cuvintelor din rând, divizarea cuvintelor în litere prin procedura de divizare lineară de către blocul OCR. Procedura se încheie odată cu parcurgerea lanțului de cuvinte din rândul respectiv. Divizarea respectivă se transmite către blocul de generare ipoteze posibile a variantelor de împărțire.
Rezultatul analizei preliminare a imaginii
Schema - bloc a procesului de binarizare adaptivă a imagine scanată
Selectare parametri de binarizare
Ajustarea parametrilor de binarizare
recunoaștere
binarizare
nu
Recunoaștere cu succes?
da
Fig. 2.10. Schema – bloc de binarizare adaptivă. E de menționat că pentru fiecare ipoteză se atribuie o pondere – nivelul de încredere exprimată în valori. În corespondență cu fiecare ipoteză ”simbolul” este transmis la spre mecanismul de comparare și recunoaștere a simbolurillor conform unor clasificatoare. Mecanismul de recunoaștere a simbolurilor reprezintă o combinație a unui șir de elemente recunoscătoare unitare – numite ”Clsificatoare”. Tipuri de Clasificatoare • Clasificare tip Rastru. • Clasificare prin Semne. • Clasificare prin Contururi. • Clasificare prin Diferențiere Semne. • Clasificare STructurală • Clasificare STructurală Diferențială.
Date de intrare
CLASIFICATOR
Ipoteza 1 Ipoteza 2 Ipoteza 3 ---------------------Ipoteza n
Baza de etaloane
Fig. 2.11. Schema-bloc de funcționare a clasificatoarelor Clasificatorul tip rastru.
- Principiul de funcționare este bazat pe compararea directă imaginii cu etalonul. - Gradul de corespundere a imaginii cu etalonul se calculează prin numărul de puncte ce nu corespund - Pentru a obține o precizie mai mare de recunoaștere este nevoie de efectua operații de ajustare a imaginii – normalizarea dimensiunilor, grosime, înclinație, culoare. - Etalonul pentru fiecare clasă este creat la etapa de ”autoinstruire” prin căutarea calității medie a imaginii pentru fiecare simbol aparte
particularități Simplu de realizat Rapid Stabil la defecte întâmplătoare a imaginii Preciziia de recunoaștere este nu prea mare
Fig. 2.12. Principiul de funcționare clasificator tip rastru Principiul de funcționare: Imaginea este reprezentată în conformitate cu vectorul n-dimensional al semnului Clasificarea se efectuează prin compararea imaginii cu etaloanele similare extrase din baza de date Identificarea semnului – formarea vectorului (determinarea coordonatelor în spațiul ndimensional) se efectuează la etapa ananizei preliminare a imaginii Etalonul pentru fiecare clasă se obține experimental ca rezultat al clasificărilor anterioare analogice (autoformare) Clasificatoare prin semne Compararea unei perechi de vectori se efectuează prin calcularea distanței dintre punctele acestori vectori din spațiul n-dimensional (reprezentarea geometrică a vectorului se efectuează prin puncte)
Fig. 2.13. Principiul de funcționare clasificator prin semne.
Principiul de funcționare: Imaginea este reprezentată în conformitate cu vectorul n-dimensional al semnelor Clasificarea se efectuează prin compararea vectorului din imagine cu vectorii selectați din baza de etaloane. Tupul semne-vectori și numărul de semne-vectori ce avem în daza de etaloane în mare măsură determină calitatea recunoașterii Extragere semne- formare vector (calcularea coordonatelor în spațiul ndimensional) se efectuează la etapa de analiză a îmaginii deja preprocesate Etalonul pentru fiecare clasă se obține experimental ca rezultat al clasificărilor anterioare analogice (autoformare)
Intrare Imagine
Preprocesare imagine
Extragere semne
CLASIFICARE
Ipoteza 1 Ipoteza 2 Ipoteza 3 ---------------------Ipoteza n
particularități - Simplu în realizare - capacitate bună de a generaliza - Stabilitate bună la schimonosirea simbolului - Un grad mic de erori la recunoaștere - Un grad mare de rapiditate.
Baza de etaloane
- Instabil la diferite defecțiuni a imaginii - Perdere irecuperabilă a informației despre simbol la etapa extragerii simbolului - Independență la extragerea semnelor ce duce la pierderea informației despre amplasarea lor reciprocă
Fig. 2.14. Schema- bloc de funcționare clasificare prin semne. Clasificare prin contururi. O diversificare specială de Clasificare prin semne Clasificarea prin contururi se diferă de Clasificare prin semne prin faptul că pentru a extrage semnul se ia conturul simbolului din imaginea preprocesată anterior. Principiul de funcționare dar și particularitățile sunt aceleași ca la Clasificare prin semne Clasificarea prin contururi este predestinat pentru recunoașterea textelor culese cu șrifturi decorative. Funcționează puțin mai încet ca Clasificarea prin semne Clasificare prin diferențiere semne Clasificare prin diferențiere semne este destinat pentru a diversivica obiectele ce a se aseamănă între ele, de exemplu litera ”m” și combinația ”rn”. - Analizează numai acele zone ale imaginii unde sunt posibile mai multe variante ale hipotezelor ce pot fi luate ca etalon
-
-
-
În exemplul ”m” și combinația ”rn” se ia în calcul prezența distanței între simbolurilr ”r” și ” n” Clasificarea prin diferențiere semne reprezintă o colecție de clasificatoare prin semne care operează cu etaloanele identificate pentru fiecare pereche de simboluir asemănotoare Pentru toate perechele se utilizează același set de semen din cadrul aceluiași Clasificator În procesul de autoinstruire al acestui Clasificator se efectuează analiza imaginilor din baza autodidactică. Valorile semnelor ce se calculează în acest process se interpretează ca coordonate ale unui punct în spațiul n-dimensional. Respective în așa caz, pentru două simboluri diferite se formează doî ”nori” de puncte situte la careva distanță între ele Când este acumulată informația despre mai multe puncte se efectuează calcului coordonatelor hiperplanului. Hiperplanul trebuie să împartă spațiul în așa mod ca ”norii” să se afle aproximativ la aceiași distanță de hiperplan.
Fig. 2.15. Modelul geometric simplificat de autoinstruire a Clasificatorului diferențial. - pentru valorile obținute în procesul de analiză a imaginii se calculează aprecierea (valoarea), sensul geometric al căruia este – amplasarea punctului față de hiperpla.
Clasificare rastru imagine
Hipoteza 1 Hipoteza 2 Hipoteza 3 Hipoteza 4
nu
H1 > Hprag
Clasificaare Prin semne
Hipoteza 1 Hipoteza 2 Hipoteza 3 Hipoteza 4 Hipoteza 5
Clasificarea prin Diferențiere Semne
da
Clasificare prin Contur
imagine
Hipoteza 1 Hipoteza 2 Hipoteza 3 Hipoteza 4 Hipoteza 5 Hipoteza 6
Hipoteza 1 Hipoteza 2 Hipoteza 3 Hipoteza 4 Hipoteza 5 Hipoteza 6
Precizie mare de recunoa;tere
Costisitor la crearea etalonului de clasificare Viteza mică de recunoaștere
Fig. 2.16. Schema - bloc de funcționare clasificare prin diferențiere semne Nivelul 1 Clasificare Structurală Datele de intrare pentru cladificatorul structural servesc imaginea simbolului și setul de hipoteze aranjate , care au fost create ca rezultat al funcționării altor ”recunoscători”. Hipoteze proprii Clasificatorul nu elaborează, doar acceptă sau rebutează hipotezele anterior înaintate. cladificatorul structural se utilizează dacă în lista hipotezelor sunt prezente două sau mai multe hipoteze, ponderea căror sunt mai mare de cât nivelul de încredere dat dar și sunt comparabile între ele. Hipoteza 1 Hipoteza 2 Hipoteza 3 Hipoteza 4 Hipoteza 5 ........ Hipoteza n
Clasificare rastru
Nivel foarte înalt de recunoaștere
Hipoteza 1 Hipoteza 2 Hipoteza 3 Hipoteza 4 Hipoteza 5 ........ Hipoteza n
imagine
nu
P >1
da
Clasificare Structurală
Hipoteza 1 Hipoteza 2 Hipoteza 3 Hipoteza 4 Hipoteza 5 ........ Hipoteza n
Viteză mică de recunoaștere
Fig. 2.17. Schema – bloc algoritma Clasificare Structurală. 2.9. Recunoașterea textului manuscris Una dintre cele ma dificile problem la preservarea patrimoniului istoric este procesul de digitizare a manuscriselor vechi (istorice). Pentru a obține un document electronic identic celui procesat se utilizează redactori specializați. Faptul că aceste documente sunt foarte diverse, nu au careva standard, au șriftul și fonturi foarte diferite, prezența smnelor special pe rânduri și cel mai grav, prezența defectelor cu mult îngreunează recunoașterea simbolurilor.
Citirea textului manuscris continuu de către calculator pune mai multe probleme. O problemă tipică la recunoașterea automată a formelor poate fi: totalitatea imaginilor ce trebuie procesate se împarte întrun număr definit de clase, așa numite ”forme”. Dispozitivului de captare imagini dotat cu un mecanism de recunoaștere a formelor i se pune sarcina de a citi o imagine. Dispozitivul trebuie să determine cărui clase aparține imagina capturată. Deci dispozitivul de captare imagini trebuie să fie dotat cu un algoritm bazat pe analiza statistică, obiectele fiecăre clase (forme) se caracterizează printr-un set de semne, care au niște valori ce determină poziția formelor în spațiu. Deci se pune sarcina: prin intermediul unui set de planuri de împărțit spațiul semnelor în ”domenii” (fragmente de spațiu) ce nu se intersectează și în continuare de a efectua compararea fiecărui ”domeniu” cu o ”formă”, dacă reușim să soluționăm această problemă atunci procesul de recunoaștere devine foarte simplu: - Pentru imaginea supusă procesării trebuie de calculat valorile (coordonatele) semnelor, adică de identificat un punct în spațiul semnelor - De identificat donemiul cărui aparține acest punct. Imaginea se identifică cu forma domeniului identificat. Tradițional sunt trei metode de recunoaștere (trei clasificatoare): metoda șablon, metoda prin semne, metoda structurală. La soluționare problemelor de recunoaștere în prezent sunt utilizate metode de inteligență artificială. Elementele imaginii inițiale sint reprezentate în forma unui graf care este descris prin următorii parametri:
Coordonata începutului elementului Coordonata sfârșitul elementului, Forma elementului (linie curbă, linie dreptă) Direcția vectorului de la centril curbei spre capătul ei
Direcția vectorului este dependentă de calografia manuscrisului și pot avea opt valori fig. 19
Fig. 2.18. Direcții posibile de orientare a vectorului unui manuscris Aceste tehnologii sunt realizate de mai mulți dezvoltatori cum ar fi: Paragon Software group (система Pen Reader), iRex Technologies (система MyScript Notes), ABBYY (система Fine Reader).
Fiecare dintre aceste produse au domeniul lor de aplicație. Trebuie de menționat că în cadrul programelor de digitizare ale Uniunii Europene produsul ABBYY este un partener tehnologic pentru proiectul IMPACT, în cadrul căruia ei aplică tehnologiile proprii de recunoaștere optică (OCR) a manuscriselor. 2.10. Metode și algoritmi de rrecunoaștere texte
dicționar
Texte, date grafice, scheme
Baza de simboluri
manuscrise
Sarcina de recunoaștere (mai corect ar fi de Clasificare) a obiectului constă în: Să zicem că avem o metodă de codificare a obiectelor ( ca exemplu litere manuscrise) ce aparțin unei mulțimi de clase bine cunoscute C={C1,..., Cq} și mai avem o mulțime determinată de obiecte (mulțime autodidactică) despre care se cunoaște cărei clase îi aparține. Trebuie să construim un algoritm care va putea să recunoască obiectul de intrare și să decidă cărei clase aparține acest obiect. Calitatea recunoașterii (clasificării) se estimează prin probabilitatea erorii de clasificare (frecvența erorii)
Ecran tactil
Reprezentarea grafică A a datelor manuscrise
Reprezentarea datelor manuscrise în formă de Componente structurate
Clasificator în două nivele
Reprezentarea datelor manuscrise în formă text și construcția corespondețelor cu textul original
Fig. 2.19. Arhitectura sistemului de estimare caligrafie. Metode de recunoaștere Recunoașterea obiectului – este un algoritm ce împarte spațiul semnelor în părți ce corespund claselor predefinite- C1,..., Cq. Putem evidenția cel puțin trei metode de bază de recunoaștere (sau clasificatoare): Metoda șabloanelor, Metoda semnelor, Metoda structurilor. Metoda șabloanelor
Metoda șabloanelor transformă imaginea unui simbol separat reprezentat în format rastru, compară imaginea simbolului cu toate șabloanele ce sunt prezente în Baza de date a simbolurilor și se selectează șablonul ce are cea mai mică diferență față de imaginea de la intrare fig. 21.
SHAPE
Confirmare rezultat de comparare
Comparare cu Etalonul
Baza de etaloane
Criterii de comparare
Fig. 2.20. Algoritmul de recunoaștere prin metoda șabloanelor Ca Măsura de coincideță aîmaginii simbolului cu șablonul selectat se coeficientul de asemănare a imaginii de intrare a simbolului cu forma generalizată de clasa -5 și se exprimă prin formula
Unde: Rs – este coeficientul de asemănare a simbolului ce se recunoște cu imaginea etalon de clasa S a simbolului; Pjs – probabilitate apariție culoare neagră în elementul j, element al imaginii etalon de clasa S. Pjs se estimează prin trei interval: 0,00 ÷ 0,25; 0,25 ÷ 0,75; 0,75 ÷ 1,00; Xj – valoarea intesității culorii, corespunzător elementului j, element se se recunoaște.
Imaginea simbolului ce se recunoaște se egalează cu etalonul clasei ce are cel mai mare coefficient devasemănare R dintre toți coeficienții Rs. Metoda semnelor Metoda semnelor se bazează pe compararea imaginii simbolului ce se recunoaște cu vectorul n-dimensional etalon al semnului. Recunoașterea, aprobarea deciziei că forma cercetată aparține unei clase se efectueză în baza unor operații matematice de calculare a probabilității că vectorul simbolului ce se recunoaște coincide cu vectorul semnelor ce descriu etalonul. Formarea vectorului simbolului se efectuează la etapa de analiză a imaginii preprocesate di timp acest proces se numește extragerea semnelor. Partea pozitivă a metodei – simplu în realizare, buna stabilitate la deformarea formei simbolului, fiabilitate ridicată de funcționare și o bună viteză de recunoaștere. Partea negativă (neajuns) – extragerea semnelor se efectuează independent și la etapa de extragere a semnelor se pierde irecuperabil o parte a informației ce descrie simbolul
Reguli de transformare semne Transformarea semnelor
Baza de Date relațională
Extragere din Baza de Date autodidactică
Recunoaștere simbol
Fig. 2.21. Algoritm de funcționare a metodei semnelor. Metoda structurilor Metoda structurilor reprezintă obiectul ca un graf , nodurile acestui graf sunt elemente a obiectului de intrare iar curbele relațiile spațiale între aceste noduri. Algoritmii ce realizează această abordare deobicei procesează imagini vectoriale. Elemente structural ale simbolului sunt liniile ce formează (din care este construit) acest symbol. De exemplu: pentru litera "Ф" – putem evidenția ca elemente ”verticala și ”curba”. Pentru a recunoaște simbolul, în primul rând, se efectuează o preprocesare a imaginii prin crearea scheletului acestui simbol – transformarea conturului pri subțiere treptată. Fiecare contur nou a scheletului, obținut după subțieri succesive se descriu prin șirul unor punce și codul de legătură între ele și direcția de mișcare de la punct la punct.
Fig 2.22. Procesul de subțiere (crearea scheletului) a formei simbolului. Pentru fiecare punct specific scheletului formei se calculează următoarele semne: - coordonatele punctului, - lungime segmentului pâna la următorul punct, - direcția de parcurgere de la punc la punct, - direcția de intrare în punct și de ieșire din punct,
- raza curburii ce conetează punctul cu următorul vârf
Fig 2.23. Lanțul (Freman Chain Code) vectorilor segmentați (conexiune) 7600212212 (Dr. Herbert Freeman is a computer scientist who made important contributions to the field of automatic label placement, computer graphics, including spatial anti-aliasing, and machine vision.) Particularitățile Metodelor de recunoaștere Atât Metoda șablon, metoda semnelor, cât și metoda structurilor au facilități și neajunsuri: Toate trei metode au un neajuns - Sunt incomplete și au condiții de aplicare limitate, au domenii specifice de aplicare: Metota șabloanelor – cel mai bine de utilizat la recunoașterea textului de tipar, Metoda structurilor – este mai efectivă la recunoașterea manuscriselor în regim off-line, Metoda semnelor este efectivă la recunoașterea manuscriselor în regimul one-line.
Fig.2.24. algoritmul metodei
Exemple Sisteme de recunoaștere optică Tabel 1. Tehnologii curente, produse software pentru OCR
Nume
Licenţa
Sistem de operare
Descriere
ExperVision Typereader OpenRTX
Comercial
Windows, Mac OS X, Unix, Linux, OS/2
ExperVision Inc. a fost fondat în 1987, tehnologia şi produsul lor OCR. Au luat cele mai mari note în testarea independentză făcută de UNLV în anii în care a participat Pentru a lucra cu interfeţe locale este necesar suportul lingvistic corespunzător. Lucrează cu structuri, semistructuri şi documente nestructurate Produs de Nuance Communications Produs de I.R.I.S. Group of Belgium. Ediţii Asian şi Middle Eastern
ABBYY FineReader OCR AnyDoc Software OCR for AnyDoc OmniPage Readiris Windows,
Comercial
Windows, Mac OS X Windows
Comercial Comercial
Windows, Mac OS Mac OS X
CuneiForm
BSD variant
Windows, Linux, BSD, MacOSX.
Enterprise-class system, multilanguage, poate salva textul formatat şi tabele de recunoaştere complexe a oricărei structuri
Puma.NET GOCR
BSD GPL
Rapidă, precisă, volum mare de date. Dezvoltare de început.
Microsoft Office Document Imaging Microsoft Office OneNote 2007 l NEOPTEC DATASCAN NovoDynamics VERUS Ocrad
Comercial
Windows Diverse (open source) Windows
Comercial
Windows
Comercial
Windows
GPL
Unix-like, OS/2
Brainware
Comercial
Windows
HOCR OCRopus PDF OCR X
GPL Apache Comercial
Linux Linux Mac OS X
ReadSoft
Comercial
Windows
Alt-N Technologies' RelayFax Network Fax Manager Scantron Cognition SimpleOCR
Comercial
Windows
Comercial Freeware şi Comercial Comercial Apache
Windows Windows
Pentru lucrul cu interfeţe locale, suport ingvistic
Windows, MacOSX Windows, Mac OS X, Linux
Pentru note muzicale. Creat de către HewlettPackard; sub dezvoltare curentă de către Google
SmartScore Tesseract
Foloseşte motorul ScanSoft OCR
Soft pentru procesare automată a cererilor şi chestionarelor. Produs specializat în limbile din orientul mijlociu
Comercial
Extracţii şi procesări de date din documente în orice sistem backend; printer documentele cunoscute se număra: chitanţe, declaraţii Hebrew OCR Poate utiliza Tesseract Utilitate drag and drop care poate converti fişiere PDF în fişiere text folosind OCR. Foloseşte Tesseract Scanează şi clasifică documente oficiale cum ar fi: chitanţe, facturi Utilitar OCR multilingvistic care converteşte documente fax în documente editabile (.doc, .pdf,…) în limbi diferite.
Asigurarea lingvistică a sistemelor OCR Tabel:2 Suportul lingvistic al produselor OCR
1
Nume, Ultima versiune, Anul lansării ExperVisionTypeReader &OpenRTK 7.0 2007
2
ABBYYFineReader OCR 10.0 2009
3
OmniPage 17. 2009
Limbi recunoscute English, French, German, Italian, Spanish, Portuguese, Danish, Dutch, Swedish, Norwegian, Hungarian, Polish, Simplified Chinese, Traditional Chinese, Russian, Finnish şi Polynesian Abkhaz, Adyghian, Afrikaans, Agul, Albanian, Altai, Armenian (Eastern, Western, Grabar), Avar, Aymara, Azerbaijani (Cyrillic), Azerbaijani (Latin), Bashkir, Basic, Basque, Belarusian, Bemba, Blackfoot, Breton, Bugotu, Bulgarian, Buryat, C/C++, COBOL, Catalan, Cebuano, Chamorro, Chechen, Chinese Simplified, Chinese Traditional, Chukchee, Chuvash, Corsican, Crimean Tatar, Croatian, Crow, Czech, Dakota, Danish, Dargwa, Dungan, Dutch (Netherlands and Belgium), English, Eskimo (Cyrillic), Eskimo (Latin), Esperanto, Estonian, Even, Evenki, Faroese, Fijian, Finnish, Fortran, French, Frisian, Friulian, Gagauz, Galician, Ganda, German (Luxemburg), German, Greek, Guarani, Hani, Hausa, Hawaiian, Hebrew, Hungarian, Icelandic, Ido, Indonesian, Ingush, Interlingua, Irish, Italian, JAVA, Japanese, Jingpo, Kabardian, Kalmyk, Karachay-balkar, Karakalpak, Kasub, Kawa, Kazakh, Khakass, Khanty, Kikuyu, Kirghiz, Kongo, Koryak, Kpelle, Kumyk, Kurdish, Lak, Latin, Latvian, Lezgi, Lithuanian, Luba, Macedonian, Malagasy, Malay, Malinke, Maltese, Mansy, Maori, Mari, Maya, Miao, Minangkabau, Mohawk, Moldavian, Mongol, Mordvin, Nahuatl, Nenets, Nivkh, Nogay, Norwegian (nynorsk and bokmål), Nyanja, Occidental, Ojibway, Ossetian, Papiamento, Pascal, Polish, Portuguese (Portugal and Brazil), Provencal, Quechua, Rhaeto-romanic, Romanian, Romany, Rundi, Russian, Russian (old spelling), Rwanda, Sami (Lappish), Samoan, Scottish Gaelic, Selkup, Serbian (Cyrillic), Serbian (Latin), Shona, Simple chemical formulas, Slovak, Slovenian, Somali, Sorbian, Sotho, Spanish, Sunda, Swahili, Swazi, Swedish, Tabasaran, Tagalog, Tahitian, Tajik, Tatar, Thai, Tok Pisin, Tongan, Tswana, Tun, Turkish, Turkmen, Tuvinian, Udmurt, Uighur (Cyrillic), Uighur (Latin), Ukrainian, Uzbek (Cyrillic), Uzbek (Latin), Welsh, Wolof, Xhosa, Yakut, Zapotec, Zulu Afrikaans, Albanian, Aymara, Basque, Bemba, Blackfoot, Breton, Bugotu, Bulgarian, Byelorussian, Catalan, Chamorro, Chechen, Corsican, Croatian, Crow, Czech, Danish, Dutch, English, Esperanto, Estonian, Faroese, Fijian, Finnish, French, Frisian, Friulian, Gaelic (Irish), Gaelic (Scottish), Galician, Ganda/Luganda, German, Greek, Guarani, Hani, Hawaiian, Hungarian, Icelandic, Ido, Indonesian, Interlingua, Italian, Inuit, Kabardian, Kasub, Kawa, Kikuyu, Kongo, Kpelle, Kurdish, Latin, Latvian, Lithuanian, Luba, Luxembourgian, Macedonian, Malagasy, Malay, Malinke, Maltese, Maori, Mayan, Miao, Minankabaw, Mohawk, Moldavian, Nahuatl, Norwegian,
4
Readiris 12 Pro & Corporate 2009
5
Readiris 12 Pro & Corporate Middle-East 2009 Readiris 12 Pro & Corporate Asian 2009 CuneiForm 12, 2007
6 7
8
Microsoft Office Document Imaging Office 2007, 2007 9 NEOPTEC DATA-SCAN 5.7, 2009 10 NovoDynamicsVERUS Middle East Professional, 2005 11 NovoDynamicsVERUS, Asia Professional, 2009 12 HOCR 0.10.13
Nyanja, Occidental, Ojibway, Papiamento, Pidgin English, Polish, Portuguese (Brazilian), Portuguese, Provencal, Quechua, Rhaetic, Romanian, Romany, Ruanda, Rundi, Russian, Sami Lule, Sami Northern, Sami Southern, Sami, Samoan, Sardinian, Serbian (Cyrillic), Serbian (Latin), Shona, Sioux, Slovak, Slovenian, Somali, Sorbian, Sotho, Spanish, Sundanese, Swahili, Swazi, Swedish, Tagalog, Tahitian, Tinpo, Tongan, American English, British English, Afrikaans, Albanian, Aymara, Balinese, Basque, Bemba, Bikol, Bislama, Brazilian, Breton, Bulgarian, Byelorussian, Catalan, Cebuano, Chamorro, Corsican, Croatian, Czech, Danish, Dutch, Esperanto, Estonian, Faroese, Fijian, Finnish, French, Frisian, Friulian, Galician, Ganda, German, Greek, Greenlandic, Haitian (Creole), Hani, Hiligaynon, Hungarian, Icelandic, Ido, Ilocano, Indonesian, Interlingua, Irish (Gaelic), Italian, Javanese, Kapampangan, Kicongo, Kinyarwanda, Kurdish, Latin, Latvian, Lithuanian, Luxemburgh, Macedonian, Madurese, Malagasy, Malay, Maltese, Manx (Gaelic), Maori, Mayan, Minangkabau, Nahuatl, Norwegian, Numeric, Nyanja, Nynorsk, Occitan, Pidgin English, Polish, Portuguese, Quechua, Rhaeto-Roman, Romanian, Rundi, Russian, Samoan, Sardinian, Scottish (Gaelic), Serbian, Serbian (Latin), Shona, Slovak, Slovenian, Somali, Sotho, Spanish, Sundanese, Swahili, Swedish, Tagalog, Tahitian, Tok Pisin, Tonga, Tswana, Turkish, Ukrainian, Waray, Wolof, Xhosa, Zapotec, Zulu, Bulgarian- English, Byelorussian - English, Greek - English, Macedonian - English, Russian - English, Serbian - English, Ukrainian - English, Bosnian (Cyrillic) Arabic, Farsi şi Hebrew Simplified Chinese, Traditional Chinese, Japanese şi Korean English, German, Croatian, Polish, Danish, Portuguese, Dutch, Digits, Czech, French, Romanian, Hungarian, Bulgarian, Slovenian, Lettish, Lithuanian, Estonian, Turkish, Russian, Swedish, Spanish, Italian, Russian-English (mixed), Ukrainian, Serbian Accesul la diferite limbi este legat de instalarea unor componente MS Office French, Spanish, English. Arabic, Persian (Farsi, Dari), Pashto, Urdu, inclusiv English and French Chineza simplificată şi tradiţională , limbile Korean şi Russian, incluzând English Hebrew
13 OCRopus 0.3.1, 08 ReadSoft Caractere Europene, 14 SimpleOCR 3.5, 2008 15 Tesseract 2.03, 2008
Toate limbile suportate de Tesseract prin plug-in-uri, şi suportă Latin script şi English în mod nativ Chineza simplificată şi tradiţională, caractere Korean şi Japanese Engleză, franceză Poate recunoaşte 6 limbi, compatibil UTF8, are support de antrenare
2.11. Echpament digitizare. Laboratorul de digitizare carte veche Scan BOOK 600 Laboratorul de digitizare carte veche Scan BOOK 600 este un sistem complet de scanare digitizare si arhivare a cartilor si a altor documente legate. Scan BOOK 600 a fost creat datorita cerintei unui sistem complet de scanare si digitizare a cartilor ce poate fi folosit de aproape oricine cu usurinta. Scanner-ul este semi-automat, sistemele grafice de prelucrare a imaginilor sunt dotate cu software-uri puternice ca Book Restorer, PDF4Books si Abby Fine Reader.
Atelierul de scanare si digitizare documente Scan BOOK 400 Atelierul de scanare si digitizare documente Scan BOOK 400 este un sistem complet de digitizare si arhivare a documentelor legate. Scan BOOK 400 este varianta mai accesibila din punct de vedere al bugetului a laboratorului de digitizare Scan BOOK 600. Atelierul de digitizare Scan BOOK 400 a fost creat pentru utilizatorii cu volume mici si medii de documente, ce au nevoie de o solutie de scanare si arhivare a documentelor la un pret accesibil si performante medii.
Scanner-ul de microfilme MS 6000MK II Scanner-ul de microfilme MS 6000MK II poate scana microfilme de 16 mm si 35 de mm, microfise, carduri de diafragama - film perforat (aperture cards), cartruse de film de 16 mm, astfel cu un sigur echipament putem scana orice microfilm.
Scanerul automat de carte Qidenus RBS PRO TT (RoboticScan PRO TT) Scanerul automat de carte Qidenus RBS PRO TT (RoboticScan PRO TT) este proiectat pentru digitizarea rapida a unui volum mare de carti, permitand scanarea documentelor legate de format maxim A4+ (max 25x37cm). Scanerul foloseste un sistem mecanic automat de intoarcere a paginilor, precum si un dispozitiv pentru pozitionarea documentelor (book-cradle) in forma de V care permite deschiderea partiala a cartilor pentru scanare protejand astfel cotorul cartilor in timpul operatiei de digitizare. Avantaje scaner automat de carte RBS PRO TT
Viteza mare de digitizare (max 2000pag) cu flux de lucru bine optimizat Atingerea minima a paginii in momentul in care aceasta intra in contact cu documentul Platan in forma de V pentru protejarea cotorului cartii, unghi ajustabil Rezolutie optica 300-400 dpi (in functie de model)
Posibilitate de upgrade a camerelor de captura cu cele mai noi si performante modele Posibilitate scanare automata sau semi-automata (intoarcere manuala a paginii)
Pentru a asigura o digitizare simultana a ambelor laturi ale cartilor, scannerul automat RoboticScan PRO TT utilizeaza doua camere foto extrem de performante ce pot asigura, in functie de configuratia aleasa, rezolutii optice reale de 300 dpi (pentru camera de 15,1 Mpix) sau 400dpi (camera de 21,1 Mpix). Pe langa viteza mare de scanare obtinuta in procesul de digitizare, un avantaj major al acestei solutii il reprezinta posibilitatea de upgradare cu usurinta a camerelor foto cu cele mai noi si performante modele, atunci cand standardele de digitizare vor creste. In plus, scanerul automat RoboticScan ofera utilizatorilor atat optiunea de utilizare in modul automat cat si semi-automat, fiind din acest punct de vedere este un echipament 2 in 1. Cartile in stare fizica buna pot fi digitizate in modul automat , iar cartile mai delicate sau pretentioase pot fi digitizate in modul automat in care utilizatorul intoarce cu grija paginile documentului. Software scaner automat de carte (QiScan JobControlCenter) Pachetul software QiScan JobControl livrat impreuna cu scanerul automat de carte ofera operatorului posibilitatea de a vizualiza in orice moment stadiul in care se afla procesul de digitizare carte. Se pot vizualiza rezolutia la care este digitizata cartea, tipul fisierului final, nr de pagini, locatia unde este salvata, se pot adauga, edita sau sterge diferite job-uri pe diferite proiecte (carti), se pot acorda drepturi si autorizari pentru diversi utilizatori, etc. Procesare automata a imaginilor Software QiScan Imageprocesor si Quality Center al scanerului automat de carte permit controlul paginilor scanate si modul in care acestea sunt prelucrate:
Un profil de corectie se aplica initial pentru o singura pagina, si ulterior dupa verificare poate fi aplicat automat pentru toate celelate pagini (batch processing) Vizulizare rapida a peste 10 pagini scanate in format tumbnail Functie de preview inaite de a aplica corectiile dorite Salvare a profilului si posibilitatea de al folosi pentru urmatoarea carte Vizualizare in timp real al functiei de OCR, si posibilitatea de a ajusta setarile, de asemenea posibilitatea de a modifica diferite functii de corectie (Deskew, Despeckle, Crop, AutoContrast, Sharpen, Soften, Brightness, Contrast, Gamma, Blend, Blur, ColorDepth, Binarize, Diffuse, Dilate, Erode, Median, Outline, CropBorder, DeleteBorder, DeleteRegion, Rotate, Perspective, etc) Tipul de imagine final (full color, greyscale, alb-negru) Rezolutia finala a fisierului (300 - 600 dpi)
Scannerul i2S CopiBook Scannerul i2S CopiBook permite scanarea chiar la lumina ambientala. In cazul realizarii digitizarii unor documente foarte vechi se recomanda utilizarea luminii de scanare numai pe durata scanarii – chiar si in cazul utilizarii luminii LED. In nici un caz documentele vechi nu se expun la lumina „calda” (neon, becuri, etc) ce poate duce la imbatranirea prematura a documentului. Lumina de scanare trebuie sa fie lumina rece fara radiatii UV si IR
Bibliografie 1. M. Moruz, A. Iftene, A. Moruz, D. Cristea, Semi-automatic alignment of old Romanian words using lexicons, In: Proceedings of the 8-th International Conference „Linguistic resources and tools for processing of the Romanian language”, Iaşi, Editura Universităţii „A.I. Cuza”, 2012, p. 119-125. 2. G. Ivănescu, Istoria limbii romane, Iaşi, 1980. [G. Ivănescu, History of the Romanian language, Iaşi, 1980. 3. Ştefan Munteanu şi Vasile Ţâra, Istoria limbii române literare, Editura Didactică şi Pedagogică, Bucureşti, 1978. 4. Cartea Moldovei (sec XVII – înc. sec XX). Ediţii cu caractere chirilice (sec XVII – înc. sec XX),Catalog general, Chişinău, 1992. 5. Zamfi ra Mihail, 155 cărţi într-o carte, Editura Prometeu, Chişinău, 2010, 532 p. 6. Valori Bibliofi le-2008, Rev. Gazeta bibliotecarului, Iunie-Iulie 2008, nr. 6-7, p.1 http://87.248.191.115/ bnrm/publicatii/fi les/3/93.pdf 7. Gheţie I., Istoria limbii române literare, Bucureşti, 1978. 8. Optical Character Recognition (OCR) Technology. 9. Burlaca O., Ciubotaru C., Cojocaru S., Colesnicov A., Magariu G., Malahov L., Petic M., Verlan T., Applications based on reusable linguistic resources. In Multilinguality and interoperability in language processing with emphasis on Romanian, Editors: D. Tufiş, C. Forăscu, Bucureşti, 2010, p.461-476. 10. Densuşianu, A., Istoria limbii şi literaturii române, Iaşi, 1894, http://ru.pdfcoke.com/doc/123035210/Istoria-limbii-si-literaturii-romane [VPRE] – VASILE PREDA – Explorarea vizuală. Cercetări fundamentale şi aplicative, Editura ştiinţifică şi enciclopedică, Bucureşti, 1988 [GOW] - GONZALEZ R., WOODS R. - Digital Image Processing, Prentice Hall, 2002, 2nd Edition [JDM] – A. JAIN, R. DUIN, J. MAO – Statistical Pattern Recognition: A Review, IEEE Transactions On Pattern Analysis and Machine Intelligence, Vol. 22, No. 1, January 2000 [BKKP] - BEZDEK J., KELLER J., KRISHNAPURAM R., PAL N.- Fuzzy Models and Algorithms for Pattern Recogniton and Image Processing, Kluwer Academic Publishers, 1999 [VLA] AUREL VLAICU – Prelucrarea digitală a imaginilor, MicroINFORMATICA, Cluj-Napoca, 1997 [ISP 1] IOAN ISPAS – Algoritmi de prelucrare digitală a imaginilor, Referat, Univ. Babeş-Bolyai, Facultatea de Matematică-Informatică, Cluj-Napoca, 2003 [ISP 2] IOAN ISPAS – Baze de date de imagini, Referat, Univ. Babeş-Bolyai, Facultatea de Matematică-Informatică, Cluj-Napoca, 2003 19
[ISP 3] IOAN ISPAS – Algoritmi de recunoaşterea formelor şi clasificarea automată a imaginilor, Referat, Univ. Babeş-Bolyai, Facultatea de Matematică-Informatică, ClujNapoca, 2003
TEMA 3 Procesarea digitala a imaginelor Ce este imagine? IMÁGINE, imagini, s. f. 1. Reflectare de tip senzorial a unui obiect în mintea omenească sub forma unor senzații, percepții sau reprezentări; spec. reprezentare vizuală sau auditivă; (concr.) obiect perceput prin simțuri. 2. Reproducere a unui obiect obținută cu ajutorul unui sistem optic; reprezentare plastică a înfățișării unei ființe, a unui lucru, a unei scene din viață, a unui tablou din natură etc., obținută prin desen, pictură, sculptură etc. 3. Formă de reprezentare în conștiință a realității înconjurătoare pe baza senzațiilor dobândite cu ajutorul simțurilor. 4. Reprezentare a unui obiect obținută din reunirea razelor luminioase emanate de la un corp și reflectate de altul. Conceptul de imagine are mai multe semnificații, in functie de domeniul in care este utilizat. • “Imagine, reprezentare sensibila sau tablou mental concret, rezultat al reflectării senzoriale a obiectelor si a fenomenelor”. ( Dictionar de filozofie, Bucuresti, 1978, pag. 344 ) • “ Imagine, ( in sens larg ), forma subiectiva, specifica in care se realizeaza reflectarea psihica la om; ( in sens restrans, referindu-se numai la procesele cunoasterii senzoriale) senzatie, perceptie si (referindu-se la treapta de trecere de la senzorial la logic) reprezentare”.(Dictionar de pedagogie, Bucuresti, 1979, pag. 204) • „Imaginea" are următoarele criterii: un tablou mental concret finalizat, Interconexiunea logică a proceseloe interconectate, Integritatea perceperii unui obiect concret dintr-un domeniu concret • •
Imagine analogică Imagine digitală
•
Imagine analogică este percepută ca o palitră infinită de culori, adâncime profundă a culorilor, o multitudine de detalii și particularități și .....
- Limitările sunt impuse doar de – capacitățole sistemului umane de percepție vizuală ochiul omului. Trebuie de menționat că: Transmiterea prin canale de transport date a imaginii analogice este foarte dificilă, acest proces este influențat de: Multitudinea formelor de interferență, Limitile posibilităților sistemelor de captare, Performanța echipamentului ce reproducere. • Pe când Imaginea digitală are parametri strict determinați: număr concret de puncte pe unitate de lungime/suprafață, număr concret de culori. Prelucrarea digitala a imaginilor Digital Image Processinga- Prin prelucrarea digitală a imaginilor se întelege prelucrarea pe un calculator a unor date bidimensionale (imagini). Termenul cheie este cuvântul digital, înlocuit adesea în mod eronat în multe traduceri românesti cu termenul de numeric. Dupa cum arată dicţionarul limbii române moderne, definiţia cuvântului numeric este aceea de “care aparţine numerelor, privitor la numere, exprimat prin numere”. Rezultatul oricărui calcul este numeric. Termenul digital înseamnă însă: “reprezentarea informaţiei discrete în calculatoare” Prelucrarea digitală a imaginilor reprezintă un domeniu foarte larg, de sine stătător. Acest domeniu are la bază o teorie matematică riguroasă, bine pusă la punct, în general implementările pe diverse maşini de calcul sunt destul de mari consumatoare de resurse putere de calcul, memorie, în special dacă ne referim la utilizarea în timp real a informaţiilor extrase din imagini. • Într-un sens cât mai general, o imagine este o descriere a variaţiei unui parametru pe o suprafaţă. • Imaginile - în sensul clasic - sunt rezultatul variaţiei intensităţii luminii întrun plan bidimensional. • Dar acest parametru nu este singurul folosit; - de exemplu o imagine poate fi generată de temperatura unui circuit integrat, - De emisiile de radiaţii (cu diverse lungimi de undă) ale unor galaxii etc. Însă aceste tipuri de imagine sunt,de obicei, convertite în imagini clasice (prin pseudocolorare de exemplu) pentru ca operatorul uman să poată face o evaluare vizuală a variaţiei unor parametri. - Din aceste considerente, pe parcursul lucrării toate referirile se vor face la imagini în sensul clasic. Imaginea Digitală • La început, imaginile sunt semnale, dar nu funcţii temporale, ci funcţii definite pe un domeniu spaţial. • Orice imagine este o structură bidimensională (tablou, matrice) de date. • Un element al imagini se numeşte pixel (cuvânt preluat din engleză, unde provine de la picture element). • Aceste date pot fi numere naturale, reale sau complexe, reprezentate însă pe un număr finit de biţi. • După tipul datelor din această structură bidimensională, imaginile prelucrate pot fi împărţite în mai multe categorii: • imagini scalare, în care fiecare componentă este un scalar - un unic număr; Ca exemple de astfel de imagini se pot da imaginile monocrome în care punctele (pxelul) au doar două valori posibile, ce corespund unui conţinut binar al imaginii, în general alb-negru şi
imaginile cu nivele de gri -de tipul imaginii de luminanţă de pe ecranele televizoarelor albnegru. imagini vectoriale, în care fiecare componentă este un vector de numere; cazul particular cel mai de interes este acela al imaginilor color, în care vectorul are trei elemente ce corespund celor trei constituente de bază ale oricărei culori; în general, pentru imaginea multicomponentă, vectorul asociat fiecărui punct din imagine are mai multe elemente (caz ce corespunde imaginilor preluate în mai multe benzi de frecvenţă, aşa cum sunt - imaginile de teledetecţie ale sateliţilor, - imaginile de termodetecţie în benzile de infraroşu,...). - Tot în categoria imaginilor vectoriale intră însăşi imaginile stereo (o pereche de imagini ale aceleiaşi scene, luate din unghiuri diferite) şi secvenţele de imagini. Într-un sens cât mai general, o imagine este o descriere a variaţiei unui parametru pe o suprafaţă • Prelucrarea imaginilor include sau este legată de mai multe discipline: - preluarea, compresia şi stocarea imaginilor; - restaurarea şi ameliorarea imaginilor prin corecţii geometrice, radiometrice, - ajustări de contrast, filtrarea zgomotului etc; - fotogrammetrie, adică măsurători ale unor obiecte, fenomene făcute pe baza unor imagini; - recunoaşterea formelor - pattern matching, shape recognition, face recognition; - vederea artificială - computer vision, robot vision; - inteligenţa artificială; - sinteza de imagini, imagini generate de calculator; • Inteligenţa artificială şi prelucrearea imaginilor sunt domenii ce se întrepătrund. Un număr important din algoritmii performanţi folosiţi la prelucrarea imaginilor utilizează metode şi tehnici din domeniul inteligenţei artificiale, cum ar fi: reţele neuronale, logica fuzzy. Pe de altă parte, inteligenţa artificială presupune proiectarea şi construirea de sisteme capabile să realizeze funcţii ale intelectului uman: învăţarea prin experienţă, înţelegerea limbajului natural, utilizarea unui raţionament pentru rezolvarea unor probleme sau luarea unor decizii. Toate aceste presupun însă şi acumularea unei anume cantităţi de informaţie (baza de cunoştinţe, informaţii din mediu etc.). • Această informaţie este preluată de sistemele inteligente prin sensori şi crează o imagine a mediului în momentul preluării datelor (snapshot). • Din imaginea astfel obţinută trebuie extrase informaţiile utile. • Toate acestea ţin de domeniul vederii artificiale (Computer Vision, Robot Vision); Este o disciplină comună atât prelucrării de imagine cât şi inteligenţei artificiale şi încearcă să răspundă la următoarele întrebări: • - ce informaţie trebuie extrasă din imaginile preluate? • - cum poate fi extrasă aceasta informaţie? • - cum se reprezintă aceasta? • - cum poate fi utilizată pentru atingerea unui scop anume? Domeniul prelucrării de imagini este unul dinamic; el a fost foarte bine sintetizat de către Theo Pavlidis într-una din lucrările sale:
O structură genereală a unui sistem de vedere artificială este descrisă în figura de mai jos:
Structura unui sistem de prelucrarea şi analiza imaginilor • Structura tipică a unui sistem de prelucrarea digitală şi analiza imaginilor este alcătuită din punct de vedere funcţional dintr-un număr de blocuri
sistemul de formare a imaginii (de exemplu sistemul de lentile al camerelor de luat vederi): strânge radiaţia electromagnetică a obiectului studiat pentru a forma imaginea trăsăturilor de interes, • convertorul de radiţie: converteşte radiaţia electromagnetică din planul imaginii într-un semnal electric. Vederea este unul dintre cele mai perfecte sensor al omului, dar trebuie de menționat că sensorul nostru este capabil să perceapă undele electromagnetice numai în spectrul radiațiilor vizibil de om
Pe când Procesarea imaginii la calculator cuprinde tot spectrul electromagnetic de la gama radiații până la undele radio.
Din punctul de vedere al fizicii majoritatea imaginilor reprezintă un spațiu bidimensional de radiație electromagnetică, reflectat sau absorbit de un obiect, înregistrat cu ajutorul unui sensor. Spectrul electromagnetic Spectrul electromagnetic reprezintă totalitatea radiaţiilor electromagnetice existente în univers. Aceste radiaţii au frecvenţe cuprinse între aproximativ 1023 herți şi 0 herți. Nu există totuşi o delimitare teoretică exactă a acestui spectru, întrucât practic lungimea de undă poate avea orice valoare, valoarea maximă fiind dimensiunea universului. În funcţie de utilitatea radiaţiei electromagnetice, spectrul electromagnetic este împărțit în mai multe regiuni, dintre care de importanţă deosebită pentru noi este regiunea spectrului vizibil (între 400 şi 700 nanometri), adică acele frecvenţe ale spectrului care pot fi interpretate de către ochi. Nu există graniţe precise între aceste regiuni, prin urmare delimitările prezente mai jos numai aproximative şi sunt stabilite în scop didactic, dar şi operaţional, pentru a crea o idee clară despre dimensiunile acestor zone ale spectrului electromagnetic.
Sistemul de formare a imaginii şi convertorul de radiaţie formează senzorul; acesta realizează o proiecţie plană (bidimensională) a scenei reale (care este în general tridimensional ă). Un studiu realizat în Germania în anul 1996 prin inventarierea sistemelor de preluare a imaginilor folosite în industrie indică o distribuţie a tipurilor de senzori după gama de radiaţie captată conform tabelului
•
Este interesantă comparaţia între câteva caracteristici ale sistemului uman vizual de prelucrare şi un sistem de prelucrarea şi analiza imaginilor folosite pentru aplicaii industriale, prezentată în tabelul de mai jos.
Aplicatii ale prelucrarilor digitale de imagini • Sunt utilizate practic, in toate domeniile! Industrie: inspectie/sortare; manufactura (robot vision) Mediu: supravegherea mediului (baraje, paduri, incendii, galerii de mine) cu camere de supraveghere, roboti autonomi Medicina: imagistica medicala (ultrasonografie, MRI, CT, vizibil) Cultura: biblioteci digitale; patrimoniu cultural (stocare, restaurare, analiza – indexare) Televiziune: broadcasting, editare video, stocare Educatie si turism: interfete multi-modale inteligente om-calculator, cu componente de recunoastere a emotiilor Securitate/autentificare (recunoastere iris, verificare semnatura) … etc…
Formarea imaginii Ochiul uman • Ochiul este un instrument optic ce formează imagine reală. • Ochiul poate fi asimilat cu o camera obscură în care lumina pătrunde într-o lentil – cristalinul – şi imaginea se formează pe un ecran – retina. Imaginea formată este reală, mai mica decât obiectul şi este răsturnată. • Globul ocular la om are formă sferică, un diametru de aproximativ 2,5 cm şi este alcătuit din următoarele componente: corneea, pupila, retina, nervul optic, irisul, umoarea apoasă, cristalinul, umoarea vitroasă.
• • • • • • • • •
Vederea umană se produce prin interacţiunea simultană dintre cei doi ochi şi creier, prin intermediul unei reţele nervoase. Cristalinul este un organ care se comportă ca o lentil convergentă, cu distanţa focală variabilă. Imaginea obiectului este proiectată pe retină şi este o imagine: reală şi inversată. Retina este o membrană multistrat, care conţine milioane de cellule fotosensibile, care transformă imaginea în semnal electric Razele de lumină, de la obiect, trec prin mediile transparente ale ochiului şi ajung la retină, unde se formează imaginea inversată a obiectului. După formarea imaginii pe retină, in fluxul nervos este condus la creier, unde iau naştere senzaţiile de văz. La nivelul scoarţei cerebrale este analizată şi apreciată adevărata poziţie a obiectului în spaţiu. Ochiul poate fi numit un aparat optic complicat. Anatomia sa poate fi urmărită la adresa de Internet: http://users.skynet.be/bd/tucunostianatomia/eye.html
Tipuri de senzori • Sunt utilizaţi trei tipuri de Senzorii de imagine: - CCD (charge coupled device) si - CMOS (complementary metal oxide semiconductor)
- Senzorul FOVEON • Sunt tehnologii diferite pentru captarea imaginilor digitale. • Fiecare are atuurile şi slabiciunile sale şi niciuna nu este categoric superioara celeilalte. • Toate tipuri de senzor transformă impulsurile luminoase în încarcatură electriă şi o procesează în semnale electronice. • Principiul dupa care functioneaza senzorii (CCD) a fost descoperit inca din 1960 dar dispozitivele obtinute au fost initial folosite drept memorii si abia in 1970 s-a demonstrat ca pot fi folosite si pentru captarea imaginilor. Procesul de realizare a senzorilor CCD este asemanator cu cel de realizare al circuitelor integrate. Astfel, dupa o serie de operatii specifice acestei tehnologii se obtin mii de astfel de cipuri pe un disc foarte subtire din Si (siliciu), disc care formeaza asa numita tinta – principala componenta a unui echipament de preluare a imaginilor. Fiecare cip de pe tinta are functia de senzor optic, adica este sensibil la radiatia luminoasa. Atunci cand o radiatie luminoasa ajunge pe suprafata senzorului, in substratul semiconductor apar un numar de electroni liberi care sunt stocati intr-un strat de colectare special. Numarul de electroni liberi noi aparuti depinde direct proportional de intensitatea radiatiei luminoase incidente. Preluarea unei scene aflate in fata matrice cu senzori optici dintr-un echipament de preluare a imaginilor se face in trei pasi: - expunerea matricei la lumina provenita de la scena filmata, proces in care intensitatea luminoasa corespunzatoare fiecarui pixel al imaginii (zona din scena filmata ce impresioneaza un senzor optic) este convertita in sarcina electrica (electroni) si stocată la nivelul stratului de semiconductor care formează ținta; - transferul sarcinii, proces în care sarcina acumulată la pasul anterior pentru fiecare pixel este mutata in cadrul substratului de semiconductor al matricei; - conversia sarcinii in tensiune echivalentă, serializarea tensiunilor analogice corespunzatoare fiecărui pixel și amplificarea acestora cu un amplificator analogic de precizie; Imaginea filmata este achizitionata atunci cand lumina corespunzatoare scenei, sub forma de fotoni este incidenta pe o arie de senzori optici.
CCD – Charge Coupled Device • Fiecare celula (senzor) converteste energia luminoasa in sarcina electrica, in faza de expunere • Dupa expunere, sarcinile colectate sunt transferate intre celulele vecine, spre iesire. • Iesirea finala este amplificata si digitizata
• •
Într-un sensor CCD, încărcătura electrică a fiecărui pixel este transferată printr-un număr limitat de noduri (deseori doar unul) pentru a fi convertită în voltaj, stocată temporar şi trimisă in afara sensorului ca semnal analogic. Astfel toată suprafata pixelului poate fi folosita pentru captarea luminii şi uniformitatea raspunsului este mare - un factor cheie în calitatea imaginii.
Sensori CMOS • Intr-un senzor CMOS fiecare pixel are propriul circuit care transformă încărcătura electrica în voltaj, iar deseori senzorul include circuite de amplificare, de corectare a zgomotului si de digitizare, astfel încât acesta să producă direct informaţie digitala. • Toate acestea măresc complexitatea senzorului şi reduc suprafaţa disponibilă pentru captarea luminii. • Şi pentru că fiecare pixel face propriile transformări, uniformitatea răspunsului este scăzută. Dar senzorul poate fi proiectat cu mai puţine circuite externe. • CMOS – Complementary MetalOxide-Semiconductor, numit si Active Pixel Sensor (APS) • Fiecare pixel contine un element fotosensibil (de exemplu o fotodioda), si un circuit de amplificare • Citirea se poate face fara distrugerea sarcinii. Reset este folosit pentru a sterge sarcina, si deci pentru a incepe efectiv o perioada de expunere
Senzori color • Orice culoare poate fi exprimata ca o combinatie de trei componente, Rosu, Verde si Albastru (RGB) • Pentru a percepe culoarea, se folosesc filtre RGB in combinatie cu senzorii CCD sau CMOS, care sunt monocromi. • Filtrele lasa sa treaca doar un interval restrans de frecvente, corespunzator culorilor filtrelor. • Solutii: modelul Bayer, sau folosirea a trei senzori.
•
Senzorul Bayer, este cel mai raspandit senzor la ora actuala, inventat prin anii 80 de Dr. Bryce E. Bayer, care lucra pentru Eastman Kodak. • Principiul dupa care functioneaza acest senzor este simplu: fotositurile sunt aranjate intr-o matrice in care exista: - 25% receptori pentru culoarea rosie (R), - 25% receptori pentru culoarea albastra (B) si - 50% receptori pentru culoare verde (G). Un pixel de culoare este determinat de 4 fotosituri sau receptori ( 1R, 1B si 2G sau RGBG) ca in desenul de mai jos:
Au fost alese doua fotosituri pentru culoarea verde pentru ca ochiul uman distinge mult mai multe nuante in verde decat in alte culori. Din aranjarea fotositurilor se constata ca pentru a determina un pixel de culoare (necesar ca informatie de baza in fisierele de imagine) este nevoie de o interpolare a datelor obtinute de cele 4 fotosituri.
În teorie, daca un senzor bayer primeste lumina rosie, doar 25% din fotosituri vor furniza date despre acea lumina si doar 25% din pixeli sunt determinati exact, 75% din pixeli sunt obtinuti din date provenite din interpolare.
In practica, este putin probabil ca o imagine sa contina o culoare cu lungime de unda atat de ingusta incat sa determine date doar intr-un singur tip de fotosituri. In plus, mecanismul de interpolare este mai complex, luandu-se in considerare si vecinatatile de ordin doi al pixelului care trebuie determinat, ca in desenul da mai sus. Din studiul senzorului Bayer intuim ca mecanismul de interpolare este foarte important pentru redarea corecta a culorilor. De asemenea, intuim ca problema determinarii culorilor exacte pixel per pixel este insurmontabila. Senzorul Bayer mai are si probleme legate de gama dinamica (dynamic range) prea mica. Senzorul SONY-CCD – varianta a senzorului Bayer. Pentru a imbunatatii determinarea mai exacta a valorilor pixelilor, Sony a introdus un senzor care are un receptor pentru rosu (R), unul pentru albastru (B), unul pentru verde (G) si unul pentru smarald (E – emerald)
Senzorul Fuji SuperCCD – varianta a senzorului Bayer. Incercand sa rezolve problema gamei dinamice, Fuji a venit cu un design care plaseaza in matricea fotositurilor anumite zone mai putin sensibile la lumina. Fuji a folosit o matrice de octogoane pentru a imbunatati rezolutia. In prima varianta, fotositurile contineau fotodiode de sensibiltate normala la lumina, denumite S si fotodiode dedicate pentru straluciri, de sensibilitate si dimensiune mai mica, numite R. Fotodiodele R pot capta detalii dincolo de punctul de saturare a diodelor S si prin combinarea informatiilor celor doua tipuri de fotodiode se obtine o gama dinamica extinsa, prevenindu-se pierderea detaliilor din zonele supraexpuse. A doua varianta a fost obtinuta mutandu-se fotodiodele R in spatiile goale dintre fotodiodele S. Acest lucru a permis ca dimensiunile fotodiodelor S sa fie mai mari. Dupa unele surse gama dinamica obtinuta de designul Fuji Super CCD depaseste cu doua stopuri (trepte de expunere) gama dinamica a senzorilor Bayer obisnuiti. sursa www.dpreview.com
Senzorul Foveon Compania americana Foveon a dezvoltat technologia X3 care pleaca de la un design revolutionar in lumea senzorilor de imagine. Principiul este asemanator celui folosit in filmele color, adica exista trei straturi suprapuse care inregistreaza lumina. Cele trei straturi de fotodiode sunt inglobate in silicon si beneficiaza de faptul ca lumina albastra, verde sau rosie se absoarbe la adancimi diferite.
În teorie, senzorul Foveon este net superior senzorului Bayer în privința culorilor, clarității și a gamei dinamice. Totuși, în practică se constată că tehnologia înca, nu a putut rezolva pe deplin problema contaminării dintre straturi. Această contaminare este responsabila de apariția unui zgomot de imagine la ISO 800 sau 1600, datorat migrării electronilor din stratul superior (albastru) spre celelalte straturi.
• • •
•
•
Spre deosebire de matricea Bayer folosită de celelalte tipuri de sensori, Foveon foloseşte o matrice de fotosituri, fiecare fotosit constând în trei fotodiode aranjate vertical. Fiecare din cele trei fotodiode sunt sensibile la lungimi de unda ale luminii diferite. Acest lucru este posibil deoarece lumina de lungimi de unda diferite penetrează siliconul din care sunt fabricaţi sensorii la adancimi diferite. Semnalele electrice de la cele trei fotodiode sunt apoi procesate, obţinând valori adaugate pentru toate culorile la fiecare fotosit. La număr echivalent de pixeli, senzorul Foveon produce poze de o calitate mai bună decât sensorii CCD si CMOS, deoarece pierd foarte puţin din lumina ajunsă pe fiecare pixel, în timp ce sensorii cu matrice Bayer pierd informaţia despre două din cele trei culori la fiecare fotosit. Datorita complexitatii acestora si a faptului ca sunt relativ noi, senzorii Foveon sunt folositi doar de Sigma în aparatele foto profesionale.
Sensibilitatea senzorului • Caracteristica ieşirii senzorului are foma din figura de mai jos:
După cum se observă, această caracteristică este neliniară, dar între cele două praguri ea poate fi considerată ca fiind liniară. Dacă intensitea luminoasă este sub pragul de sensibilitate al senzorului, acesta nu o va sesiza şi imaginea nu va fi preluată corect. • Celelalte doua etaje ale sistemului de achiziţie a imaginii pot influenţa şi ele rezultatul achiziţiei (amplificatoarele au caracteristici liniare sau se pot sature, alegerea incorectă a convertorului poate duce la pierderea unor informaţii). • Nu vom intra mai mult în detalii deoarece nu este scopul lucrării. Trebuie de reţinut însă că sistemul de achiziţie a imaginii este o componentă esenţială a lanţului de prelucrare de imagine. Parametrii senzorului • Sx – lăţimea dispozitivului CCD [mm] (valorile standard sunt prezentate în figura de mai sus); • Sy – înălţimea dispozitivului CCD [mm] (valorile standard sunt prezentate în figura de mai sus); • Ncx – numărul elementelor senzoriale pe direcţia orizontală; • Ncy – numărul elementelor senzoriale pe direcţia verticală; • dx – distanţa dintre centrele a două elemente senzoriale consecutive pe direcţie orizontală: • dx = Sx/Ncx • dy - distanţa dintre centrele a două elemente senzoriale consecutive pe direcţie verticală: • dy = Sy/Ncy • NX x NY – rezolutia spatiala
Dimensiuni standard ale senzorilor din camerele de luat vederi
Parametrii dispozitivului senzorial
Parametrii imaginii (din memorie / framegrabber) • Parametrii imaginii (din memorie / framegrabber): • Nfx – numărul de pixeli în direcţia orizontală, prin scalarea / eşantionarea unei linii de imagine • orizontală de către computer / framegrabber; • Nfy – numărul de pixeli în direcţia verticală • dpx – dimensiunea orizontală efectivă a unui pixel din memorie: dpx = dx* Ncx / Nfx; • dpy – dimensiunea verticală efectivă a unui pixel din memorie: dpy = dy* Ncy / Nfy; • Ncx / Nfx – factorul de scalare / eşantionare a liniilor de imagine orizontale. Captura imaginilor Camera Obscura • O cutie sau o cameră, unde lumina pătrunde printr-un orificiu foarte mic. • Se poate considera că un punct din exteriorul camerei este unit cu un punct de pe peretele opus orificiului printr-o singură rază de lumină. • Se creează o imagine răsturnată a scenei exterioare
Lentile şi oglinzi • Adaugarea unei lentile a permis captarea mai bună a luminii • Prin folosirea oglinzilor se poate direcŃiona imaginea spre un alt perete, pentru o uşurinŃă mai mare a procesului de desenare
parametri optici: - tipul lentilelor; - distanţa focală; - adâncimea de câmp; - parametri fotometrici: - tipul, direcţia şi intensitatea iluminării; - proprietăţile de reflecţie a obiectelor analizate; - caracteristica ieşirii fotoreceptorului: - parametri geometrici: - tipul proiecţiei; - distorsiunile de perspectivă; - poziţia şi orientarea senzorului. • În final, sistemul de achiziţie va produce o imagine digitală, de fapt un tablou bidimensional, • iar valorile din acest tablou pot reprezenta intensitatea luminii, distanţe sau alte mărimi fizice.
Proiecție din 3D în 2D
Dispozitiv videocaptor CCD liniar
Dispozitiv videocaptor CCD matricial
Captarea imaginii – faze
Eșantionare Cuantizare
îmbunătățire Filtrare Restaurare
Compresie Segmentare Recunoaștere forme
Captare imagini procese
Captarea imaginilor - Pentru activarea unui senzor este necesară o sursă de lumină (λ: lungimea de undă a sursei) E(x, y, z, λ): lumina incidentă într-un punct (x, y, z coordonatele spațiale) • fiecare punct din scenă are o funcție de reflexie r(x, y, z, λ): funcția de reflexie • lumina se reflectă dintr-un punct c(x, y, z, λ) = E(x, y, z, λ) × r(x, y, z, λ): lumina reflectată. • fiecare dispozitiv de captură are o funcție de sensibilitate S(λ) • S(λ) ne spune cât de sensibilă e la lungimile de undă din proiecția 2D • Lumină capturată de cameră --> funcție imagine ccap(x’, y’, λ) = S(λ) cp(x’, y’, λ) Funcția imagine depinde de: 1. Lumina incidentă în punctul (x,y,z) din scena 3D
2. Funcția de reflexie în acel punct 3. Proiecția luminii reflectate din planul 3D în planul 2D al camerei 4. Funcția (funcțiile) de sensibilitate ale camerei Câte niveluri de gri sunt necesare?
Imaginile de intensitate sunt de regulă cuantizate la 256 de niveluri de gri. Diferența de luminanță abia perceptibilă Just-Noticeable Difference or JND - JND = valoarea minimă cu care trebuie schimbată luminanța pentru ca această variație să fie observabilă de către ochiul uman • Legea lui Weber – JND (ΔI) depinde de amplitudinea stimulului (luminanță) ∆/I=KW = constant – Pentru ochiul uman KW ≈ 1 - 2% • Legea lui Fechner – Percepția umană a luminanței este uniformă în domeniul log(I) – 2 surse de lumină pot fi deosebite dacă răspunsul pe care îl generează diferă printr-o valoare constantă ΔR • Legea lui Fechner Legea lui Weber ? k log(I +∆/I) - k log(I)= ΔR= const. • ∆/I = const. Rate de contrast uzuale: – LCD cameră întunecată 1000:1 – CRT 100:1 – Tipar pe hârtie 10:1
Clase de imagini • Theo Pavlidis a propus o clasificare a imaginilor în patru clase: clasa 1 - include imagini color sau în nivele de gri (televiziune, fotografie); clasa 2 - imagini binare (în doua culori); clasa 3 - cuprinde imagini formate din linii şi curbe continue; clasa 4 - include imagini compuse din puncte izolate şi poligoane; • Acestă clasificare are în vedere şi complexitatea imaginilor; o dată cu numărul clasei scade complexitatea imaginii şi, implicit scade şi volumul de date necesar stocării lor. • o imagine de clasa 1 poate fi o imaginea unui obiect oarecare (fotografie). -Aceasta în urma unei operaţii de binarizare (ce va fi descrisă ulterior) va rezulta o imagine de clasă 2.
• •
Prin aplicarea unor algoritimi de extragere de contur sau a unor operatori morfologici (dilatare, eroziune) se obţine o imagine de clasă 3. În final, prin extragerea punctelor critice, a zonelor de interes se va forma o imagine din ultima clasă - 4.
Prelucrări grafice • În continuare, prin prelucrări grafice ne vom referi la operaţiile de preprocesare ce se efectuează asupra imaginilor achiziţionate. • Aceste operaţii au rolul de a elimina zgomotele sau informaţiile inutile din imagine sau sunt operaţii de restaurare. • Astfel de prelucrări sunt necesare pentru a îmbunătăţi atât timpii de execuţie cât şi rezultatele diverşilor algoritmi (clasificare, recunoaştere forme, recunoaştere feţe umane etc.). • Filtrare • Segmentarea imaginilor • Detecţia contururilor Filtrare • Operaţia de filtrare este utilizată pentru eliminarea zgomotelor şi la evidenţierea muchiilor. • În general se folosesc următoarele trei tipuri de filtre: - filtru trece-jos . utilizat pentru eliminarea zgomotelor; spectrul imaginii este uniformizat; - filtru trece-bandă . folosit de obieci pentru prelucrarea imaginilor provenite din teledetecţie (imagini preluate din satelit, avion etc); - filtru trece-sus . este utilizat pentru evidenţierea contururilor datorită comportării de derivator. În figura de mai jos este prezentată o imagine şi rezultatul trecerii prin filtre spaţiale: filtru trece-sus (b), filtrul trece-jos (c) şi filtrul trece-bandă (d).
• •
Segmentarea imaginilor Un obiect se define¸ste ca o entitate caracterizat˘a de un set de parametri ale căror valori nu se modifică în diferitele puncte ce aparțin entității considerate. Unul dintre cei mai simpli parametri de definiție este nivelul de gri al pixelului O metodă de extragere a caracteristicilor din imagini se bazează pe determinarea zonelor din imagine care conțin pixeli cu caracteristici similare de stralucire, culoare sau textura Segmentarea este un proces de partiţionare a imaginii digitizate în submultimi, prin atribuirea pixelilor individuali la aceste submulţimi (denumite şi clase), rezultând obiecte distincte din scenă. Algoritmii de segmentare au la bază, în general 2 principii: discontinuitate, având ca principală metodă detecţia conturului; similitudine, cu metoda pragului şi metoda regiunilor.
Clasificare metode de segmentare Metodele de segmentare se impart in urmatoarele categorii: 1. Segmentarea prin divizare („ splitting ” ) • Se pleaca de la o zona mare, de exemplu intreaga imagine care se sparge in mai multe regiuni. Daca regiunile obtinute nu sunt omogene, se continua spargerea pana cand se obtin regiuni omogene (care satisfac un anumit criteriu de omogenitate). 2. Segmentarea prin divizare si unificare („ split & merge ”) • Se pleaca de la regiuni de marime medie, de exemplu patrate de marime fixa, se unifica regiunile similare si apoi se divizeaza regiunile care nu au fost unificate (nesatisfacând criteriul de unificare). 3. Segmentarea prin extindere („merging”) • Pornind de la o regiune mica, de exemplu de un pixel, se dezvolta regiunea treptat, pana cand criteriul de extindere nu mai este satisfacut. 4. Segmentarea prin extindere si unificare • O imagine segmentata contine mai multe regiuni, pixelii fiecarei regiuni avand aceeasi intensitate, culoare sau textura. Segmentarea prin divizare („ splitting ” ) • Se porneste de la premisa ca intreaga imagine este omogena. Daca nu este adevarat, atunci imaginea este divizata in patru regiuni. Procedura de divizare este aplicata recursiv pana cand se obtin numai regiuni omogene. • Algoritmul de segmentare prin divizare recursiva produce o imagine segmentată care poate fi reprezentată printr-un arbore cuadric • Fiecare nod are patru fii, corespunzatori celor patru regiuni in care se face divizarea de fiecare data. Este suficient sa se memoreze in fiecare nod al arborelui intensitatea care a fost atribuita pixelilor regiunii corespunzatoare nodului
Segmentarea prin divizare si unificare („split & merge”) • Algoritmul „split & merge” este o procedura iterativa care include in fiecare iteratie divizare si unificare : - daca o regiune este neomogena (P(R) = FALSE ), ea este sparta in 4 regiuni. - daca doua regiuni adiacente Ri, Rj sunt similare (P(Ri U Rj) = TRUE ), ele sunt unificate. • algoritmul se termina atunci cand nu mai este posibila nici spargere, nici unificare. • Algoritmul este recursiv: - daca regiunea curenta nu este omogena, ea este divizata in 4 si procedura este apelata recursiv. - daca regiunea este omogena, se calculeaza media sa si se compara cu mediile regiunilor vecine. Se verifica posibilele unificari. - daca mai multe unificari sunt posibile, se alege cea mai buna, adica unificarea cu regiunea vecina care are valoarea medie cea mai apropiata de valoarea medie a regiunii curente. • Avantaj: Algoritmul produce regiuni mai compacte decat cel prezentat anterior (bazat numai pe divizare). Dezavantaj : Algoritmul nu produce o reprezentare prin arbore cuadric. Metoda pragului • Pentru multe aplicaţii, datorită diferenţelor semnificative între nivelele de gri ale pixelilor aferenţi obiectului şi respectiv fondului, criteriul de segmentare care poate fi folosit este valoarea nivelului de gri. • Metoda care se utilizează în acest caz, foarte rapidă, este denumită segmentare cu prag şi ea implementează o transformare punctuală simpla. • Pixelul din punctul de coordonate (i,j) este etichetat ca fiind pixel obiect dacă valoarea sa f(i,j) este mai mare decât un prag. • Obţinerea unor bune rezultate cu acesta metodă depinde de modalitatea de alegere a pragului, care poate fi o valoare pentru o imagine data sau o funcţie netedă dependentă de poziţia pixelului curent. Segmentarea prin extindere (merging) • Plecând de la pixelii germen se formează în jurul lor regiuni adăugând iterativ pixelii vecini care satisfac criteriul de similaritate. Segmentarea prin extindere se bazează pe : • O regulă care descrie mecanismul de extindere • O regulă de verificare a omogenităţii regiunilor după fiecare pas de extindere Mecanismul de extindere: in fiecare pas K: Pentru fiecare regiune Ri(k) unde i = 1, ... N • Se verifică dacă există pixeli neclasificaţi în vecinătatea de 8 pixeli a fiecărui pixel de pe frontiera regiunii. • Un pixel vecin, X, este adăugat la regiune dacă P (Ri(k) U X = TRUE), unde P este criteriul de similaritate; de exemplu, P = I intensitate pixel – intensitate medie regiune I < T , unde T este un prag dat Algoritmul se termină atunci când într-o iteraţie numărul de pixeli clasificaţi nu s-a modificat (nici o regiune nu s-a mai putut extinde). Unificarea regiunilor • In urma segmentării prin extindere („creşterea” regiunilor) pot rezulta regiuni adiacente cu proprietăţi statistice similare. Ele pot fi reunite printr-un algoritm de unificare („merging”).
Histograma • Histograma unei imagini este o funcţie care indică câţi pixeli au un anume nivel de gri. • De obicei, numărul de nivele de gri este 255 (un pixel este reprezentat pe 1 byte). f(g) = p, unde: g = nivel de gri, g între 0 şi 255; p = numărul de pixeli ce au valoarea g. Histograma = reprezentare a distribuției de culori/nuanțe de gri dintr-o imagine digitală • Axa orizontală – nuanțe de culoare / intensitate • Axa verticală – număr de pixeli cu acele nuanțe Matlab: imhist(I)
Egalizarea de histogramă
• Găsirea unei transformări g= T(f) care aplicată fiecărui pixel al imaginii originale f[x,y] să producă o imagine g[x,y] cu o distribuție uniformă a nivelurilor de gri Datorită iluminării slabe, neuniforme, sau situată la valori în jurul pragului de sensibilitate a senzorului CCD, pot rezulta imagini cu contrast scăzut, imagini pentru care pixelii nu iau valori în întreaga gamă de nivele de gri. Pentru a corecta aceste defecte se folosesc de regulă: egalizarea histogramei sau extinderea liniară la întreaga gama de nivele de gri. Prin aceste operaţii, unui pixel din noua imagine i se atribuie o valoare de gri calculată pe baza unei funcţii (liniare sau exponenţiale), funcţii ce se determină pe baza imaginii iniţiale.
Imagine de contrast mic
Imagine de contrast mare (egalizare de histogramă) segmentare cu prag a imaginii iniţiale • La o analiză a histogramei diverselor tipuri de imagini, se constată că, de obieci, o imagine are mai multe nivele de gri şi prezintă două maxime locale. • Folosind aceasta caracteristică se poate face o segmentare cu prag a imaginii iniţiale, alegând pragul ca fiind, de regulă, minimul local dintre cele două puncte de maxim. • Astfel, pixelii cu nivel de gri mai mic decât pragul ales pot fi consideraţi ca fiind, de exemplu, fundal şi li se atribuie valoarea corespunzătoare negrului, iar cei pentru care nivelul de gri este mai mare decât pragul sunt pixelii obiectului Tehnici de detecţie de contur • Una dintre cele mai folosite operaţii în domeniul analizei imaginilor şi în acelaşi timp una dintre problemele fundamentale în acest domeniu este detecţia de contur. • Un contur sau o muchie, reprezintă limita dintre obiect şi fundal, aşadar cunoaşterea acestuia este folositoare pentru următoarele etape de analiză a imaginii: • segmentare,
• registrare şi • identificarea obiectelor . Din punct de vedere ştiinţific, un contur este definit ca fiind totalitatea pixelilor în care există discontinuităţi abrupte de nivele de gri. Un operator de contur este un operator matematic, cu extindere spaţială mică, construit pentru a determina existenţa unui contur local în funcţia imagine. Exista multe tipuri de operatori de contur, principiul care-i uneşte fiind faptul că ei determină modulul şi uneori direcţia schimbării intensităţii nivelului de gri într-o imagine digitală. Modulul furnizat de aceşti operatori caracterizează severitatea schimbării nivelului de gri de la o vecinatate la alta a imaginii. Cei mai simpli şi cei mai rapizi asemenea operatori de detecţie a conturului se bazează pe utilizarea măştilor de convoluţie spaţială care baleiază întreaga imagine pixel cu pixel, calculând o imagine proporţională cu discontinuitatea existentă în porţiunea de imagine corespunzătoare poziţiei curente a măştii. O să prezint principalele metode de detecţie a conturului utilizate în acest moment. Dată fiind importanţa problemei în domeniul procesării imagistice, de-a lungul timpului s-au dezvoltat mai multe tehnici. Acestea au un comportament relativ apropiat în conditii de zgomot, dar în situaţii practice, unele se pot arăta mai avantajoase decât celelalte. Există mai mulţi operatori pentru extragerea conturului. Ca referinţă în multe cărţi de specialitate sunt prezentaţi trei operatori clasici: Sobel, Kirsch şi Pseudo-Laplace. Aceşti operatori sunt de tipul fereastră glisantă. Extragerea conturului prin aceşti operatori constă într-o succesiune de convoluţii dintre imaginea iniţială şi nucleul (masca) operatorului. Opţional, pentru fiecare operator, la finalul convoluţiilor se poate face o segmentare cu prag pentru a obţine o imagine binară a hărţii muchiilor. Pentru o imagine continuă f(x,y), derivata sa presupune un maxim local în direcţia muchiei. Aşadar, o metodă de detecţie a muchiei este măsurarea gradientului lui f de-a lungul lui r în direcţia lui :
Gradientul lui f(x,y) de-a lungul direcţiei r
Operatorul Sobel • Pentru operatorul Sobel prima convoluţie se realizează cu masca:
iar pentru a doua convoluţie nucleul este rotit cu 90o. • Rezultatul operatorului Sobel este suma sau maximul dintre cele două convoluţii. • Primul nucleu este folosit pentru muchiile orizontale, iar al doilea pentru cele verticale; • fiecare mască corespunde unei derivări pe o direcţie perpendiculară pe direcţia muchiei. În acelaşi timp, operatorul Sobel are şi un efect de reducere (într-o anumită măsură) a zgomotului Operatorui Kirsch Aplicarea operatorului Kirsch constă într-o succesiune de opt convoluţii, din care prima se realizează cu următoare mască:
Pentru celelalte şapte convoluţii masca este rotită cu 45 o. Fiecare convoluţie poate fi văzută ca o reprezentare a modelului unui contur ideal pe unde din cele opt direcții de bază. (vecinătate de 8 într-o matrice patratică). În acelaşi timp se face şi o oarecare reducere a zgomotului pe fiecare direcţie. Operatotul Pseudo-Laplace • Al treilea operator se bazează pe valoarea absolută a Laplace-ianului imaginii, însă este sensibil la zgomot. În general acesta nu este folosit, ci este prezentat în literatura de specialitate doar ca referinţă. • Detecţia muchiilor se poate face şi folosind o filtrarea gaussiană. Operatorul constă în combinarea a derivatei a doua bidimensională a imaginii şi o filtrare pentru reducerea zgomotului folosind un filtru Gaussian trece-jos. • Pixelii corespunzători contururilor sunt detectaţi la trecerile prin zero din rezultatul convoluţiei finale. • Alţi operatori utilizaţi pentru extragerea/detecţia muchiilor mai sunt Deriche şi Canny.
Algoritm de urmărire a conturului Algoritmul de urmărire a conturului este folosit pentru extragerea conturului obiectelor dintr-o imagine. La aplicarea acestui algoritm presupunem că imaginea este binară sau că obiectele din imagine au fost etichetate în prealabil. Paşii algoritmului: 1. Se scanează imaginea din colŃul stânga sus până când se găseşte un pixel care aparŃine unei regiuni; acest pixel P0 reprezintă pixelul de start al conturului regiunii. Se defineşte o variabilă dir în care se reține direcția mutării anterioare dea lungul conturului de la elementul anterior spre elementul curent. Se inițializează: (a) dir = 0 dacă conturul este detectat folosind vecinătate de 4 (Fig. 6.1a) (b) dir = 7 dacă conturul este detectat folosind vecinătate de 8 (Fig. 6.1b)
Fig. 6.1(a) Reprezentarea direcŃiei, vecinătate de 4, (b) vecinătate de 8, (c) secvenŃa de căutare în cazul vecinătăŃii de 4 pixeli, (d),(e) secvenŃa de căutare în cazul vecinătăŃii de 8 pixeli, (f) urmărirea conturului pentru vecinătate de 8 (liniile întrerupte arată pixelii care au fost testaŃi în timpul algoritmului de urmărire a conturului). 2. Se parcurge vecinătatea de 3x3 a pixelului curent în sens invers acelor de ceasornic, începând cu pixelul corespunzător poziției: (a) (dir + 3) mod 4 (Fig. 6.1c) (b) (dir + 7) mod 8 dacă dir este par (Fig. 6.1d) (dir + 6) mod 8 dacă dir este impar (Fig. 6.1e) Primul pixel găsit care are aceeaşi valoare ca şi pixelul curent este noul element Pn al conturului. Se actualizează valoarea lui dir. 3. Dacă elementul curent P n al conturului este egal cu al doilea element P1 din contur şi dacă elementul anterior Pn-1 este egal cu primul element P0, atunci algoritmul se încheie. Altfel se repetă pasul (2). 4. Conturul detectat este reprezentat de pixelii P0 … Pn-2. Unele Observații: • Algoritmul funcŃionează pentru toate regiunile care au suprafaŃa mai mare de un pixel. • Determinarea conturului unei regiuni formate dintr-un pixel este o problemă trivială. • Algoritmul descris mai sus determină conturul exterior al regiunilor dar nu găseşte
conturul găurilor din interiorul regiunilor. • Pentru a determina şi conturul găurilor care apar într-un obiect, conturul trebuie urmărit începând cu fiecare regiune sau element din conturul unei găuri dacă acest element nu face parte dintr-un contur parcurs deja. • Dacă obiectele au lăŃimea egală cu un pixel trebuie adăugate condiŃii suplimentare. • Extragerea codurilor înlănțuite Codul înlănțuit reprezintă o modalitate eficientă de reprezentare a conturului unui obiect dintr-o imagine alb negru. • Codul înlănțuit încorporează informații despre lungimea conturului obiectului, despre aria sa şi despre unele momente. Codurile înlănțuite sunt folosite la calcularea unor parametri pentru diferite tipuri de curbe. • Codurile înlănțuite sunt reversibile, adică conturul unui obiect poate fi reconstruit având la dispoziție codul înlănțuit. • Ideea de bază la reprezentarea codului înlănțuit este că fiecare pixel de pe conturul unui obiect are un vecin adiacent care face parte din contur şi direcția de trecere de la un pixel dat de pe contur la acest vecin poate fi specificată printr-un număr unic ce ia valori între 0 şi 7 (vecinătate de 8). Codurile înlănțuite pot fi definite şi folosind o vecinătate de 4. Un exemplu este dat în Fig. 6.4. În explicațiile care urmează vom folosi doar vecinătatea de 8 pixeli. Fiind dat un pixel, se consideră cei 8 vecini ai săi. Fiecăruia dintre ei i se poate asocia un număr de la 0 la 7 care reprezintă una din cele 8 direcții posibile de trecere de la pixelul curent la unul din vecini (vezi Fig. ). Această orientare se păstrează pentru toată imaginea.
Fig. Vecinătatea de 8 şi cele 8 direcŃii asociate •
Codul înlănțuit al conturului unei imagini binare este o secvenŃa de numere întregi c={c0, c1, … , cn-1}, cu ci aparținând mulțimii {0,1, … ,7} pentru i=0, 1, … , n-1. Numărul de elemente din mulțimea c reprezintă lungimea codului înlănțuit. Elementul c0 este punctul inițial si cn-1 este punctul final al codului. Pornind de la un punct de referință, conturul unui obiect dintr-o imagine alb negru poate fi urmărit parcurgând codul înlănțuit. Fig. 6.3 ilustrează procesul de urmărire a conturului unui triunghi folosind vectorii de direcție.
Să presupunem că alegem pixelul cel mai de sus punct de referință (x=109, y=61) pentru codificarea conturului. Codul înlănțuit pentru conturul triunghiului va fi o secvența de 245 coduri: 565656565656565656565656565656565656565656565656 565656565656565656565656565656565670000000000000 000000000000000000000000000000000000000000000000 000000000000000000023232323232323232323232323232 323232323232232323232323232323232323232323232323 2 3 2 3 2.
Proprietăți ale codului înlănțuit: • Codurile înlănțuite descriu un obiect folosind o secvență de segmente de dimensiune unitate având orientări date (vecinătate de 4) • Primul element al unei astfel de secvențe trebuie să conțină informații despre poziția primului pixel pentru ca regiunea să poată fi reconstruită. • Codurile pare {0, 2, 4, 6} corespund direcțiilor verticale şi orizontale; codurile impare {1, 3, 5, 7} corespund direcțiilor diagonale. • Fiecare cod poate fi considerat ca fiind direcția unghiulară, în multipli de 45 de grade, în care trebuie să fie parcurşi pixelii succesivi ai conturului. • Coordonatele absolute ale primului pixel din contur (cel mai de sus, din stânga) împreună cu codul înlănțuit al conturului reprezintă informația completă despre conturul regiunii. • O schimbare a două elemente consecutive din codul înlănțuit marchează o schimbare în direcția conturului. Punctul în care apare aceasta schimbare se numeşte colț. Recunoaşterea formelor Problema clasificării automate a imaginilor pe baza recunoaşterii formelor din imagini este o problemă de importanţă strategică în multe domenii de mare interes. Sistematizarea metodelor şi informaţiilor care tratează acest subiect este un demers foarte dificl dar în acelaşi timp necesar.
Schema procesului de recunoaştere şi clasificare automată a imaginilor este următoarea I. Preprocesarea imaginii. Prin această etapă de preprocesare se înţelege de fapt aplicarea, unor algoritmi DIP specializaţi de îmbunătăţire a calităţii imaginii. II. Extragerea atributelor sau descriptorilor de imagine (feature extraction). Este etapa cheie, este cea care dă măsura performanţelor şi a profesionalismului aplicaţiei de recunoaştere. Alegerea unor atribute sau caracteristici cît mai potrivite este cheia succesului algoritmilor de recunoaştere. Rezultatul final al acestei etape este un vector de n atribute extrase (v1, v2, …, vn) nu neapărat numerice. III. Măsurarea atributelor sau descriptorilor (feature/pattern measurement). Această etapă este bine tratată teoretic deoarece există un aparat matematic bine pus la punct – Teoria măsurii – cu ajutorul căruia se pot introduce diferite metrici n-dimensionale sau metode discriminative eficiente. Rezultatul final al acestei etape este de obicei o valoare numerică uni- sau multi-dimensională (un vector) privită ca fiind "distanţa„ vectorului de atribute faţă de graniţele regiunilor (borders) sau faţă de "bornele" de clasificare. IV. Clasificarea imaginii (pattern classification). Este etapa finală în care se colaborează rezultatele măsurătorilor multiple anterioare (realizate cu mai multe metrici diferite). Ea stabileşte apartenenţa formei, obiectului sau imaginii descrise prin vectorul de atribute -la o clasă de imagini, pe baza unor criterii matematice sau funcţii de apartenenţă. Rezultatul final al etapei de clasificare este numărul C al clasei de apartenenţă sau direct denumirea ei. Pe baza paşilor III şi IV, literatura de specialitate grupează modelele şi metodele generale de recunoaştere şi clasificare în patru mari categorii sau strategii, denumite abordări (pattern recognition approaches): A. Recunoaşterea prin potrivirea cea mai bună (template matching approach); B. Recunoaşterea prin metode statistice (statistical approach); C. Recunoaşterea cu ajutorul reţelelor neuronale (neural networks approach); D. Recunoaşterea sintactică sau structurală (syntactic or structural approach);
Recunoaşterea formelor reprezintă o modalitate des folosită de a extrage informaţiile din imaginile achiziţionate. Este un domeniu larg, ce include: recunoaştera scrisului, recunoaşterea feţei umane, recunoaştere amprentelor etc. Recunoaşterea formelor constă într-o clasificare şi/sau o descriere a conţinutului imagini. Clasificarea constă în atribuirea unei forme necunoscute din imaginea preluată la o clasă dintr-un set predefinit de clase; • Operaţia de clasificare va produce la ieşire o nouă imagine care reprezintă o hartă a obiectelor aflate în scenă. • În noua imagine, valorile pixelilor reprezintă de fapt codurile asociate claselor corespunzătoare. • Clasificarea foloseşte metode matematice numite metode de recunoaştere teoreticdecizionale, metode ce se bazează pe elemente din teoria deciziilor statistice. Clasificatoarele se împart în două categorii: - supervizate (semiautomate) . presupun prezenţa unui operator uman la începutul procesului de clasificare care va specifica câte clase vor rezulta la finalul operaţiei, o serie de caracteristici etc.; - nesupervizate (automate) . se face o clasificare a imaginii, dar fără a şti ce reprezintă fiecare clasă. Algoritmii de clasificare se bazează în extragerea caracteristicilor (features) pe o măsură a similarităţii (o distanţă, de exemplu). Un pas important în proiectarea sistemelor de clasificare automată este selecţia caracteristicilor, deoarece componentele vectorului de caracterisitici presupune prezenţa unei cantităţie destul de mari de informaţie. Acestă selecţie este o problemă dependentă de numărul de clase şi de formele analizate. Un clasificator conţine, în general, trei module: modulul de clasificare propriu-zis,
modulul de învăţare (presupune prezenţa unui set de eşantioane/imagini de antrenare) şi modulul de selecţie şi extragere a caracteristicilor. Setul de antrenare poate conţine de exemplu o bază de date cu diferite caracteristici ale obiectelor ce pot apare în scenă (semnături spectrale de exemplu sau semnături geometrice). Învăţarea presupune existenţa acestui set de antrenare, set ce cuprinde eşantioane pentru care se ştie apartenenţa claselor; prezenţa setului de antrenare este necesară în cadrul clasificării supervizate. Structura unui sistem de prelucrare digitală şi analiza imaginilor este alcătuită din următoarele blocuri - figura 2, evidenţiate astfel: - sistemul de formare a imaginii, care captează radiaţia electromagnetică a obiectului analizat în vederea formării imaginii şi evidenţierea trăsăturilor de interes; - convertorul de radiaţie, care converteşte radiaţia electromagnetică din planul imaginii întrun semnal electric; - sistem de achiziţie, care converteşte semnalul electric al senzorului într-o imagine digitală, care se stochează, acesta fiind dispozitiv de eşantionare şi cuantizare; - sistemul de prelucrare, care este o unitate de calcul; - software-ul specializat, care implementează algoritmii de prelucrare şi analiză.
Sistem de analiză a imaginii
Exemple de aplicaţii bazate pe prelucrearea de imagine • Aplicatii ale sistemelor de analiza si interpretare a imaginilor: 1. Analiza si interpretarea imaginilor medicale, in diferite modalitati de perceptie: - domeniul vizibil (imagini microscopice); - domeniul ultrasonografic (ecografie computerizata); - domeniul razelor X; - domeniul tomografic, etc… (inclusiv analiza multimodala). Scopul: extragerea de informatii obiective din imagini medicale si corelarea lor pentru diagnosticarea pacientului si analiza evolutiei/raspunsului la tratament.
Exemple de aplicare: detectia tumorilor; evaluarea fracturilor; identificarea artritei; evaluarea bolilor cardiace, infectiilor etc.
2. Aplicații militare, prin analiza și interpretarea imaginilor preluate in: - domeniul vizibil; - domeniul infraroșu; - imagini radar și - Sonar Scopul: recunoaȘterea Și localizarea de obiective, ținte, subiecti etc., din p.d.v. al analizei și interpretării imaginilor cu recunoașterea de forme și localizarea de forme. 3. Alicații în robotica îndustrială, 4. Aplicații în criminalistică, 5. În monitorizarea mediului, etc Aplicații în criminalistică • Amprenta digitală O amprentă este un şablon de crestături pe suprafaţa degetului. Fiecare individ are o amprentă unică. Unicitatea amprentei este exclusiv determinată de caracteristica crestaturilor locale. • Figura 4 reprezinta detaliile unei amprente.
a) detalii caracterizate de poziţie şi orientare. b) detalii amprentă.
Diagrama algoritmului de îmbunatatire a imaginii unei amprente este prezentat în Figura de mai jos:
Supraveghere/monitorizare mediu:
Fig. Monitorizarea barajelor Localizare si recunoastere a indivizilor (detectie si recunoastere faciala):
BIBLIOGRAFIE [1] - GONZALEZ R., WOODS R. - Digital Image Processing, Prentice Hall, 2002, 2nd Edit. [2] – A. JAIN, R. DUIN, J. MAO – Statistical Pattern Recognition: A Review, IEEE Transactions On Pattern Analysis and Machine Intelligence, Vol. 22, No. 1, January 2000 [3] IOAN ISPAS – Algoritmi de recunoaşterea formelor şi clasificarea automată a imaginilor, Referat, Univ. Babeş-Bolyai, Facultatea de Matematică-Informatică, ClujNapoca, 2004 [4] KIAN-LEE TAN, BENG CHIN OOI, CHIA YEOW YEE - An Evaluation of Color-Spatial Retrieval Techniques for Large Image Databases, Multimedia Tools and Applications, 14, 55–78, 2001, Kluwer Academic Publishers [5] MARJO MARKKULA, EERO SORMUNEN, MARIUS TICO, BEMMU SEPPONEN AND KATJA NIRKKONEN - A Test Collection for the Evaluation of Content-Based Image Retrieval Algorithms - A User and Task-Based Approach, Information Retrieval, 4, 275–293, 2001, Kluwer Academic Publishers [6] OGE MARQUES, BORKO FURHT – MUSE: A Content-Based Image Search and Retrieval System Using Relevance Feedback, Multimedia Tools and Aplications, 17, 2150, 2002, Kluwer Academic Publishers [7] Y. ALP ASLANDOGAN, CLEMENT T. YU, RAVISHANKAR MYSORE, BO LIU - Robust content-based image indexing using contextual clues and automatic pseudofeedback, Multimedia Systems 9: 548–560 Springer-Verlag 2004 Detecţia mişcării Detecţia mişcării şi urmărirea diferitelor obiecte aflate în mişcare este o operaţie frecvent utilizată în sistemele de securitate şi supraveghere video.
Schema bloc generală a unui sistem de video supraveg Nu există în general o abordare generică, ci algoritmii sau soluţiile găsite sunt de obicei particulare problemei. În principiu, se face comparaţie/diferenţă între cadre succesive şi/sau între cadrul curent şi un cadru referinţă. Una din problemele ce apar este separarea obiectului aflat în mişcare de restul scenei denumit generic- fundal O posibilă soluţie ar fi: • calcului diferenţei între cadre; • segmentare cu prag; • filtrarea zgomotelor; • creearea unei imagini a mişcării. Există diverse abordări pentru detectarea mișcării într-un flux video continuu. Toate acestea se bazează pe compararea cadrului curent al videoclipului cu unul dintre cadrele precedente sau cu ceva pe care îl vom numi fundal. Una dintre abordările cele mai răspândite este metoda de a compara cadrul actual cu cel precedent Acest lucru este util în compresia video, când trebuie să identificăm modificările și să înregistrăm doar modificările, nu întregul cadru. Dar acest lucru nu este cel mai bun mod de a detecta mișcarea. De menționat că majoritatea camerelor fac zgomote în imagini, deci avem trafic în locuri unde nu există deloc mișcare Există o altă abordare.
Este posibilă compararea cadrului curent nu cu cadrul precedent, ci cu primul cadru al secvenței video. Astfel, în cazul în care nu există obiecte în cadrul inițial, compararea cadrului curent cu primul, ne va oferi un obiect întreg în mișcare, indiferent de viteza sa. Algoritmii cei mai eficienți se bazează pe crearea unui așa numit fundal de scenă și compararea fiecărui cadru curent cu fondul. După finalizarea procesului de umplere a cadrului cu puncte alb-negru, începe procesul de selectare a obiectelor. algoritmul combină pixelii albi într-un singur obiect și îl evidențiază pe ecran cu un dreptunghi. Eliminarea zgomotului printr-un algoritm recursiv care ia în considerare dimensiunea "locului" și dacă este mai mică decât o constantă mică (de exemplu, 15), atunci locul se marcheză în negru și, respectiv, se crede că nu există nici o mișcare acolo. Întregul algoritm se bazează pe cicluri
Cadrul 1 și Cadrul 2. Fotografiile sunt luate ca exemplu. Pe cel de-al doilea cadru, "soarele a ieșit" (luminozitate sporită), pe pereți și pe podea sunt străluciri. O fată sa așezat la masă și o umbră a căzut de la ea.
împărțim imaginea în blocuri și obținem valoarea lor medie după culoare.
Comparați tabelele culorilor rezultate (matricele) și obținem diferența de culoare pentru fiecare bloc din tabelul al treilea. Să o numim MoveMask
Filtrăm al treilea tabel de la zgomot. Se face prin selectarea "deltei". Am însemnat cu stegulețe acele blocuri în care sunt modificări ale imaginii
(1) - aplicarea "deltei" (în acest exemplu luăm 2) (2) - trecerea la mască definită
Conceptul de teledetecție Teledetecția (Remote sensing) este știința și tehnologia prin care caracteristicile obiectelor de studiat se pot identifica, masura si analiza fără contact direct, adică de la distanță. Sursa cea mai obișnuită de date în teledetecție este radiația electromagnetică reflectată sau emisă de un obiect. Interacțiile gravitaționale sau magnetice se pot de asemenea folosi in teledetectie. Orice dispozitiv folosit pentru detectarea radiației electromagnetice reflectate sau emise de un obiect se numește “tele-senzor" sau "senzor". Aparatele de fotografiat sau camerele video, scanerele, sunt exemple de tele-senzori. Termenul de “teledetecție“ a fost folosit prima dată în Statele Unite în anii 1960 și cuprindea conceptele de fotogrametrie, fotointerpretare, foto-geologie etc. Incepând cu primul satelit de observare terestră lansat in 1972, Landsat-1, teledetecția a inceput sa fie folosită pe scară din ce în ce mai largă.
Caracteristicile unui obiect pot fi determinate folosind radiația electromagnetică reflectată sau emisă de obiectul respectiv. Fiecare obiect are o caracteristică unică de reflexie sau emisie în anumite condiții date de mediu (parametri fizici) sau de poluare.
Teledetecția este tehnologia de identificare a obiectelor si de intelegere a conditiilor de mediu folosind unicitatea reflexiei si emisiei. Rezultatele teledetecției sunt folosite în agricultură, topografie, silvicultură, geologie, hidrologie, oceanografie, meteorologie, știința mediului etc. Recunoașterea facială Recunoaşterea facială este o tehnică biometrică (de aplicare a analizei statistice a datelor umane) folosită pentru identificarea unei persoane. Un sistem de recunoaştere facială se bazează pe imaginea statică a feţei unui individ (o fotografie) care nu este nimic mai mult decât un set de pixeli ordonaţi după un anumit model. Sistemul de recunoaştere facială nu percepe chipul unui individ așa cum percep oamenii, ci îl percepe ca pe o mulţime de pixeli alăturaţi. Esenţială în procesul de recunoaştere facială este abilitatea sistemului de localizare a feţei individului şi nu a imaginilor de fond.
Ce reprezintă o faţă? Dacă transformăm o imagine de dimensiuni NxN pixeli într-un vector de dimensiune , acesta poate fi privit ca un punct într-un spaţiu - dimensional. Imaginile feţe umane ocupă doar un mic subspaţiu al acestui spaţiu multidimensional, cu caracteristici specifice. Se poate arăta că modificările obişnuite precum translaţia, rotaţia, sau schimbarea nivelului de iluminare, atunci când au amplitudine mică, definesc simple subregiuni compacte din “subspaţiul feţelor”. Pentru transformări mai generale – rotaţii mari, acoperire parţială, schimbări de scală – subregiunile feţei devin non-convexe. Înainte de procesul propriu-zis de recunoaştere este necesară crearea unei galerii de imagini. Din perspectiva sistemului de recunoaştere facială, galeria este un set de modele biometrice care serveşte drept referinţă în procesul de comparare. Crearea galeriei de imagini presupune următoarele etape: • captarea imaginii, • detectarea feţei, • standardizarea, • extragerea trăsăturilor şi • crearea şablonului pentru fiecare imagine. Etapele procesului de recunoaştere facială sunt următoarele: 1. Captarea imaginii 2. Identificarea feţei 3. Extragere trăsături, pentru a genera un model 4. Compararea modelelor 5. Declararea identităţii 1. Captarea imaginii se realizează de obicei cu o cameră foto sau video, având în vedere că o înregistrare video este nimic mai mult decât o succesiune de imagini statice. 2. Procesul începe odată cu identificarea feţei din întreaga imagine care de obicei conţine o imagine de fond şi, uneori, chiar alte feţe. Dacă unei fiinţe umane îi este foarte uşor să distingă care este faţa unui individ într-o fotografie, procesorul trebuie să decidă care sunt pixelii aparţinând feţei şi care nu. Sistemul de recunoaştere facială va standardiza - pe cât posibil - imaginea, astfel încât să aibă aceleaşi dimensiuni, rotaţie, luminozitate cu imaginile conţinute în galeria de imagini. Imaginea astfel standardizată este preluată de sistemul de recunoaştere facială. 3.În procesul de extragere a trăsăturilor este generată o reprezentare matematică, numită model sau referinţă biometrică, care va fi salvată în baza de date, constituind fundamentul recunoaşterii. Modelul biometric nu este altceva decât un algoritm de recunoaştere facială care transformă imaginea feţei (reprezentată prin pixeli) într-o reprezentare matematică simplificată.
Există 2 abordări majore pentru a obţine informaţia caracteristică unei feţe, cu avantaje şi dezavantaje specifice, ce pot fi folosite pentru extragerea “semnăturilor” de interes atât pentru aplicaţii de recunoaştere cât şi pentru cele de verificare, diferenţe apărând datorită tipului de clasificator utilizat: a) algoritmi bazaţi pe analiza statistică a imaginilor disponibile, al căror scop constă în identificarea unei baze reprezentative în raport cu care să poată fi exprimată orice imagine sub forma unei combinaţii liniare de vectori ai bazei. Din această categorie fac parte metode precum: Analiza pe Componente Principale (PCA), - Analiza Discriminatorie Liniară (LDA) şi - Analiza pe Componente Independente (ICA). b) algoritmi bazaţi pe măsurarea unor trăsături geometrice referitoare la distanţe între puncte semnificative de pe suprafaţa feţei. Ca exemple putem enumera metodele: - Elastic Bunch Graph Matching şi - Local Feature Analysis . cs.etc.tuiasi.ro/iciocoiu/courses/ESL/homeworks/hw2/Capitolul1.pdf
La baza algoritmilor de recunoaştere facială stau geometria şi fotometria (măsurarea intensităţii surselor de lumină).
Primii algoritmi folosiţi în recunoaşterea facială se bazau doar pe geometrie, identificând numai relaţiile dintre trăsăturile principale (poziţionarea ochilor, a nasului şi a gurii). Această metodă era dependentă de detectarea trăsăturilor care putea fi foarte dificilă din cauza variaţiilor de luminozitate prezente în imagine şi în special a umbrelor. Unul dintre cei mai uzitaţi algoritmi este Principal Component Analysis (PCA). Tehnica PCA converteşte fiecare imagine bidimensională într-un vector unidimensional şi selectează caracteristicile care diferă cel mai mult de restul imaginii. În urma extragerii trăsăturilor este generat un model unic corespunzător fiecărei imagini, iar acestui model îi este asociat un scor. 4. Următoarea etapă este cea de comparare a modelului generat la pasul anterior cu modelele feţelor deja cunoscute din galeria de imagini. Aplicaţia de identificare compară scorul obţinut pentru imaginea studiată şi cele ale imaginilor din galerie. 5. Ultimul pas determină dacă apropierea dintre două scoruri este suficient de mare astfel încât să constate potrivirea celor două imagini. Declararea identificării este adesea stabilită de factorul uman. Exemple utilizare tehnologiei de recunoaștere facială Unde sunt folosite sistemele de recunoaştere facială? Recunoaşterea facială este folosită în primul rând de sistemele de securitate pentru verificarea identităţii unei persoane, alături de alte tehnici biometrice de identificare. În Mexic, în timpul alegerilor electorale din 2002, guvernul a folosit un software de recunoaştere facială pentru a preveni frauda. Pe viitor, tehnica ar putea fi folosită şi ca o măsură de securitate la ATM-uri. În loc să fie folosit cardul bancar şi PIN-ul, ATM-ul ar putea să capteze imaginea feţei individului şi să o compare cu fotografia stocată în baza de date a băncii care confirmă identitatea clientului. Folosind acelaşi principiu, metoda ar putea fi folosită şi de computere prin captarea imaginii feţei cu ajutorul unei camere web, imaginea astfel obţinută putând înlocui parola de log-in. Biometric technologies are constantly evolving as we seek out newer and better ways to secure our digital world. We’ve seen a few interesting highlights from the past seven days that can help keep you up to speed. 1.) HSBC Introduces Facial Recognition to Mobile Banking App in China Facial recognition continues to gain momentum with the news that HSBC has launched facial recognition abilities in their mobile banking app for the Chinese market. A recent study by HSBC found that almost half of Chinese respondents were receptive to facial recognition, a significant 16% above the global average. B-Secur Insight: “HSBC has done their homework with market research so this sounds like a smart move. It will be interesting to see whether this will push adoption rates globally.” 2) Authentication: Security vs Usability vs Consumer Attitude A new feature on CSO Online takes an in-depth look at what it describes as the ‘tripartite of consumer authentication’. It describes the thorny issue of authentication as being built upon three main points: • Security • Usability • Consumer attitude B-Secur Insight: “This is a great framework from which to examine the question of authentication. We’d like to think that ECG authentication could offer great strides in security and usability, but the issue of consumer trust around the collection of biometric data is always a sensitive one.” 3) Hamad International Airport to Trial Biometric Passenger Processing
Biometric air travel is a growing market, so it wasn’t a surprise to learn this week that an airport in Qatar is to trial biometric passenger screening and processing. The trial will be conducted in by Hamar International Airport in partnership with SITA, the world’s leading specialist in air transport communications and information technology, and will use biometric sensors to bolster security and deliver a seamless end-to-end journey through the airport. B-Secur Insight: With concerns around physical safety making the news headlines, it’s only a matter of time before biometric technologies are widely adopted across these types of public spaces. 4) Yahoo Cyber Hack Bigger Than We Thought We learned more details about Yahoo’s 2013 data breach this week, with the rather alarming news that three billion accounts were affected at the time – its entire database. The compromised information includes usernames, telephone numbers and dates of birth. B-Secur Insight: “It’s not only the scale of this breach which makes it so concerning but the fact that Yahoo needed an external forensic partner to help identify the size of the problem. Biometric authentication could be an important way to protect critical systems and services.” 5) Facebook Tests Biometric Account Recovery Feature Facebook has confirmed it is testing facial recognition as an account recovery option – a surprising move given the legal trouble Facebook previously found itself using facial recognition. Facebook described the move as “another step, alongside two-factor authentication via SMS, that were taking to make sure account owners can confirm their identity.” B-Secur Insight: “This is really no surprise, given that Facebook has experimented with facial recognition in the past. Two factor authentication is a powerful security model and facial recognition is growing in popularity, so this seems a natural development – the real challenge is will users trust Facebook with their biometric data?” Sistemul Informațional de Recunoaștere Facială Întreprinderea de Stat „Centrul Resurselor Informaționale de Stat „Registru” (ÎS „CRIS „Registru”) este una dintre întreprinderile subordonate Ministerului Tehnologiei Informaţiei şi Comunicaţiilor, ce realizează proiecte de integrare şi formare a resurselor informaţionale de stat. ÎS „CRIS „Registru” este unul dintre principalii furnizori de produse și servicii informaționale de pe piața tehnologiilor informaționale din Republica Moldova, datorită drepturilor exclusive de a oferi anumite servicii informaționale şi de dezvoltare a produselor de importanță națională. ÎS „CRIS „Registru” este posesoarea principalelor resurse informaționale de stat, cum ar fi Registrul de Stat al Populației, Registrul de Stat al Unităților de Drept, Sistemul Informațional Național Geografic, Registrul de Stat al Transportului și Registrul de Stat al Conducătorilor Auto. Începând cu august 2017, instituția a fost reogranizată în I.P. Agenția Servicii Publice. • Situația Inițială În anul 2016, ÎS „CRIS „Registru” a lansat achiziția unui Sistem de Recunoaștere Facială pentru îndeplinirea obiectivelor asumate în cadrul Planului de Acțiune privind Liberalizarea Regimului de Vize. Obiectivul de bază pentru implementarea acestui sistem a fost de a contribui la îmbunătățirea mobilității populației Republicii Moldova, păstrând în același timp ordinea și securitatea publică. În cadrul proiectului au fost implementate două componente: Sistemul de Recunoaștere Facială (SRF) în cadrul ÎS „CRIS „Registru” și Sistemul de Inspecție la Frontieră cu utilizarea componentei de recunoaștere facială (SIF).
Soluția a fost construită în baza tehnologiei produse de compania COGNITEC, care este una din cele mai performante aplicații de recunoaștere facială, fapt dovedit de performanțele certificate de NIST (National Institute of Standards and Technology). Sistemul de Recunoaștere Facială asigură următoarele funcții: Introducerea de noi portrete în baza de date (imagine-cu-imagine sau prin procesare multiplă) Căutarea duplicatelor în baza de date cu imagini prin analiză facială • Identificarea unui portret prin comparație 1:1 sau 1:n cu imaginile stocate în baza de date • Una sau mai multe imagini pot fi alocate fiecărui caz – sistemul este mai bine antrenat dacă i se prezintă mai multe imagini ale aceleiași persoane • Informațiile despre imagine facială, poziția ochilor, data creării, sursa/originea imaginii și calitatea fotografierii sunt stocate. Aceste informații reprezintă indicatori și vectori ce sunt înregistrați pentru semnătura biometrică a persoanei; • Arhitectura sistemului este una de tip client-server, sub forma unui cluster, pentru a permite scalabilitate, performanță înaltă și disponibilitate chiar și în cazul manipulării unor baze de date cu un număr impresionant de imagini/fotografii (până la 20 milioane). Sistemul a fost instalat pe infrastructură hardware produsă de Hewlett Packard Enterprise. Sistemul de Inspecție la Frontieră are următoarele funcții: • Captarea imaginii foto a persoanei fizice în conformitate cu standardele internaționale • Prelevarea datelor biometrice (foto) din documentul de călătorie biometric (eMRTD) • Prelevarea fotografiei din zona mecanolizibilă a documentului de călătorie • Scanarea și depozitarea imaginii grafice a filei cu date personale din documentul de călătorie • Compararea (verificarea 1:1) locală a două imagini – o imagine captată de la persoană și a doua imagine prelevată din documentul de călătorie biometric • Interconectarea cu sistemul SRF din cadrul ÎS „CRIS „Registru” pentru compararea (verificarea 1:1) a două imagini și compararea (verificarea 1:N) a unei imagini • Asigurarea unui mecanism de actualizare a filtrelor de control (black list) Poliţia chineză feroviară a început să folosească ochelari de soare dotaţi cu o tehnologie specială pentru recunoaşterea facială în scopul de a identifica infractori. Utilizarea acestui echipament a dat deja primele rezultate. Poliţiştii din gara din Zhengzhou, capitala provinciei Henan, au arestat şapte suspecţi în diverse cazuri, inclusiv cazuri privind traficul de persoane, potrivit Business Insider. Totodată, 26 de persoane care aveau asupra lor acte false au fost împiedicate să călătorească. Ochelarii, care seamănă cu cei Google Glass, au fost prezentaţi la începutul acestui an. Ei sunt conectaţi la o bază de date care poate compara feţele călătorilor cu cele ale suspecţilor. Deşi nu este clar cât de mult durează o astfel de verificare, un reprezentat al companiei care a pus la punct echipamentul – LLVision Technology – a declarat pentru „The Wall Street Journal“ că, în timpul testelor, sistemul a permis identificarea unor feţe dintr-o bază de date de 10.000 de persoane în 100 de milisecunde.
Magazinele deja testeaza tehnologia de recunoastere faciala, folosita pentru a identifica personalitatile care trec pragul comerciantilor. Tehnologia functioneaza prin analizarea unor imagini video, din care sunt extrase doar fetele oamenilor. Programul apoi face niște măsuratori pentru a crea un cod numeric, cunoscut sub numele de „șablon facial", si il trec printr-o bază de date, care cuprinde fețele celebrităților sau ale clienților valoroși, Dacă o față este găsită în baza de date, programul trimite un mesaj de alertă angajaților magazinului prin Computer, iPad sau Smartphone, furnizându-le detalii precum mărimea hainelor, cumpărăturile favorite sau istoricul achizițiilor
Tipuri de Imagini • In orice prezentare multimedia, elementul imagine este aproape nelipsit, întrucât impactul vizual este foarte puternic pentru om. • După cum se ştie, calitatea imaginilor, la vizualizare pe ecran, este condiţionată de rezoluţia de afişare şi de capacităţile grafice ale calculatorului şi monitorului. • Problemele caracteristice acestui element al multimediei sunt deja cunoscute din alte domenii, unde el deţine un rol primordial, ca de exemplu în proiectarea asistată de calculator, CAD. în producţiile multimedia el poate fi implicat atât sub forma sa matriceală, cât şi sub formă vectorială. Imaginea bitmap • Toate imaginile în format electronic se impart în două tipuri de bază şi anume: imagini raster (cunoscute si sub numele de "bitmap") - realizate cu ajutorul unor programe de tipul Corel PhotoPaint ori Adobe PhotoShop, si imagini vectoriale realizate cu programe cum ar fi CorelDraw sau Adobe Illustrator. • imaginile raster sunt formate din puncte legate intre ele sub forma unei hărţi de puncte (pixeli), • în timp ce imaginile vectoriale sunt compuse din linii interconectate. Cuvantul " vector " este sinonim cu linie. Imaginile vectoriale pot fi obţinute si printro conversie dintr-o imagine raster, conversie realizata cu programe cum ar fi CorelTrace sau EuroVector. Imagine raster O imagine raster este in general definita ca o matrice de valori cunoscute sub numele de pixeli. Fiecare pixel (picture element) este un mic patrat colorat. Acestuia ii este asociata una sau mai multe cifre, care definesc culoarea pe care el trebuie sa o afiseze. In cea mai simpla forma de descriere a unei imagini, fiecare pixel este definit prin trei grupe de cate 8 biti (24 de biti in total), cu valori intre 0 si 255, definind cantitatea de roşu, verde şi albastru care se combină pentru a obţine o anumită culoare. In proporţiile corecte roşu, verde şi albastru pot fi combinate pentru a forma negru, alb, 254 de tonuri de gri şi o mare varietate de culori (16,777,216 în total). Un procesor de imagini raster ( Raster Image Processor - RIP ) resprezintă o componentă hardware sau software folosită într-un sistem de printare pentru producerea de imagini bitmap. El converteşte informaţii vectoriale digitale cum ar fi fişierele PostScript în imagini raster de rezolutţe mare. RIP este de asemenea folosit pentru a mări imaginile ce urmează a fi printate. Formate uzuale de imagini raster sunt: BMP (Windows Bitmap), PCX (Paintbrush), TIFF (Tag Interleave Format), JPEG (Joint Photographics Expert Group), GIF (Graphics Interchange Format) , PNG (Portable Network Graphic), PSD (Adobe PhotoShop) and CPT (Corel PhotoPAINT). Imaginile vectoriale Imaginile vectoriale reprezinta colectii de linii si curbe conectate intre ele. La creearea unei imagini într-un program de grafică vectorială, în pagina se inserează noduri conectate intre ele prin linii sau curbe. Fiecare nod, linie sau curbă e definită în desen prin coordonate matematice, care implică poziţia nodului, grosimea liniei etc.
•
Imaginile vectoriale sunt orientate obiect, ţn timp ce imaginile raster sunt orientate pixel. In obiectele vector culorile sunt precum hainele ce acoperă o structură scheletică. • Imaginile vectoriale sunt definite matematic şi nu ca o hartă de pixeli. Ele pot fi mărite şi micşorate fără pierderi de calitate. • Programul recalculeaza funcţia matematică asociată obiectului modificandu-i dimensiunile fără pierderi. Spre deosebire de imaginile raster, calitatea nu este limitată de numarul de puncte pe inch (dots per inch) sau de rezoluţia scanării, motiv pentru care imaginile vectoriale sunt ideale în activitatea de printare. • Intre avantajele acestora se numara faptul ca sunt independente din punct de vedere al rezoluţiei şi pot fi folosite în desene care necesită linii curbe netede. • Mărimea unor astfel de fişiere este redusă. Dezavantajul major este dat de faptul că nu pot reda detaliile subtile de culoare utilizate în imaginile fotografice. • Majoritatea fotografiilor nu pot fi descrise matematic, pentru afişarea anumitor tonuri intermediare fiind nevoie de imagini raster. Cele mai cunoscute formate sunt: EPS (Encapsulated PostScript), WMF (Windows Metafile), AI (Adobe Illustrator), CDR (CorelDraw), DXF (AutoCAD), SVG (Scalable Vector Graphics) and PLT (Hewlett Packard Graphics Language Plot File). Formate de Imagini vectoriale Cele mai cunoscute formate sunt: EPS (Encapsulated PostScript), WMF (Windows Metafile), AI (Adobe Illustrator), CDR (CorelDraw), DXF (AutoCAD), SVG (Scalable Vector Graphics) and PLT (Hewlett Packard Graphics Language Plot File). Animaţia Pentru prima dată dinamismul la nivel vizual a fost redat prin intermediul sistemelor de calcul sub formă de animaţie. Dezvoltarea tehnologică este factorul cel mai important care a permis utilizarea componentei video la scara largă. Această componenetă este cel mai spectaculos element al tipului media. Atât animaţia cât şi video digital, crează impresia de mişcare printr-o succesiune de imagini fixe derulate la o anumită viteză. Această viteză trebuie să fie suficient de mare atunci când mişcarea este realizată pe ecranul calculatorului. Exploatând un fenomen biologic cunoscut sub denumirea de "persistenţa viziunii", prin care un obiect văzut de ochiul uman rămâne lipit pe retină pentru încă un timp scurt după vizualizarea sa, se permite ca o serie de imagini care se modifică foarte uşor, dar foarte rapid, una dupa alta, să pară legate într-o iluzie vizuală a mişcării Viteza cu care fiecare cadru este înlocuit cu următorul este ceea care crează senzaţia de mişcare. Acesta ar fi principiul animaţiei, care constă în modificarea rapidă a imaginii vizualizate, adică modificarea rapidă a locului unui obiect sau a formei şi dimensiunilor sale. Stocarea numerică a acestei mişcări impune reţinerea elementelor independente ce compun mişcarea, în conformitate cu un parametru fixat, timpul. în mod obişnuit, elementele variabile se stochează împreună cu parametrii lor temporali, folosind formate independente, construcţia ansamblului pornind de la formatele grafice fixe. Se poate aprecia că tehnicile de animaţie au fost prima sursă a acţiunii dinamice în prezentările multimedia. încercând să copieze cât mai bine lumea reală, calculatorul poate
reda animaţia folosind conceptele procedurale şi logice folosite în animaţia pe celuloid. Aceasta este tehnica de animaţie care foloseşte în redarea mişcării, cadrele cheie. Cadre cheie sunt considerate numai cadrul cu care se începe acţiunea şi cadrul cu care se încheie aceasta. Mişcarea este sugerată în fapt, prin procesul de tweening, adică de seria celorlalte cadre, care se derulează între aceste două cadre cheie. In plus, animarea unei acţiuni cere calcularea numărului de cadre intermediare, precum şi stabilirea căii pe care o urmează acţiunea. Viteza de deplasare a unui obiect pe ecran este influenţată de dimensiunea acestuia, în sensul că un obiect de dimensiune mică lasă impresia unei mişcării mai rapide, datorită consumului mai mic de resurse (memorie citită şi scrisă, timp de transfer, volum de date transferate). în schimb, obiectele de dimensiuni mari nu pot fi animate cu viteze mari datorită consumului mare de timp, astfel încât pentru o viteză apropiată de mişcarea reală se preferă un număr mai mic de paşi intermediari. procesul de inking O altă tehnică prin care se poate reda mişcarea cu ajutorul calculatorului, este legată de procesul de inking. Furnizarea unui traseu de animaţie se bazează pe metode de calcul a valorilor pixelilor RGB, pe metode de determinare a limitelor obiectelor dintr-o scenă şi de combinare a culorilor lor, astfel încât să se producă anumite efecte speciale, vizuale şi de translaţie. Această tehnică obţine mişcarea ca urmare a realizării acestor efecte speciale. Concluzie Ca o concluzie pentru realizarea acestui element al multimediei, putem enumera câteva dintre caracteristicile sale: secvenţierea şi trasarea cadrelor intermediare, care redau senzaţia de mişcare; modificarea formei sau dimensiunilor obiectelor, care redau mişcarea; estomparea efectului de anti-aliasing, ştiind că se porneşte în general de la un element format din puncte imagine; crearea de efecte speciale, vizuale şi de translaţie; modificarea scării de afişare a obiectelor în cadre; modificarea poziţiei obiectelor, deplasarea acestora pe direcţii şi trasee stabilite. Imaginea animată este recunoscută în aplicaţii sub diferite formate de fişiere. Cele mai cunoscute formate de fişiere ce conţin animaţie bitmap sunt GIF, FLI şi FLC (Animation Flic). Un alt format pentru stocarea imaginii animate sau pentru video comprimat, este RLE. Acest format este utilizat şi recunoscut de numeroase editoare grafice, furnizate mai ales împreună cu Video for Windows. Compresia imaginilor Aceasta operaţie pentru procesarea imaginilor se referă la reducerea volumului de date pentru stocare şi transfer şi se datorează tehnicilor de comprimare şi decomprimare. Compresia se aplică tuturor tipurilor de date: textuale, grafice, vectoriale, imagini bitmap, imagini fixe sau animate şi sunet. In conformitate cu specificul fiecărui tip de dată, se aleg algoritmi potriviţi, specifici sau normaţi. Algoritmul de cmpresie Huffman 1. Algoritmul de cmpresie Huffman constă în a căuta informaţia redundantă şi în a o codifica în funcţie de frecvenţa sa de apariţie. Astfel, baiţi sau grupuri de baiţi care apar mai des se codifică pe un număr mai mic de biţi, corespondenţa dintre aceste informaţii codificate şi codul propriu-zis ţinându-se într-un tabel de corespondenţă,
tabel care este necesar receptorului pentru a decodifica informaţia. Această tehnică este folosită nu numai pentru codificarea imaginilor, în special a imaginilor mononcrome, ci şi pentru codificarea datelor textuale. Codajul propriu-zis este precedat de o analiză a datelor şi de calculul frecvenţelor de apariţie. Compresia RLE (Run Length Encoding) 2. Compresia RLE (Run Length Encoding) este destinat compresiei imaginilor si este avantajos în cazul datelor care conţin secvenţe lungi şi puţine valori diferite. Pentru o imagine în culori codificarea se face prin identificarea unei culori, apoi prin indicarea acesteia şi a numărului de pixeli din această culoare. Raportul de compresie obţinut prin această metodă variază de la imagine la imagine, nefiind însă foarte mare. LZW (Lempel, Ziv, Welch) 3. LZW (Lempel, Ziv, Welch) este deja foarte cunoscut şi este aplicat prin intermediul utilitarelor ARC, PKZIP sau LHARC, precum şi al numeroaselor filtre ce recunosc diferite formate de fişiere. Algoritmul se bazează pe o tabelă de corespondenţă între date şi adresele lor, tabelă ce se construieşte pe măsură ce codificarea avansează. La reconstituirea datelor, receptorul procedează în mod simetric pentru reconstituirea dicţionarului, utilizând acelaşi algoritm. Deşi se bazează tot pe un tabel ca şi codajul Huffman, acest codaj nu necesită o analiză în prealabil a datelor de codificat. Pentru a da un randament sporit, metodele se pot combina aplicându-se mai întâi un codaj LZW şi apoi unul Huffman. Algoritmul RGB 5-5-5 4. Algoritmul RGB 5-5-5 Acest algoritm este folosit pentru compresia imaginilor. Numele provine de la modul in care se realizeaza compresia. Se reduce numarul de pixeli rezervati pentru fiecare culoare fundamentala din spectrul RGB de la 8 la 5 biti. Implicatiile la nivel de imagine: reduce numarul de nuante. Se observa ca ochiul uman nu percepe deranjant aceste modificari in ceea ce priveste numarul de nuante, deci nu sunt sesizate schimbari majore de calitate. Formatul GIF (Graphics Interchange Format) 5. Formatul GIF (Graphics Interchange Format) Formatul suporta pana la 8 biti per pixel folosind o paleta de 256 culori diferite. Culorile sunt alese din spectrul RGB pe 24 biti. Sunt salvate culorile cele mai apropiate de culoarea. originala. Pentru imagini mari cu diversitate de nuanţe se generează palete de culori pe cadrane. Acest format suporta animaţie bazata pe frame-uri. Limitarea numărului de culori face ca formatul GIF să fie recomandat în situaţiile cand avem imagini simple de gen grafice, logo-uri cu zone întinse de aceasi culoare şi nerecomandate în cazul fotografiilor. Imaginile GIF, dupa prelucrare, sunt comprimate apoi folosind algoritmul LZW fără pierdere de informaţie. Formatul TIFF (Tagged Image File Format) 6. Formatul TIFF (Tagged Image File Format) Acest format foloseşte în reprezentare algoritmul LZW. Tiff permite reprezentarea pixelilor (punctelor de culoare) pe 48 de biti, ceea ce înseamnă 16 biţi pentru fiecare culoare fundamentală din spectrul de culori RGB. Astfel se obţine o reprezentare de o mare acurateţe la nivel de culoare. In formatul Tiff se aplică algoritmul LZW construind un dicţionar ce conţine iniţial 256 de culori de bază, urmând ca prin parcurgerea imaginii să adauge la dicţionar noi simboluri care rezultă din pixeli de culori diferite şi combinat cu secvenţe de pixeli care se repeta în cadrul imaginii.
Dicţionarul permite maxim 4096 de intrări (simboluri). Formatul Tiff a devenit container. Astfel în acest format pot fi stocate imagini comprimate JPEG cât şi alte imagini vectoriale. JPEG (Joint Photographic Experts Group) • 7. JPEG (Joint Photographic Experts Group) Acest algoritm a fost creat la iniţiativa ISO a CCITT. Acest standard se încadrează în clasa metodelor de comprimare cu pierdere de informaţie şi utilizează algoritmi hibrizi, bazaţi pe transformarea cosinus discretă şi pe codajul Huffman. Principiul sub care funcţionează JPEG este stabilirea de relaţii între pixelii unei imagini şi codificarea lor, iar prin aplicarea să se poate obţine o imagine comprimată într-un raport de 75:1, fără o degradare vizibilă a calităţii acesteia. Structura standardului a fost finalizată în 1989 şi poartă în clar denumirea de "compresie numerică a imaginilor fixe de natură fotografică" " Realizarea normei JPEG este condiţionată de existenţa a trei elemente necesare: - un codor, care primeşte datele numerice ale imaginii sursă şi generează, conform unui ansamblu de proceduri, datele imaginii comprimate; - un decodor, care transformă datele imagine comprimată în datele imaginii reconstruite, folosind un ansamblu de proceduri; - un format de transfer, care prezintă datele imagine comprimată, precum şi specificaţiile obţinute din procesul de codaj. Reducerea cantităţii de date se bazează pe eliminarea acelor aspecte din imagine care nu afectează perceperea vizuală a acesteia. în acest sens, imaginea RGB este codificată într-un semnal ce ţine de chrominanţă şi luminanţă. Apoi, ea este descompusă în blocuri de câte 8x8 pixeli, 64 pixeli, cărora li se aplică algoritmul transformatei cosinus discretă, DCT. împărţirea imaginii în blocuri cu această dimensiune este datorată codificării pe câte 8 biţi a fiecărei componente a semnalului imagine: luminanţă şi chrominanţă. Datorită funcţiilor matematice se trece astfel de la o reprezentare spaţială a celor 64 de informaţii distincte la o reprezentare secvenţială, cu o componentă continuă. JPEG poate funcţiona corespunzător în patru moduri, determinate de procesele de codaj al imaginii: - codaj bazat pe transformarea cosinus discret secvenţial, în care blocurile de pixeli sunt codificate unul după altul, de la stânga la dreapta şi rând de blocuri după rând de blocuri; este şi cel mai simplu. Acest mod de codificare are ca rezultat construirea definitivă şi pe porţiuni, de sus în jos, a imaginii finale. - codaj bazat pe transformarea cosinus discret progresiv, în care blocurile de informaţie, care sunt supuse codificării, sunt tratate în mod egal, în aceeaşi ordine, dar prin mai multe baleieri ale imaginii. Imaginei rezultată din acest tip de codaj se construieşte prin adăugarea de noi detalii de culoare, cu fiecare nou bloc codificat, până când se obţine imaginea finală. - codaj progresiv fără pierdere, în care se face o predicţie a unei valori pornind de la alte trei eşantioane vecine. Diferenţa acestei valori estimate faţă de valoarea sa efectivă face obiectul unui codaj de tip Huffman. Acest codaj nu mai are în vedere transformări de tip DCT, iar aplicarea lui se foloseşte în special pentru imaginile de calitate fotografică, cum ar fi de exemplu imaginile Photo-CD. - codaj progresiv ierarhic, în care imaginea este codificată ca într-o urzeală, fără a fi supusă transformărilor DCT. Se porneşte cu o linie de urzeală de referinţă, după care se face o predicţie asupra liniilor de urzeală următoare. Diferenţa constatată între urzelile sursă şi urzelile reconstruite se codifică printr-un algoritm de tip diferenţial. Rata de comprimare obţinută în fiecare din aceste moduri depinde de caracteristicile imaginii tratate. Astfel pentru aceeaşi imagine se pot obţine patru rate de compresie JPEG, după modul în care a fost codificată imaginea. De exemplu, pentru o imagine sursă reprezentată 16 biţi /
pixel, raportul rată de compresie JPEG - calitatea imaginii obţinute se prezintă în felul următor: • la o reducere de 0,08 biţi / pixel, adică la o rată de 200:1, se permite obţinerea unei imagini cu forme identificabile, - la o reducere de 0,25 biţi / pixel, adică o rată de compresie de 60:1, se obţine o imagine de calitate medie, • la o reducere 0,75 biţi / pixel, adică o rată de 20:1, imaginea este de calitate excelentă; • la o reducere 2,25 biţi / pixel, adică o rată de 7:1, imaginea este aproape identică, din punct de vedere vizual, cu imaginea iniţială. Norma JPEG şi-a găsit deja aplicarea, folosindu-se pentru stocarea pe suporţii optici CD-I şi pentru DVI. 8. MJPEG (Motion JPEG) Principiul M-JPEG constă în comprimarea individuală a imaginilor succesive captate în timp real, una câte una, linie după linie, după algoritmul JPEG şi nu integrează tehnici de codificare a predicţiei şi de interpolare interlinii imagine, ca la MPEG. Printre avantajele acestui standard se pot enumera: - obţinerea imaginilor de calitate foarte bună; - imaginile de comprimat pot avea rezoluţii foarte mari, depăşind chiar 1000x1000 pixeli; - datorită codificării fiecărei imagini în parte, există posibilitatea de a ajunge la o imagine şi prin acces aleator. Algoritmul aplicat de M-JPEG ajunge la o rată de compresie de aproximativ 24:1 pentru o bună calitate a imaginii, el furnizând un raport de compresie cuprins între 15:1 şi 80:1. Pe de altă parte, M-JPEG oferă rate scăzute de comprimare în comparaţie cu alte metode, fişierele de date rămânând la o dimensiune destul de mare. Din aceste considerente, el este puţin utilizat pentru CD-ROM sau pentru reţeaua de distribuţie video.