2 TV Digital Interativa: Conceitos e Tecnologias Carlos Montez e Valdecir Becker
Resumo Neste capítulo é estudada a TV Digital Interativa. São apresentados desde os aspectos sociais que envolvem o tema, até os principais sistemas, arquiteturas e componentes técnicos. São cobertos os principais conceitos e tecnologias, necessários para a compreensão do assunto. Além disso, é dada uma grande ênfase na realidade brasileira, com os desdobramentos que o tema adquiriu no país.
2.1. Introdução Este texto enfoca um tema que usualmente não faz parte dos currículos de graduação: a TV digital interativa. Apesar de algumas disciplinas o tratarem indiretamente, a maioria dos currículos de graduação carece de um enfoque maior no assunto, se restringindo a sistemas multimídia e hipermídia e codificação e compressão de vídeo. Além disso, esse tema é multidisciplinar, englobando áreas como telecomunicações, engenharia elétrica, computação, jornalismo e sociologia, para citar só algumas. Essa ampla abrangência torna praticamente impossível que o tema seja abordado de forma holística em qualquer curso de graduação, exigindo que o aluno complemente sua formação com cursos extracurriculares e leituras autodidatas. Além disso, para um entendimento completo dessa matéria, é imprescindível que o aluno tenha noções de outras áreas, muitas vezes não técnicas. Já não é mais possível separar o desenvolvimento de hardware e software sem considerar a finalidade da tecnologia. Questões relativas à usabilidade podem afetar alguns requisitos de hardware ou gerar novas demandas de software. Por isso, a influência de áreas como jornalismo e sociologia torna-se necessária quando falamos de TV digital e interativa. O principal objetivo deste texto é oferecer uma visão geral sobre os conceitos de TV digital e interativa, além de abordar as tecnologias envolvidas. Após o estudo deste texto, o leitor deverá saber o que é TV digital e interativa, a evolução da tecnologia, que propicia mais essa evolução tecnológica e o conseqüente surgimento de uma nova mídia. Além disso, o leitor terá contacto com os principais componentes de um sistema de TV digital, a saber: modulação, codificação, transporte, middleware e aplicações. Dentro desse contexto, serão apresentados os objetivos do governo com o Sistema Brasileiro de TV Digital (SBTVD), que vai nortear as discussões em torno da
transição analógico/digital. Dessa forma, o leitor poderá, primeiro, entender a discussão sobre o assunto, para depois, ter uma participação mais ativa, interferindo inclusive no debate sobre a escolha de um padrão estrangeiro ou o desenvolvimento de um nacional. Para que esse debate atinja toda sociedade, é fundamental que as pessoas saibam do que trata esse complexo assunto, que pelos conceitos envolvidos afasta as pessoas não acostumadas com o dia-a-dia das telecomunicações ou dos conceitos de multimídia e radiodifusão. Este texto está dividido em nove seções, de acordo com os conceitos envolvidos e tecnologias utilizadas. Os estudos começam com conceitos teóricos, que vão migrando gradativamente para a composição técnica da TV digital e interativa, visando facilitar a compreensão do leitor.
2.2. A tecnologia a serviço da sociedade Quando falamos em tecnologia normalmente estamos nos referindo a melhorias no quotidiano das pessoas. Se uma tecnologia supera a outra, ela é melhor. Esse raciocínio pode até ser correto do ponto de vista tecnológico, pois efetivamente as tecnologias tendem a se auto-superarem, substituindo as já ultrapassadas. Porém, do ponto de vista social, as novas tecnologias muitas vezes trazem problemas que as anteriores não tinham, ou que já haviam resolvido. O acesso às novas tecnologias é apenas um exemplo de como essa evolução pode não ser benéfica para todo mundo. Com o passar do tempo e o encarecimento dos novos produtos, passa a ser criado um fosso entre as pessoas com e sem acesso, um apartheid digital hodierno, cuja resolução está longe da própria tecnologia. Esse aspecto é agravado com a importância que a informação adquiriu na nova era do conhecimento. Como os produtos digitais são usados predominantemente para gerar, gerenciar e transmitir informações, quem não possui acesso à tecnologia fica automaticamente fora do mundo do conhecimento, entrando num ciclo vicioso criado pela evolução tecnológica e pela sociedade da informação. A evolução da tecnologia na televisão tem uma implicação direta e indireta com a sociedade da informação. Direta porque fornece acesso à informação, que, se de qualidade, e aliada à educação do novo telespectador interativo (chamado por [Becker e Moraes 2003] de “iespectador”), pode ser transformada em conhecimento. A televisão digital não é apenas uma evolução tecnológica da televisão analógica, mas uma nova plataforma de comunicação, cujos impactos na sociedade ainda estão se delineando. O ministério das Comunicações em uma carta de intenções endereçada à Presidência da República diz [Ministério das Comunicações 2003]: Cerca de 90% dos domicílios brasileiros possuem receptores de televisão. No entanto, mais de 81% recebem exclusivamente sinais de televisão aberta. A programação transmitida aos telespectadores é uma das mais importantes fontes de informação e entretenimento da população brasileira, ao que corresponde uma inegável responsabilidade no que tange à cultura nacional e à própria cidadania.
Para [Wiener 1968], “informação é o termo que designa o conteúdo daquilo que permutamos com o mundo exterior ao ajustar-nos a ele, que faz com que nosso ajustamento seja nele percebido”. Sabendo que essa definição não resume todos os sentidos do substantivo informação, apenas tomando-a como base e considerando que
há mais de 65 milhões de receptores televisivos no país, o que equivale a quase uma TV para cada três habitantes, e que, pelo menos as classes sociais desfavorecidas, têm na TV a principal fonte de contato com o mundo, o brasileiro se informa pela TV. Outra relação da sociedade da informação com a televisão se refere à própria evolução tecnológica como um todo. Como qualquer tecnologia, a informática também tem inúmeras pessoas com acesso a ela e outras, em número bem maior, que estão alijadas do processo tecnológico evolutivo. No início, as pessoas não têm acesso à tecnologia porque não a conhecem ou porque não têm condições financeiras. Esse fosso tecnológico se acentua com o passar do tempo porque para as pessoas isoladas da tecnologia fica cada vez mais difícil recuperar o tempo perdido e entrar nesse mundo novo, cheio de informações. Para as pessoas que têm acesso desde o início, a evolução parece natural. Por que é tão difícil para uma pessoa que nunca teve um computador aprender a usá-lo adequadamente? Essa pergunta pode ser respondida com um exemplo simples: uma criança com acesso a essas tecnologias se alfabetiza digitalmente à medida que se vai se alfabetizando na leitura e escrita. Para essa pessoa, quando adolescente ou adulta, o computador será uma ferramenta muito poderosa para resolver problemas no dia-a-dia da escola e mais tarde, do trabalho. Agora, tomemos como exemplo, uma pessoa que, quando criança, vê um computador apenas pela televisão e toma contato real com ele depois de adulto, já preocupada em como se integrar no disputadíssimo mercado de trabalho. O então “analfabeto digital”, além de ter um currículo profissional sem expressão, precisa fazer um curso para aprender a operar um computador. Concluído o curso, esse certificado incrementa o currículo, mas não resolve o problema do analfabetismo digital: o computador dificilmente vai chegar a ser uma ferramenta para solução de problemas. Resumindo, pode-se afirmar que a privação tecnológica gera um círculo vicioso em que a dificuldade de dominar os recursos tecnológicos modernos gera uma pior qualidade de vida. Esta, por sua vez, diminui as oportunidades profissionais, desvalorizando a mão-de-obra e reduzindo os ganhos. Dessa forma, o círculo se fecha, gerando a pior qualidade de vida, conseqüência da menor remuneração profissional. 2.2.1. O que é exclusão digital Essa falta de acesso à tecnologia recebe o nome de exclusão digital. É formada basicamente pela indisponibilidade de três recursos básicos: um computador, uma linha telefônica e um provedor de acesso. A parte do provedor pode ser equacionada pela proliferação de provedores gratuitos, disponíveis em boa parte do território brasileiro. O maior problema ainda reside no acesso a um computador (que apesar de ter tido seu preço reduzido muito nos últimos anos, ainda está inacessível para 90% da população), e a uma linha telefônica. No final de 2003, apenas 29 em cada 100 habitantes possuíam linha telefônica, isso sem considerar o número de famílias que possui mais de uma linha, e as linhas que estão instaladas nas empresas. Se considerarmos também a telefonia móvel, os números melhoram, mas ainda estão longe do ideal: entre linhas pré e pós-pagas, menos de 27 pessoas tinham celular para cada 100 habitantes [Atlas Brasileiro de Telecomunicacoes 2004], [Anatel 2004].
E qual a relação dessa discussão com a televisão? É simples. Como a transição para um modelo digital está a caminho também no Brasil, o governo aposta nesse novo mercado para reverter o processo de exclusão digital da sociedade brasileira. Segundo dados da Anatel, apenas 7,5% da população brasileira tem acesso à internet, e apenas 10% tem computador em casa [Becker e Montez 2004]. Num primeiro momento é tecnologicamente inviável, devido à ausência de um canal de interatividade universal, fornecer acesso à internet pela televisão. Mas serviços como governo eletrônico, saúde, educação, entre outros, podem ser oferecidos de forma adicional a simples transmissão unidirecional do vídeo. Essa iniciativa já pode levar alguma cidadania e melhorar a vida de milhões de pessoas, até então desassistidas pelo poder público. Dessa forma, é possível reverter o círculo vicioso descrito, tornando-o virtuoso. Com o acesso à informação propiciado pela nova tecnologia (TV digital com novos serviços), a qualidade de vida das pessoas melhora, aumentando também as oportunidades pessoais e profissionais. O aumento de oportunidades eleva a remuneração pelos serviços prestados, o que melhora a qualidade de vida. 2.2.2. Novas linguagens Essa nova televisão, chamada de interativa por muitos ([Gawlinski 2003], [Grotticelli 1999], [Maclin 2001]) ou meramente reativa por outros ([Becker e Montez 2004], [Reisman 2002]), vai demandar uma nova linguagem televisiva, seja do próprio vídeo, ou das aplicações e serviços adicionais que serão oferecidos. A televisão sempre foi unidirecional, com o telespectador totalmente inerte, podendo no máximo mudar de canal; a internet, por natureza, é interativa, com papel ativo dos internautas. Com a exceção de alguns poucos sites mais dinâmicos, nada acontece na tela do computador sem uma ação prévia do usuário. Na TV, essa ação sempre foi impossibilitada. Para [Nielsen 2000], o comportamento do telespectador difere drasticamente do internauta. Enquanto o primeiro apenas recebe informações de forma passiva, sem interferir, o segundo determina os rumos da navegação. Assim, a internet caracteriza-se como um meio rico em informações baseado em um alto grau de iniciativa e participação. O autor aponta uma característica fundamental para o sucesso de qualquer site: a usabilidade. Acreditamos ser esse conceito essencial também na TV interativa. O princípio norteador de qualquer gestor de programa e serviço televisivo deve ser facilitar a vida dos “iespectadores”, para que estes consigam assistir de forma simplificada seus programas favoritos. Agora, com a previsão do incremento das atrações da televisão, é necessário rediscutir a relação da unidirecionalidade da TV com a interatividade natural dos computadores e da própria internet. A unidirecionalidade deixa de existir, pois o telespectador pode enviar informações para a emissora ou para um provedor do serviço acessado, passando a ter um papel ativo, quebrando o segundo paradigma televisivo, que é a inércia. Não se pode esquecer que essa transição é um processo longo e cheio de erros e acertos, como foi a história da própria televisão brasileira. Quando Assis Chateubriand trouxe a televisão para o país, iniciando um processo que iria resultar nos Diários Associados, o primeiro império da comunicação brasileiro, não havia produção de vídeo no país. Com exceção a poucos cineastas, que nada entendiam de televisão, e pouco de cinema, a produção audiovisual era inexistente. Os primeiros programas televisivos
transmitiam a programação das rádios, principalmente os programas de auditório, sucesso de audiência na época. Assim foi durante toda década de 1950 e inicio da década de 1960. Aos poucos foram surgindo programas novos, oriundos das mentes dos produtores de radioteatros e radionovelas, recém promovidos a produtores audiovisuais. Somente com a elaboração do “Padrão Globo de Qualidade”, no final de década de 1960, a televisão começou a criar uma linguagem própria, independente do rádio. Outras pessoas, não oriundas do rádio, passaram a assumir a programação das emissoras, incrementando a programação e melhorando os níveis de audiência. Quando Walter Clark diz que no início da Rede Globo, na década de 1960, a programação era estabelecida com base nas pesquisas do Ibope, o telespectador já estava interferindo indiretamente na programação [Clark 1991]. Clark explica que (...) nesta fase, primeira metade dos anos 70, a Globo sofisticou ao extremo o planejamento de sua programação, usando intensamente a pesquisa. Eu e o Boni (José Bonifácio Oliveira Sobrinho, ex-presidente da TV Globo. Na época, coresponsável pela programação da emissora. Grifo nosso.), que tínhamos formação de publicidade, éramos ligadíssimos em pesquisa e sabíamos analisar os dados que elas apresentavam, sabíamos converter o desejo do telespectador em programas.
Esse processo durou até a década de 1990, quando o jargão “interativo” começou a tomar conta de todo programa no qual o telespectador pudesse mandar um email ou uma carta. O programa de maior sucesso foi o “Você Decide”, da Rede Globo, onde os telespectadores podiam votar e escolher pelo telefone um dos três finais propostos. Depois desse sucesso de audiência, que ficou mais de quatro anos no ar, somando as várias temporadas, a moda, que dura até hoje, passou a ser os reality shows. São programas que simulam situações da vida real, baseadas em relações pessoais, onde as pessoas são eliminadas pelo voto do público e o vencedor ganha um prêmio. Segundo Humberto Eco, a linguagem da televisão é resultado da combinação de três códigos: o icônico, o lingüístico e o sonoro [Eco 1973]. O código icônico se refere à percepção visual. É através da visão que percebemos parte do conteúdo televisivo. O segundo código, o lingüístico, se refere a toda gama de palavras, isoladas ou em forma de frases. O código sonoro se refere à música e aos efeitos sonoros. Pode se manifestar de forma isolada ou combinada. Apesar de Eco não atribuir importâncias superiores ou inferiores a qualquer dos três códigos, na televisão predomina o icônico. Segundo [Rezende 2000], é possível compreender a linguagem televisiva somente pelos códigos icônicos, que é o suporte básico da linguagem televisiva, sem desconsiderar que, no caso brasileiro, há uma forte presença verbal. Michel Chion, citado por Rezende, vai mais longe ao relacionar os três códigos de Eco. Para ele, em qualquer espetáculo audiovisual, a audição e a visão suscitam percepções específicas – chamadas de “audiovisão” – o que impediria a hierarquização dos sentidos. Dessa forma, substitui-se a idéia de hierarquia, pela de intercomplementação dos sentidos. “Se o som faz ver a imagem de modo diferente do que esta imagem mostra sem ele, a imagem, por sua parte, faz ouvir o som de modo distinto ao que ressoaria na obscuridade” [Chion 2000].
Essa relação não estava clara no inicio da televisão brasileira, quando se fazia programas como se fossem rádio com imagens. Da mesma forma que atualmente a relação da TV com a interatividade ainda não está bem definida, por isso se faz TV com internet, e não TV interativa.
2.3. Vantagens da TV digital e o conceito de interatividade A televisão – assim como qualquer outra mídia ou veículo de comunicação – também está envolvida num constante processo evolutivo e de adaptação às novas tecnologias e necessidades sociais. Desde o primeiro canal de TV, a BBC de Londres, fundada em 1936, a televisão já passou por várias mudanças. Além da cor, que a deixou muito mais atraente ainda na década de 1950, também aumentou o número de canais, originando as primeiras escolhas do telespectador. Com o aumento dos canais o controle remoto tornou-se necessário, dispensando a locomoção e aumentando o conforto de quem assiste; era o primeiro componente digital integrado aos aparelhos receptores do sinal televisivo. A próxima etapa da evolução tecnológica da TV reside na digitalização de parte da produção, com a introdução de câmeras e ilhas de edição digitais. O passo seguinte foi o da transmissão digital dos fluxos de áudio e vídeo e o uso de set top boxes para receber e decodificar esses fluxos. A fase final de mais essa evolução da TV é a da substituição do conjunto TV analógica + set top box por receptores totalmente digitais. Resumindo, pode-se afirmar que a transmissão televisiva é fruto de um conjunto de procedimentos – produção, edição, transmissão e recepção – pelos quais o sinal da TV chega até a casa dos telespectadores. Num primeiro momento, logo após as primeiras emissoras entrarem em operação, esses procedimentos eram muito mais simples se comparados com os atuais: havia uma câmera que gerava o sinal, enviando-o diretamente para a antena que fazia e transmissão até a casa dos telespectadores. Tudo era ao vivo. Apenas quando surgiu o videoteipe, em 1956, foi introduzido o segundo procedimento: a edição. A partir de então os vídeos gerados pela câmera poderiam ser armazenados, editados e posteriormente transmitidos. Foi o primeiro passo para a sofisticação da produção e pós-produção dos programas. Na década de 1980, as ilhas de edição digitais passaram a oferecer mais flexibilidade e maiores recursos aos editores. Podemos considerar esse avanço tecnológico como o nascer da TV digital. No lado da recepção, o aparelho de TV passa a contar com o controle remoto. Eram avanços fundamentais que mostravam ser possível também a transmissão digital, amplamente testada na década de 1990, porém na internet, com cabos. Quase simultaneamente começaram os testes para a modulação do sinal audiovisual para a transmissão terrestre e por satélite. 2.3.1. Transição para a TV em cores A televisão surgiu com imagens em preto e branco. As cores vieram na década de 1950, com a criação do modelo NTSC (National Television Standards Committee), definido por uma associação entre o comitê de especialistas homônimo com as emissoras e os fabricantes de TV nos EUA. Inicialmente o comitê especificou como as imagens em preto e branco deveriam ser transmitidas analogicamente. Foi estabelecido que a freqüência de troca de quadros na imagem seria de 30 quadros/seg, proporcional aos 60Hz utilizados na corrente elétrica nos EUA; a quantidade de linhas na tela seria de
525 e a resolução horizontal de 330 pontos. No início da década de 1960 o padrão NTSC foi implementado, tendo sido acrescentadas as especificações para imagens coloridas. O NTSC foi criticado na época do lançamento pela inconstância das cores, cujas tonalidades dificilmente eram mantidas nos quadros subseqüentes. Por isso, no final da década de 1960, foi proposto o padrão PAL (Phase Alternate Lines), criado na Alemanha. A corrente elétrica alternada era gerada em 50 Hz, por isso a freqüência de mudança de quadros foi especificada a 25 quadros/seg. Para compensar a perda na qualidade visual devido à redução dos quadros/seg, a quantidade de linhas na tela foi ampliada para 625. Essa mudança tornou a imagem mais nítida e melhor definida. A reprodução de cores ficou mais precisa do que no sistema norte-americano. Com isso, o padrão alemão foi adotado em vários países do mundo. Vários países adotaram o sistema PAL, mas com algumas modificações na maioria dos casos. Daí a origem das declinações do padrão alemão: PAL-M, PAL-N, PAL-D, PAL-I, PAL-B, PAL-G e PAL-H. Paralelo ao desenvolvimento do sistema alemão, a França também criou o seu próprio sistema para televisão em cores: o SECAM (Systeme Electronique Couleur Avec Memoire), desenvolvido no final dos anos 1960. Os países que o adotam possuem corrente elétrica com freqüência de 50 Hz, o que resulta em imagens de 25 quadros/seg. As diferenças entre o padrão PAL e SECAM são tão pequenas que a conversão entre eles pode ser feita por um simples decodificador. Além disso, a maioria dos receptores PAL é capaz de exibir imagens (em preto e branco) transmitidas em SECAM. Teve um importante papel político durante a Guerra Fria, ao ser adotado pelos países do Leste Europeu para inviabilizar a recepção do sinal de países capitalistas. No Brasil, a transição para o modelo de TV em cores ocorreu em 1972, após muitas discussões e pressões pela adoção de um padrão estrangeiro. Os testes para a migração para um sistema colorido começaram em 1961. Após dois anos de experimentação, a TV Tupy colocou no ar o documentário norte-americano “A volta ao Mundo”, transmitido no sistema NTSC. Naquele ano havia 300 aparelhos capazes de receber o sinal colorido, todos importados e espalhados pela cidade de São Paulo. Para escolher qual dos três padrões internacionais seria adotado, o governo brasileiro convocou o Conselho Nacional de Telecomunicações (Contel), que nomeou uma comissão de engenheiros da USP especialistas em Telecomunicações. Em março de 1967, ficou definido que o país adotaria o PAL europeu. Contudo, como o PAL era 25 quadros/seg e o Brasil possuía freqüência de rede elétrica de 60Hz, o padrão brasileiro foi uma variação do PAL, denominado PAL-M (‘M’ de ‘Modificado’ [Xavier e Sacchi 2000]), com 30 quadros/seg e 525 linhas. Analisando hoje, mais de 30 anos após a adoção do PAL-M, é fácil perceber quais os erros e acertos da comissão nomeada pelo Contel. Porém, na época, a discussão sobre como deveria acontecer a transição para o novo modelo muito se assemelhou aos debates referentes ao SBTVD. Primeiro foram feitos testes isolados pelas próprias emissoras, depois o governo tomou a decisão para si, criando uma comissão para estudar o caso e posteriormente anunciando que seria feita uma adaptação de um padrão já existente, para depois lançá-lo comercialmente. No caso do SBTVD, após os testes da Set/Abert/Anatel, finalizados em 2000, o governo se reservou o direito de decidir como
será a transição para o modelo digital e criou grupos de trabalho que vão decidir o futuro da TV no país. Tudo indica que o caminho a ser percorrido seja semelhante ao escolhido na década de 1960, com a escolha de um padrão estrangeiro como base e fazendo as alterações necessárias para a plena adaptação à realidade e às necessidades brasileiras. Até aqui as semelhanças não trazem problemas. Não é objetivo deste texto discutir os motivos que levaram a adoção PAL-M, nem apontar alternativas políticas para o SBTVD. O fato é que o maior problema da adoção do sistema europeu modificado foi mercadológico. Apesar da decisão de adaptar o sistema europeu ter sido tomada em 1967, o lançamento oficial apenas pôde ser feito em 1972. Para comemorar o oitavo aniversário do golpe militar, o governo determinou o dia 31 de marco para lançar o padrão PAL-M. Segundo [Xavier e Sacchi 2000], “a justificativa para o atraso foi o longo prazo dado aos fabricantes de televisores, que precisavam projetar receptores compatíveis com o sistema PAL-M”. Esse prazo foi necessário para que a indústria pudesse se adaptar e desenvolver os aparelhos, inéditos no mundo e que só seriam vendidos no Brasil. As vendas das TVs PAL-M começaram as vésperas do carnaval de 1972, com um fracasso de aceitação por parte do público. O preço era muito alto. “(...) e a ausência de uma razoável programação colorida na época tornaram o artigo um fracasso comercial” [Xavier e Sacchi 2000]. São lições que não podem ser esquecidas na condução do processo transitório entre a TV analógica para a digital. 2.3.2. Vantagens da TV Digital Além da melhoria da qualidade do áudio e do vídeo, perceptíveis a primeira vista para qualquer pessoa, a TV digital também possibilita a interativa e otimiza o espectro de radiofreqüências, características fundamentais que impulsionam a transição para o novo modelo. A vantagem mais perceptível da transmissão em sistema digital é a conservação da qualidade do sinal. O número de linhas horizontais no canal de recepção, mesmo em modo SDTV, é superior a 400, sendo idêntico àquele proveniente do canal de transmissão. Nos atuais sistemas analógicos, em função das perdas, a definição nos aparelhos receptores (TVs e videocassetes) atinge, na prática, somente 330 linhas horizontais. Isso impacta diretamente na qualidade da imagem que vemos na TV. Digitalmente, a imagem é muito mais imune a interferências e ruídos, ficando livre dos “chuviscos” e “fantasmas” tão comuns na TV analógica. Na transmissão digital, os sinais de som e imagem são representados por uma seqüência de bits, e não mais por uma onda eletromagnética análoga ao sinal televisivo. As modalidades mais conhecidas de televisão digital são a SDTV (Standard Definition Television), a HDTV (High Definition Television) e a EDTV (Enhanced Definition Television). A primeira é um serviço de áudio e vídeo digitais, parecida com a TV analógica, na relação de aspecto 4:3 (largura:altura da imagem), cujos aparelhos receptores possuem 408 linhas, com 704 pontos em cada uma. A HDTV, cuja imagem possui formato 16:9, é recebida em aparelhos com 1080 linhas de definição e 1920 pontos. Entre esses dois sistemas existe a EDTV, TV de média definição, que possibilita a utilização de aparelhos com 720 linhas de 1280 pontos. Dependendo da largura de banda disponível para a transmissão, é possível mesclar essas modalidades de TV
digital, uma vez que a qualidade da imagem no receptor é proporcional à banda utilizada pela transmissão. A TV analógica esgotou suas possibilidades de melhoramento tecnológico; não há como expandi-la ou melhorá-la para atender as demandas que surgiram. Para haver qualquer comunicação entre o transmissor e o telespectador é necessário um outro meio de comunicação, seja telefone ou internet. Com o passar do tempo, tornou-se imperativo unir essas ferramentas de comunicação à TV; tudo em nome da comodidade de quem transmite e de quem recebe a mensagem do outro lado da telinha. A interatividade não se resume no simples aumento da comodidade das partes envolvidas na transmissão televisiva. Envolve também aspectos financeiros, ao aumentar a quantidade e a qualidade dos serviços oferecidos. Dentro desses serviços podemos destacar o comércio televisivo (t-comércio), onde o telespectador passa a ter a oportunidade de adquirir os produtos anunciados diretamente pela TV, sem a necessidade de acessar o site da empresa anunciante ou se deslocar a uma de suas lojas. Esses serviços adicionais são possíveis graças ao datacasting, ou transmissão de dados multiplexados com o sinal audiovisual. O datacasting permite a comunicação do transmissor com o telespectador através do envio de dados, geralmente em forma de texto, dando início à interatividade. O próximo passo é a reação de quem assiste, que pode, ou não, querer interagir naquele momento. Outro serviço muito importante que pode ser oferecido pela TV digital é o acesso à internet. Como vimos na seção anterior, a inclusão digital deve representar um papel fundamental na adoção do modelo brasileiro de TV digital. É uma tecnologia que não pode ser desperdiçada diante do quadro da exclusão social e conseqüentemente, digital, na qual está mergulhada a sociedade brasileira. Prover o acesso à internet pela TV não traz só novos telespectadores, mas também, ou melhor, novos internautas, atualmente excluídos do mundo virtual pela falta de acesso à tecnologia. Um serviço que está adquirindo fundamental importância no país é o governo eletrônico, ou no caso da TV digital, governo televisivo (t-governo). O t-governo consiste em oferecer serviços governamentais pela TV, facilitando o acesso aos mesmos, evitando deslocamentos a cartórios, prefeituras ou postos de informação, reduzindo a burocracia. É considerado por muitos especialistas como a forma mais eficiente de inclusão. Ao disponibilizar pela TV as informações (antes acessíveis somente pela internet, no caso do e-governo, ou em estabelecimentos oficiais), permite a fiscalização por parte da sociedade dos atos do poderes públicos, e torna o conhecimento mais democrático. O sucesso da TV digital no Brasil pode estar diretamente atrelado ao sucesso da inclusão digital. Como vimos acima, essa nova mídia vai oferecer inúmeros serviços novos, mas quem vai pagar por eles? Não podemos nos esquecer de que no Brasil a TV é aberta, ninguém precisa pagar para assistir – a TV a cabo tem pouquíssima penetração, praticamente se restringindo à classe “A”. E para justificar essa oferta, bem como recompensar o alto investimento necessário para a implantação do sistema, o mercado consumidor para esses novos produtos é essencial, sob pena do modelo estar fadado ao insucesso. E onde pode estar esse mercado consumidor? Nas classes “C”, ”D” e “E”, atualmente fora desse mercado por não terem acesso à internet. Individualmente, pode não representar um mercado de alto poder aquisitivo, mas considerando-se os
alcances financeiros dessas pessoas macroeconomicamente, certamente podem fazer a diferença no balanço financeiro das empresas no final do ano. Outra grande vantagem da TV digital é a otimização do espectro de freqüências, que pode ocorrer de duas formas: 1. compactação do sinal: na transmissão analógica, os sinais não podem ser comprimidos ou compactados, tal como ocorre na transmissão digital. Cada pixel (um ponto da imagem) do sinal analógico precisa estar incluído no sinal. Numa transmissão analógica padrão, são emitidos sinais com 525 linhas por 720 pixels, totalizando 378 mil pixels por quadro, o que ocupa todo canal de 6 MHz disponível no sistema brasileiro. Como será visto mais adiante neste texto, a transmissão digital pode ser compactada, reduzindo a banda usada na transmissão. A compactação leva a uma menor taxa de transmissão, possibilitando que mais conteúdo seja veiculado nos mesmos canais. Por exemplo, na faixa de freqüência de 6 MHz que um canal de TV analógica brasileiro necessita, podem ser transmitidos simultaneamente diversos sinais de TV digital. Com as atuais tecnologias de compactação é possível transmitir um canal de HDTV ou até quatro de SDTV. 2. eliminação de interferências: na transmissão analógica, seja UHF ou VHF, um canal interfere no outro se ambos forem alocados em freqüências muito próximas. Para evitar isso, é preciso deixar uma certa faixa do espectro livre entre dois canais. Vários canais sintonizam bem num certo número de canal, mas seu áudio ainda pode ser percebido um número acima ou abaixo, num canal livre, onde nada deveria ser sintonizado. Na transmissão digital isso não acontece mais, pois um canal não interfere no outro. Se tomarmos como exemplo Florianópolis, SC, temos em uso os canais 2, 4, 6, 9, 12, 15, 18 e 20. Ou seja, 120 MHz para transmitir oito canais, que em tese precisam de apenas 48 MHz. No sistema digital os canais vagos podem ser realocados para outras emissoras de TV ou prestadoras de serviços de telecomunicações. Todas essas vantagens só são possíveis graças à convergência de tecnologias, alardeada há pelo menos duas décadas. Do lado da produção, o computador já é amplamente usado na edição e codificação dos vídeos. Porém do lado do telespectador, o uso do PC para assistir TV ainda é praticamente desconhecido, com poucas exceções feitas por placas especiais capazes de decodificar os sinais das antenas analógicas. No caso da TV digital, tanto o set top box, como o próprio aparelho de TV, são computadores bastante potentes. A interatividade e o provimento dos serviços apresentados acima seriam impossíveis sem o uso de computadores na recepção do sinal da TV. 2.3.3. O conceito de interatividade Se formos analisar a quantidade de produtos que se autoproclamam interativos, veremos que esse número aumentou muito nos últimos anos. São celulares, vídeo-games, cadeiras de cinema, programas de rádio e TV, peças de teatro. O adjetivo interativo torna o produto a ser comercializado mais moderno aos olhos do consumidor [Lemos 1997]. Mas o que é interatividade? Pode-se chamar de cinema interativo uma sala em que as cadeiras se mexem de acordo com a direção de câmera do filme? Ou de TV
interativa a televisão tradicional com participação por email ou telefone dos telespectadores? O computador e os jogos eletrônicos são interativos? Para responder a essas e outras perguntas sobre interatividade, é preciso voltar no tempo e resgatar a origem do termo e seu significado em outras áreas do conhecimento. O termo interatividade é recente; só foi incorporado aos dicionários da língua portuguesa na década de 1970. Entretanto, o conceito de interação é bem mais antigo e pode ajudar a entender a origem e o significado de interatividade. Na física interação refere-se ao comportamento de partículas, que interagem umas com as outras, alterado o movimento. Para a sociologia e a psicologia social, nenhuma ação humana ou social existe separada da interação. A meteorologia, área da geografia, se ocupa, por exemplo, das interações entre componentes dos oceanos e a atmosfera terrestre para avaliar a variação climática no planeta. A biologia também explora o conceito nas explicações genéticas. Na ciência da comunicação, interação é definido como a relação entre eventos comunicativos. E o que interação tem a ver com interatividade? Aliás, TV interativa? Para entender essa relação e a evolução do próprio conceito, é interessante fazer uma incursão pela arte pop. A concepção corrente entre artistas da época era que a arte não deveria ser apenas vista, mas penetrada fisicamente pelo público. Assim valorizavam a participação. Muitas das melhores propostas artísticas nos países do Ocidente na época possuíam aspectos visuais relacionados ao chamado “participacionismo”, como era o caso dos trabalhos de Lygia Clark e Hélio Oiticica [Popper 1993]. O termo interatividade foi cunhado como uma derivação do neologismo inglês interactivity na década de 1960 [Fragoso 2001]. Nessa época, a palavra batizava o que os pesquisadores da área de informática entendiam como uma nova qualidade da computação interativa, presumindo a incorporação de dispositivos como o teclado e o monitor de vídeo como unidades de entrada e saída dos sistemas computacionais. Na década de 1980, os trabalhos de pesquisas da Xerox Corporation, em Palo Alto, Califórnia, com novos dispositivos apontadores (mouse), ícones e interfaces gráficas com janelas, deram origem aos microcomputadores Macintosh e, posteriormente aos IBM-PC com sistema operacional Windows. Esses estudos popularizaram um novo tipo de interface que permite ao usuário a escolha da ordem em que seus dados (ou comandos) são fornecidos ao sistema. Logo depois surgiram os primeiros jogos eletrônicos, uma das primeiras formas de interatividade digital de massa mostrando a capacidade das novas máquinas eletrônicas de representar “ações” onde os homens podem, e devem participar (se não fizermos nada em um jogo eletrônico, nada acontece). Segundo [Steuer 1992], interatividade “mede” o quanto um usuário pode influenciar na modificação imediata, na forma e no conteúdo de um ambiente computacional. O termo é conceituado como uma variável baseada no tempo de resposta do estímulo. Portanto, livros, jornais e TV aberta são caracterizados como meios pouco interativos; ao contrário de teleconferência, e-mail e videogame. É justamente esse enfoque com a tecnologia lembrado por [Koogan/Houaiss 1999]: “A interatividade é a troca entre o usuário de um sistema informático e a máquina por meio de um terminal dotado de tela de visualização”. Assim os usuários
podem participar modificando a forma e o conteúdo do ambiente mediado em tempo real, sendo esta uma variável direcionada pelo estímulo e determinada pela estrutura tecnológica do meio. É aqui que surgem os questionamentos a efetividade da interatividade na televisão. Se, para um sistema ser interativo é necessário que o usuário possa modificar a forma e o conteúdo do ambiente, como afirmar que existe TV interativa, em situações onde o telespectador apenas dá palpites sobre a programação, que se atendidos, não o são em tempo real? O mesmo raciocínio é válido para os serviços oferecidos pela TV digital européia, em que é possível comprar uma pizza pela TV, dar notas para os shows, escolher a próxima programação. Porém, em nenhum caso, o telespectador interfere em tempo real no programa transmitido, modificando-o. A TV dita interativa que conhecemos hoje é meramente reativa, pois os telespectadores apenas reagem a estímulos oferecidos pela emissora. Ainda não há um papel ativo em relação à programação televisiva, diga-se, audiovisual. Depois do estudo da interatividade acima, fica um pouco mais fácil definir o que vem a ser TV interativa. Apesar do conceito ainda não estar claro em nenhum lugar do mundo, suscitando inúmeras controvérsias, uma característica é praticamente unânime: a TV deixa de ser unidirecional. Com a TV interativa, o telespectador passa a ter um canal de interatividade para se comunicar com a emissora, tirando-o da inércia na qual está submetido desde o surgimento dessa mídia. O grau dessa interatividade vai depender dos serviços oferecidos e, principalmente, da velocidade do canal.
2.4. Tecnologias analógicas e digitais Televisão digital, da mesma forma que a TV convencional, lida com áudio e vídeo (além de outros dados digitais). Um sistema digital que manipula fluxos de áudio e vídeo costuma ser denotado de sistema multimídia. Do ponto de vista lingüístico, sistema multimídia seria aquele capaz de lidar com mais de um tipo de mídia. Contudo, segundo essa definição, um computador que manipule texto alfanumérico e gráfico, seria enquadrado nessa categoria. Por conseguinte, costuma-se adotar uma definição mais estrita: “Multimídia é todo sistema capaz de lidar com pelo menos um tipo de mídia contínua na forma digital, além de outras mídias estáticas” [Lu, 1996]. natureza temporal estática
contínua
texto
gráfico
animação sintetizada
image
áudio
vídeo capturad a
origem
Figura 2.1. Mídias segundo sua natureza temporal e origem [Fluckiger 1995].
Essa classificação leva em consideração a existência de mídias estáticas e contínuas, conforme o seu comportamento temporal. Aquelas que não mudam com o tempo são denominadas estáticas ou discretas (ex. imagens e gráficos); enquanto as mídias contínuas ou dinâmicas são as que possuem dimensão temporal (ex. animação, áudio e vídeo). Mídias contínuas possuem taxa de apresentação. Por exemplo, um vídeo no formato PAL-M, tem seus quadros apresentados na taxa de 30 quadros por segundo.
Por esse motivo, também costumam ser chamadas de mídias isócronas. Outra forma de classificação leva em consideração se a mídia é sintetizada pelo ser humano ou capturada por algum dispositivo (Figura 2.1). 2.4.1. Convertendo do analógico para o digital Independentemente da natureza temporal ou origem, as mídias analógicas podem ser convertidas para o formato digital. As mídias representadas na forma digital apresentam características próprias, com uma série de vantagens e outras desvantagens. Na natureza, as variáveis físicas correspondentes a áudio e vídeo se propagam desde sua origem até os ouvidos e olhos humanos através de formas de onda. Um altofalante, por exemplo, ao vibrar produz ondas sonoras que se propagam no ar. Dispositivos sensores, tais como microfones, capturam essas ondas sonoras e produzem sinais elétricos que variam continuamente no tempo e que descrevem a forma de onda do áudio. O tipo de sinal que a amplitude varia continuamente no tempo é denominado sinal analógico (Figura 2.2). Amplitude
Tempo Sensor (ex. microfone) Ondas sonoras
Sinal elétrico analógico correspondente à forma de onda de áudio
Figura 2.2. Captura de um sinal analógico.
Para ser manipulado digitalmente, existe a necessidade da conversão desse sinal analógico para o formato digital. Essa conversão envolve as etapas de amostragem e quantização. Amostrar significa capturar, de forma periódica, os valores do sinal analógico; e a quantização implica na representação de cada um desses valores usando um número fixo de bits para armazenar esses valores (Figura 2.3). Ou seja, enquanto um sinal analógico representa um valor físico que varia continuamente com o tempo; um sinal digital é uma seqüência de valores, com um número fixo de bits, dependentes do tempo, resultante da transformação de um sinal analógico. Ainda existe uma outra etapa que será discutida mais adiante neste texto que é a codificação, ou seja, a escolha da forma de representação (código) dos bits a ser usada.
Sinal analógico
Sinal amostrado
amostragem
Sinal digital
quantizaçã
período de amostragem
Figura 2.3. Amostragem e quantização de um sinal analógico.
Deve-se notar que os processos de amostragem e quantização introduzem distorções no sinal original. Essa é, provavelmente, a principal desvantagem de um processo de digitalização, pois se esse sinal for reconstruído, usando o processo inverso (denominado conversão digital-analógica), o resultado final apresenta pequenas distorções com relação ao sinal original. Quanto menor o período de amostragem, mais o sinal amostrado se aproxima do sinal analógico original. Da mesma forma, aumentar o número de bits usados na quantização, geralmente melhora o resultado final do sinal digital. Portanto, é possível reduzir as distorções no sinal, introduzidas pelo processo de digitalização, através do uso de uma alta taxa de amostragem e um grande número de bits para a quantização. Contudo, essa abordagem aumenta o “tamanho” do sinal digital, precisando de muito espaço em disco para armazená-lo, e de uma rede com grande largura de banda para transmiti-lo. Devido a isso, existe a necessidade de se estabelecer um compromisso entre a qualidade desejada e o tamanho final do sinal digitalizado. Costuma-se adotar o critério de Nyquist para a escolha da taxa de digitalização. Segundo esse critério, para um sinal digital ser reconstruído corretamente, a taxa de amostragem do sinal precisa ser pelo menos o dobro da freqüência mais alta do sinal analógico digitalizado. Por exemplo, a faixa de freqüência da voz humana se situa em 4kHz (quatro mil vezes por segundo). Portanto, para digitalizar esse tipo de sinal é suficiente a taxa de amostragem de 8kHz (amostragem a cada 125 µs). O ouvido humano normal tem uma faixa de freqüência audível de aproximadamente 20kHz, e, atualmente, taxas de freqüência de amostragem muito usadas para áudio são 32kHz, 44,1kHz e 48kHz. Como na etapa de quantização é definido o número de bits usados em cada amostragem, quanto maior o número de bits, melhor a qualidade final do sinal digital. Usando uma regra geral, com n bits é possível representar 2n valores. Como exemplo, se em uma faixa de 100 valores inteiros para representar – de 0 a 99 –, for usado apenas um bit para quantização, valores abaixo de 50 poderiam ter a representação 0, e acima ou igual a 50, representação 1. Usando mais bits a representação dos valores passa a ser bem mais precisa. Valores usuais empregados para quantização são: 8 ou 10 bits para quadros de vídeo na televisão, e 16, 20 ou 24 bits para áudio.
2.4.2. Vantagens da representação digital A tendência da “digitalização” parece ser inexorável nos dias atuais. Tecnologias analógicas como telefones celulares e televisão vêm migrando para tecnologias digitais. Do ponto de vista dos usuários, essa é apenas uma parte visível do processo, pois há algum tempo as infraestruturas, tais como centrais telefônicas e estações transmissoras de TV, têm seus equipamentos trocados para tecnologia digital, proporcionando melhor desempenho, flexibilidade, imunidade a erros, e oferecimento de novos serviços. Sinais digitais podem ser processados em computadores. Técnicas de processamento de sinais podem ser empregadas para: filtrar sinais digitais, inserir e retirar marcas d’águas (para garantir direitos autorais), comprimir dados, detectar e reduzir erros, etc. Hoje já é bem conhecido do público o emprego de técnicas de processamento digital em filmes para cinema, onde objetos inteiros são inseridos (ou apagados) em determinadas cenas. Essa capacidade de ser processada em computadores é com certeza a grande vantagem da representação digital dos dados multimídia. Ou seja, após serem transformados em um sinal digital, os dados de vídeo e áudio passam a ter representação universal: qualquer mídia digital é codificada em uma seqüência de bits. Todos os tipos de informações digitais (inclusive as que não são multimídia) podem ser manipulados, armazenados e transmitidos da mesma forma, usando o mesmo tipo de equipamento. Essas mídias, em formato digital, podem ser integradas com outros dados digitais, compartilhando os mesmos recursos (discos, redes, etc.) Existe ainda uma outra importante vantagem da representação digital. Uma mídia de áudio ou vídeo pode ser armazenada e acessada remota e simultaneamente por um número (teoricamente) ilimitado de pessoas. Esse conceito já é usado, há algum tempo, na implantação de bibliotecas digitais multimídia, que vêm substituindo as convencionais, através da digitalização de seu acervo. Essa vantagem técnica é importantíssima no Brasil, se for considerado que a inclusão digital é meta estratégica, direcionando grande parte do investimento público em TV digital. Por fim, mas sem a pretensão de esgotar o assunto, mídias digitais são mais imunes a ruídos durante a sua manipulação. Por exemplo, na transmissão de informações digitais, pequenos ruídos (desde que não ultrapassem determinado limite) podem ser detectados e corrigidos, não se acumulando no sinal.
2.5. Codificação e compressão de áudio e vídeo e modulação do sinal digital A codificação dos dados digitais é uma etapa necessária logo após a amostragem e quantização. No contexto da TV digital, a etapa de codificação efetua a compressão dos dados, atividade essencial para a difusão das mídias. A necessidade de compressão fica evidente se forem considerados os requisitos de armazenamento das mídias contínuas digitais. Como exemplo, se for considerado o espaço ocupado por uma hora de áudio em qualidade de CD, seria necessário 635MB (Tabela 2.1). Para calcular o espaço ocupado por um vídeo sem compressão é necessário conhecer suas características, tais como, taxa de quadros por segundo, número de linhas por quadro, pixels por linha e bits por pixel. No exemplo do áudio representado na Tabela 2.1, o valor pode ser obtido através dos seguintes dados: a taxa de amostragem é 44,1kHz, sendo cada valor amostrado com 16 bits. Como a qualidade de CD é estéreo,
com 2 canais, o número de bytes (8 bits) necessários para armazenar 1 hora (3600 segundos) dessa mídia é: (44100 * 16 * 2 * 3600)/8 = 635 MB. Tabela 2.1. Espaço ocupado por mídias sem compressão [Lu 1996]. 1 hora de áudio em 1 hora de TV em 1 hora de TV de qualidade de CD qualidade padrão alta definição 635MB
97GB
389GB
Os exemplos apresentados ilustram a necessidade de compressão das mídias contínuas digitais, antes de suas transmissões. A compressão desse tipo de mídia é possível graças a duas abordagens complementares: (i) eliminação de redundância nos dados, e (ii) exploração das propriedades da percepção humana. 2.5.1. Compressão devido à redundância nos dados Arquivos texto, base de dados e planilhas eletrônicas são exemplos de dados digitais que costumam possuir muita redundância. Essa característica já é explorada há algum tempo em programas compactadores de dados (ex. gzip, pkzip, winzip etc.). Esses programas compactam esses dados para facilitar o armazenamento e transporte desses dados. Dados de mídia contínua também costumam possuir muita redundância em suas informações. No caso de um vídeo, se fosse possível congelá-lo momentaneamente, teríamos uma imagem parada (um quadro de vídeo). Se esse quadro fosse dividido em pequenos retângulos de tamanhos iguais, seria possível verificar que muitos dos retângulos são exatamente iguais a outros existentes na mesma imagem. Essa redundância pode ser eliminada através de técnicas que representam apenas a informação de um retângulo, e o número de vezes que estes precisam ser repetidos. Esse tipo de redundância, em um mesmo quadro de vídeo, é denominado redundância espacial. No caso do áudio, principalmente voz, a redundância surge dos momentos de silêncio. A supressão de silêncio permite uma redução substancial do espaço ocupado pelas mídias de áudio. A redundância temporal é um outro tipo de redundância que é muito explorado em dados de mídia contínua. Diferentemente da redundância espacial, que tem origem em informação duplicada em um mesmo quadro, a redundância temporal existe em informações em quadros contíguos. Como exemplo, no caso do PAL-M, 30 quadros de vídeos são apresentados por segundo, dando a sensação de um vídeo contínuo. Dividindo os quadros em pequenos retângulos, também seria significante o número de retângulos iguais em quadros consecutivos (em um telejornal, por exemplo, o cenário atrás do apresentador usualmente permanece inalterado). Abordagens de compressão que exploram a redundância espacial e temporal dão origem às técnicas de compressão espacial e compressão temporal, respectivamente. No caso da compressão temporal, técnicas de compensação de movimento podem ser usadas. Essas técnicas se baseiam na idéia de que ao dividir um quadro em pequenos retângulos de 16x16 pixels (denominados macroblocos), muitas vezes, um desses retângulos é na verdade uma pequena variação de um retângulo anterior (ex. um pequeno tremor na câmera pode provocar o deslocamento de 1 pixel entre dois
retângulos de imagens consecutivas em um vídeo). Nessa técnica, para reconstituir o segundo retângulo basta armazenar essa informação de quantidade de deslocamento (vetor de deslocamento), em vez do retângulo completo. A técnica de compensação de movimentos demanda muito esforço computacional, usualmente necessitando hardware para a etapa de codificação. Técnicas que eliminam redundância considerando informações anteriores (no caso, os macroblocos) são denominadas de compressão preditiva. 2.5.2. Compressão devido às propriedades da percepção humana O sistema nervoso possui propriedades peculiares na forma de reagir a estímulos físicos, o que pode ser explorado em técnicas para compressão de dados multimídia. Por exemplo, determinadas freqüências de áudio (tons) se tornam inaudíveis na presença simultânea de outras. Essa propriedade é denominada mascaramento [Bufford 1994]. O mascaramento de áudio pode acontecer mesmo quando os sons não ocorrem simultaneamente. Um tom pode mascarar outro que ocorra imediatamente após. Por exemplo, um som de ribombar de um trovão, seguido imediatamente por um sussurro humano, pode tornar esse segundo som inaudível. Com relação às propriedades visuais do ser humano, também é possível uma analogia com um forte facho de um farol em um local pouco iluminado, que pode tornar invisíveis os objetos na penumbra. As propriedades de mascaramento são usadas nas técnicas de compressão multimídia da seguinte maneira: essas técnicas separam as freqüências dos dados a serem comprimidos, fazem análise de quais serão mascarados, eliminando-os da informação final. Uma propriedade da percepção visual que pode ser explorada para compressão de dados de vídeo é a capacidade distinguir tons de cinza em comparação com as tonalidades de cor. A percepção visual humana é muito mais sensível às variações de tons de cinza, do que às variações de tons de cor. Técnicas empregadas em TV separam tons de cinza (luminância) dos componentes das cores (crominância). Uma forma de compressão é fazer amostragem da crominância com uma freqüência menor que a luminância. Essa técnica é denominada subamostragem. 2.5.3. Outras técnicas de compressão Técnicas usadas em documentos digitais (textos, dados, etc) também são usadas em compressão multimídia, complementando as técnicas descritas. A codificação estatística, por exemplo, se baseia na idéia de que algumas seqüências de bits, que aparecem com maior freqüência que outras, podem ser representadas com menor taxa na sua codificação. Uma analogia pode ser feita usando este texto. Caso ele fosse armazenado na forma digital usando uma codificação que empregasse menos bits na representação da letra “a” (mesmo que isso implicasse um aumento no número de bits para representar a letra “x”), provavelmente, o espaço ocupado seria bem menor do que se todas as letras ocupassem o mesmo tamanho. A codificação de Huffman é uma conhecida técnica que usa essa abordagem. Técnicas de compressão podem ser classificadas considerando se estas são “com” ou “sem” perdas; ou “baseadas na fonte” ou “baseadas em entropia” (Figura 2.4).
Baseada na fonte
baseada em mascarament
baseada em transformada
supressão de seqüências tid
Baseada em entropia
codificação estatística Com perdas
eliminação de redundância Sem perdas
Figura 2.4. Técnicas de compressão [Fluckiger 1995].
Técnicas de compressão sem perdas (lossless) são aquelas empregadas usualmente em textos e documentos usados por usuários de computador. O resultado da descompressão, após uma compressão sem perdas, é exatamente igual, bit a bit, ao dado original. As técnicas de compressão que exploram as propriedades da percepção humana são técnicas com perdas (lossy). Apesar do resultado final apresentar diferenças muitas vezes imperceptíveis aos olhos/ouvidos humanos, a representação do dado na forma de bits é muito diferente da original. Essas técnicas de compressão são irreversíveis, pois uma vez efetuada, é impossível voltar o dado ao estado original. Essas técnicas que exploram as propriedades da percepção humana são técnicas baseadas na fonte, pois levam em consideração a semântica do dado a ser comprimido. Por outro lado, as técnicas baseadas em entropia desconsideram as características e semânticas do dado a ser comprimido. Por esse motivo, são sempre técnicas sem perdas. A transformada é um processo que converte, com um determinado propósito, um grupo de dados para uma representação mais conveniente [Buford 1994]. Em multimídia, essa técnica é empregada, geralmente, para compressão de dados. O objetivo é encontrar uma representação alternativa que se possa armazenar e transmitir menor número de bits. Em multimídia, a Transformada Discreta do Cosseno (DCT) costuma ser empregada visando compressão [Collins 2001], [Drury 2002]. Outra forma de classificar as técnicas de compressão é considerar se essas são simétricas ou assimétricas. As etapas envolvidas na compressão geralmente são computacionalmente mais intensas que as de descompressão, por isso são denominadas de assimétricas. Por outro lado, é possível implementar compressão “mais leve” e simétrica, na qual os tempos das atividades de compressão e descompressão são equivalentes (e usualmente não precisam de hardware para a compressão, como ocorre nas abordagens assimétricas). 2.5.4. Codec As etapas de amostragem e quantização não são as últimas do processo de digitalização das mídias de áudio e vídeo. Existe a necessidade de representar a informação digital usando algum código. O processo de representação de mídias de áudio e vídeo no formato digital é denominado codificação; e o processo inverso, de transformação da mídia digital em sinal analógico é denominado decodificação. Por esse motivo, o
padrão usado para codificação dessa mídia é usualmente denominado codec (codificação e decodificação). Atualmente, muitos codecs são adotados para mídias digitais: • Imagem: JPEG (adequado para imagens capturadas), GIF (adequado para imagens sintetizadas pelo ser-humano), PNG, TIFF e PCX. • Vídeo: MPEG, DivX, Soreson, Real Vídeo e MS-MPEG-4. • Áudio: MPEG-Áudio (MP3), WAVE e MIDI. Muitos desses codecs citados são proprietários, adotados apenas por algumas empresas e aplicados em contextos específicos. Em contraste, os codecs abertos, padronizados e reconhecidos por comitês, consórcios ou organizações de companhias, tais como os MPEG-1, MPEG-2 e MPEG-4, serão vistos mais adiante neste texto. 2.5.5. Modulação Na TV digital, áudio, vídeo e dados precisam ser transportados desde sua origem até a casa do usuário (podendo passar ou não por estações intermediárias). Nesse sentido, um sistema de comunicação é usado para esse transporte. Contudo, as informações não podem ser enviadas diretamente pelo sistema de comunicação sem antes sofrer uma modulação no envio, e uma demodulação na recepção. A modulação é necessária por causa das características dos enlaces de comunicação – seja por cabo, ondas de rádio, satélite, etc. – que enfrentam problemas de atenuação por perdas de energia do sinal transmitido, ruídos provocados por outros sinais, e distorções de atraso. Essas últimas são causadas pelas velocidades desiguais das freqüências de um sinal no enlace. Esses problemas são fortemente relacionados com a freqüência usada no sistema de comunicação. Uma forma de resolver esse problema é modular um sinal. A modulação é o processo, através do qual, alguma característica de uma onda portadora é alterada de acordo com o sinal da informação a ser transmitida. Essa onda portadora é o sinal que possui uma faixa de freqüências controlada de forma a sofrer as menores interferências, distorções e atenuações possíveis durante uma comunicação de dados. A modulação oferece três benefícios [Haykin 1999]: 1) desloca o conteúdo espectral de um sinal de mensagens (dados e mídias digitais, no caso da TV digital) para dentro da faixa de freqüência operacional de um enlace de comunicação; 2) permite colocar o conteúdo do sinal de mensagens numa forma menos vulnerável a ruído ou interferência; 3) possibilita multiplexar o enlace de comunicação; ou seja compartilhá-lo, transmitindo, simultaneamente, dados oriundos de fontes independentes. Existem diferentes técnicas de modulação de sinais digitais. Basicamente, são baseadas em modulação por amplitude (a mesma usada em sinais analógicos de rádio AM), por freqüência (a mesma usada em sinais analógicos de rádio FM) ou por fase. Na modulação de sinais digitais, essas técnicas costumam ser combinadas com objetivo de se obter transmissão mais robusta (imune a erros) e, também, para se
aumentar a capacidade de transmissão de bits por segundo (ou bits por transição do sinal – denominada baud). Um exemplo é o QAM (Quadrature Amplitude Modulation), que combina diferentes amplitudes e fases. Por exemplo, o QAM-16 combina 4 diferentes níveis de amplitude e 4 deslocamentos de fases, permitindo uma combinação de 16 valores (4x4) em cada transição do sinal. Com esses 16 valores, consegue-se transmitir 4 bits por baud (pois 24 = 16). No caso dos sistemas de TVs digitais, os padrões de modulação COFDM (Coded Orthogonal Frequency Division Multiplexing) e 8-VSB (8 Level – Vestigial SideBand Modulation) são os usados atualmente. Apesar dos diferentes padrões de modulação e multiplexação de sinais, algumas técnicas adotadas são comuns a todos [Drury 2002], [Collins 2001]: • Embaralhamento espectral: técnica que visa uma distribuição da energia, evitando a concentração em determinados pontos (ex. uma transmissão de jogo de futebol tenderia a concentração de freqüências em torno da freqüência da cor verde). O embaralhamento espectral evita que um ruído situado em determinado ponto no espectro de freqüência da transmissão possa prejudicar demasiadamente a transmissão. • Correção de erros em avanço (FEC): a codificação Reed-Solomon é uma técnica de FEC utilizada, que acrescenta bits redundantes na informação transmitida facilitando a detecção e recuperação de erros. 2.5.5.1 Comentários sobre os padrões COFDM e 8-VSB
Os padrões de TV digital europeu (DVB) e norte-americano (ATSC) possuem requisitos técnicos e culturais diferentes, influenciando e dando origem à escolha de padrões diferentes para modulação e multiplexação do sinal. Atualmente, boa parte da televisão analógica norte-americana é baseada em transmissões por cabo, chegando a mais de 80% da população. Esse tipo de transmissão é muito mais imune a erros e ruídos do que difusões de sinais de TV por satélite ou terrestre. Talvez influenciado por essa característica, apesar do padrão norte-americano para TV digital – ATSC – também propiciar difusão por satélite ou terrestre, seu padrão de modulação adotado, o 8-VSB não seja tão robusto, recebendo algumas críticas pela baixa imunidade a ruídos, principalmente em receptores de TV com antena interna. Nos últimos anos grandes esforços têm sido feitos visando resolver esse problema. Por outro lado, o padrão europeu COFDM, recentemente também adotado pelo Japão com pequenas alterações, é orientado para difusões terrestres, apesar de também ser usado na transmissão por cabos. Sua principal vantagem é a imunidade a problemas de multi-percursos do sinal. Esse problema ocorre quando um mesmo sinal de TV, transmitido pelo ar, chega à antena receptora por diferentes caminhos, com uma leve diferença de tempo de chegada. Caso não seja tratado, esse problema dá origem aos famosos “fantasmas” da televisão. As diferenças técnicas entre esses dois padrões proporcionam grandes batalhas entre os defensores e opositores de um ou de outro, tanto no campo científico, como no político e econômico. Fabricantes de equipamentos e fornecedores de tecnologia, norteamericanos e europeus, atualmente exercem poderosos lobbyes para que outros países passem a adotar seus padrões.
Em todos esses padrões, em comum, existe o fato que a informação a ser codificada é um fluxo de transporte MPEG, com vídeo, áudio e dados, encapsulados. O padrão MPEG será visto a seguir.
2.6. Padronizações MPEG Todas as técnicas de compressão vistas seriam de pouco valor caso não fosse adotada uma padronização em suas utilizações, o que permite o desenvolvimento e a comercialização independente dos equipamentos de codificação, transmissão e recepção dos sinais digitais de TV. Esforços de padronização da ISO/IEC deram origem ao grupo MPEG (Moving Picture Experts Group) que, a partir de 1983, com a publicação de seu primeiro padrão – o MPEG-1 –, passou a especificar os padrões MPEG. O MPEG forma uma família de padrões para codificação, compressão e transporte de dados multimídia que vem sendo abraçados por todos os sistemas de difusão de TV digital, em detrimento de padrões proprietários (uma pequena exceção existe com relação ao padrão proprietário Dolby AC-3, adotado pelo sistema norteamericano ATSC, e que será brevemente descrito no final desta seção). De uma forma geral, os algoritmos de compressão adotados nos padrões MPEG empregam uma combinação de três técnicas [Drury 2002]: • Codificação preditiva, explorando redundância temporal nas mídias contínuas; • Codificação por transformada, usando a Transformada Discreta do Cosseno (DCT) para explorar redundância espacial em cada quadro de áudio/vídeo; e • Código de Huffman ou supressão de seqüências repetidas que são técnicas baseadas em entropia usadas para remover redundância que ainda persista após a aplicação das duas técnicas anteriores. Além dessas técnicas os algoritmos MPEG usualmente regulam o buffer de transmissão de forma a aumentar/reduzir a qualidade da mídia transmitida, controlando a taxa de bits transmitida, conforme haja mais/menos espaço disponível no buffer. Os principais padrões utilizados atualmente na codificação de áudio e vídeo são: MPEG-1, MPEG-2 e MPEG-4. O MPEG-1 foi criado para mídias com qualidade VHS (vídeo cassete), com vídeos codificados até 1,5 Mbps e áudio com 192 kbps por canal (qualidade CD estéreo). O MPEG-2, resultado de um segundo esforço de padronização, levou ao desenvolvimento de algoritmos baseados no MPEG-1, porém bem mais otimizados e sofisticados. Esse padrão é capaz de codificar vídeos com qualidade até 100 Mbps (HDTV – TV de Alta Definição). Contudo, uma utilização comum deste padrão emprega apenas 15 Mbps. O padrão MPEG-4 permite representar conteúdos de mídia na forma de objetos. Essa característica é bastante adequada no uso de TV digital, pois permite a manipulação dinâmica dos vídeos, possibilitando, por exemplo, a combinação, em um mesmo vídeo, de imagens capturadas com objetos sintetizados. Outra importante característica do MPEG-4 é a escalabilidade de grão fino (FGS – Fine Grain Scalability). Essa técnica é muito importante na difusão de vídeos, pois permite gerar um único fluxo representando o maior nível de qualidade do vídeo, mas que permite que níveis menores de qualidade sejam extraídos deste quando necessário (por exemplo, quando a CPU do cliente não tiver capacidade de processamento suficiente).
Outro padrão MPEG que ainda não vem sendo utilizado em sistemas de TV Digital, mas que poderá ser amplamente adotado no futuro é o MPEG-7. Esse padrão enfatiza a descrição dos componentes e propriedades do seu conteúdo veiculado. Ou seja, esse padrão visa prover dados com a descrição dos objetos que estão sendo apresentados. Esses dados de descrição – ou metadados – permitirão o desenvolvimento de ferramentas para busca e manipulação automática dos conteúdos multimídia veiculados pela TV Digital. Como exemplo, esse padrão tornará possível a um usuário localizar em um noticiário multimídia, armazenado localmente em seu receptor digital, notícias relacionadas com determinado assunto (desde que o provedor tenha inserido essas informações nos metadados). Os padrões MPEG-1 (assim como o MPEG-2) podem ser divididos em padrões para Áudio, Vídeo e Sistema, que serão brevemente descritos a seguir. 2.6.1. MPEG-1 Áudio Os padrões MPEG Áudio são formados por três esquemas de compressão independentes, e de complexidade crescentes, denominados, Camada-1, Camada-2 e Camada-3. O formato de compressão MP3 é o nome popular adotado para a Camada-3. O MP3 consegue manter a qualidade de áudio próxima de um CD apresentando taxa de compressão de 12:1. Basicamente, nesses esquemas de compressão são exploradas as características do sistema auditivo humano nos algoritmos de compressão. O ser humano não consegue ouvir sons com determinadas freqüências na presença de outros sons (mascaramento). Para a compressão (compressão com perdas – lossy), é feita uma conversão do áudio para uma representação no domínio de freqüência, separando e removendo os componentes tonais inaudíveis. 2.6.2. MPEG-1 Vídeo No MPEG a compressão de vídeo é obtida através da exploração tanto das redundâncias espaciais quanto temporais. A compressão de Huffman e a transformada DCT, por exemplo, se constituem em técnicas que usualmente conseguem boa compressão aproveitando a redundância espacial existente dentro de cada quadro de vídeo (por isso, são chamadas de técnicas de compressão intra-quadros). Essas técnicas foram desenvolvidas e aplicadas no JPEG, padrão para codificação e compressão de imagens. Uma abordagem possível é a da compressão de vídeo usando apenas técnicas de compressão intra-quadros. Essa compressão – denominada MJPEG ou Motion JPEG – recebe esse nome por ser semelhante a uma seqüência de quadros JPEG. Essa abordagem tem a vantagem de possuir uma rápida compressão, sem consumir muita capacidade de processamento, apesar de apresentar taxas reduzidas de compressão. No MPEG-1 Vídeo a compressão temporal é obtida através do uso de diferentes tipos de quadros. Os três principais são: Quadros I – Intracoded
São denominados intracoded (codificados internamente) porque são quadros autocontidos, ou seja, não dependem de nenhum outro. Cada quadro é semelhante a uma imagem JPEG, e possui apenas compressão espacial.
Quadros P – Predicted
São codificados usando técnica de compensação de movimento com relação a um quadro anterior (P ou I). Consegue uma taxa bem maior do que a obtida com um quadro I, sendo típica a obtenção de quadros com metade do tamanho de quadros I. Quadros B – Bidirectionally predicted
São codificados usando a técnica de compensação de movimentos considerando quadros I ou P, anteriores e posteriores (daí a origem do nome bidirecional). Diferentemente dos quadros I e P, um quadro B nunca é utilizado como referencia para outro quadro, portanto não há possibilidade de propagação de erros, como nos outros tipos de quadro. Isso permite o uso de compressão mais “agressiva”, sendo o tipo de quadro consegue a maior taxa compressão. A Figura 2.5 apresenta uma seqüência típica de apresentação de quadros MPEG-1 Vídeo. Um GOP (Group of Pictures) é uma seqüência de quadros MPEG que começa com um quadro I, e costuma ser formada por quadros P e B. Quadros I são usados como pontos de sincronização. Ou seja, caso algum quadro apresente problemas (ex. erros devidos a ruídos), o erro se propaga até o próximo quadro I. Quanto menor o tamanho de um GOP, ou seja, quanto menor a distância entre dois quadros I em uma seqüência de quadros, mais “rapidamente” ocorre a sincronização. GOP
I B B B P B B B I
tempo Figura 2.5. Seqüência de apresentação de quadros de vídeo MPEG.
Importante notar que a seqüência de apresentação, mostrada na Figura 2.5 não representa a seqüência de geração dos quadros. Isso ocorre porque um quadro B precisa aguardar a geração do quadro P ou I, posterior, antes dele ser gerado (a provável seqüência de geração desses quadros é IPBBBIBBB). Portanto, um GOP que usa quadros B implica em uma posterior reordenação de quadros após sua geração, antes de sua apresentação. 2.6.3. MPEG-1 Sistema MPEG-1 Systems é a parte do padrão MPEG-1 que lida com a multiplexação de fluxos elementares (elementary streams) de áudio e vídeo em um único fluxo (system stream). A Figura 2.6 esquematiza um MPEG-1 Systems, formado por dois fluxos elementares (um de áudio e outro de vídeo). Os fluxos elementares são resultantes da aplicação do padrão MPEG-1 Áudio e MPEG-1 Vídeo, e possuem suas saídas sincronizadas por uma base comum de tempo, e multiplexadas (agregadas) em um único fluxo de sistema.
Sinal de áudio
Codificador de áudio Multiplexador de Sistema
Relógio (base de tempo) Sinal de vídeo
MPEG-1 System Stream
Codificador de vídeo
Figura 2.6. Multiplexação de áudio e vídeo em um stream MPEG-1 System.
2.6.4. MPEG-2 As especificações MPEG-1 foram congeladas no momento em que foi lançado o padrão MPEG-2 em 1994. O MPEG-2 (especificado pela ITU sob o nome de H.262) é constituído de 10 partes, sendo as mais importantes [Tektronix 2002]: • ISO/IEC 13818-1 Systems. • ISO/IEC 13818-2 video coding. • ISO/IEC 13818-3 audio coding. • ISO/IEC 13818-6 data broadcast and DSM-CC. O padrão MPEG-2 é direcionado, principalmente, para áudio e vídeo de alta qualidade e alta resolução, sendo utilizado por todos os sistemas atuais de TV Digital. Contudo, além da TV Digital, existem muitas aplicações que adotam a codificação MPEG-2. Essas aplicações podem ter requisitos muito diferentes com relação à taxa de compressão e resolução. Esses diferentes requisitos de qualidade implicam que dificilmente iria se conseguir desenvolver um único decodificador que atendesse a toda essa variedade de situações (ou esse decodificador se tornaria demasiadamente caro). Dessa forma, foram especificados diferentes níveis e perfis para as aplicações alvo MPEG-2 (Tabela 2.2.). Enquanto os níveis se referem principalmente às diferentes possibilidades de resolução do vídeo, os perfis definem diferentes esquemas de codificação. Entre as doze combinações válidas, a Simple Perfil Main Level (SP@ML) é a que supostamente mais se aproxima das necessidades de difusão de um vídeo com qualidade padrão (SDTV); e a Main Perfil High Level (MP@HL) foi criada para ser usada com TV de alta definição (HDTV). O MPEG-2 Áudio e MPEG-2 Vídeo usam os mesmos princípios dos algoritmos de compressão do MPEG-1, porém com diversas extensões e melhorias.
Tabela 2.2. Níveis e perfis de vídeos MPEG-2. Perfil SIMPLE Nível HIGH
---
Nível HIGH-1440
---
Nível MAIN Nível LOW
720 x 576 15Mpbs sem quadros B ---
Perfil MAIN 1920 x 1152 80 Mbps I, P, B 1440 x 1152 60 Mbps I, P, B 720 x 576 15 Mbps I, P, B 352 x 288 4 Mbps I, P, B
Perfil 4:2:2
Perfil SNR Scalable
Perfil Spatial Scalable
---
---
---
---
---
1440 x 1152 60 Mbps I, P, B
720 x 576 15 Mbps I, P, B
720 x 576 15 Mbps I, P, B 352 x 288 4 Mbps I, P, B
---
---
---
Perfil HIGH 1920 x 1152 100 Mbps I, P, B 1440 x 1152 80 Mbps I, P, B 720 x 576 20 Mbps I, P, B ---
2.6.5. MPEG-2 TS De forma semelhante ao que ocorre com o MPEG-1, o MPEG-2 Systems também lida com a multiplexação de fluxos elementares de áudio e vídeo. Porém, o MPEG-2 Systems define dois esquemas de multiplexação: programa e transporte. Um MPEG-2 Programa (MPEG-2 PS) é similar ao do MPEG-1 Sistema. Já o MPEG-2 Transporte (MPEG-2 TS) é formado por pacotes fixos de 188 bytes e, diferentemente do padrão anterior, não obriga a existência de uma base comum de tempo. MPEG-2 PS e MPEG-2 TS possuem diferentes objetivos. O primeiro foi especificado visando armazenamento local de dados (ex. armazenamento de vídeos em um DVD); o MPEG-2 TS é voltado para o transporte (difusão) de dados. Esse último padrão tem uma série de características visando torná-lo imune a erros de transmissão (por isso, um tamanho pequeno de pacotes, 188 bytes, pois facilita a ressincronização caso haja perdas de pacotes). 2.6.6. MPEG-2 DSM-CC O DSM-CC (Digital Storage Media Command and Control) apresenta especificações de protocolos que permitem gerenciar fluxos MPEG-1 e MPEG2. Foi criado inicialmente para lidar com entrega de vídeo sob demanda usando MPEG, mas, atualmente, o DSM-CC tem grande importância em TV Digital pois especifica formas de difundir dados digitais dentro de fluxos MPEG (datacasting). O transporte de dados do DSM-CC é baseado em um fluxo MPEG-2 TS que pode conter vários programas, cada qual, por sua vez, composto por áudio, vídeo e dados (Figura 2.7). vídeo Programa
áudio dados
MPEG-2 Transporte
vídeo Programa
áudio dados
Figura 2.7. MPEG-2 TS encapsulando dados [Schwalb 2003].
Importante não confundir os programas transportados por um MPEG-2 TS com um MPEG-2 PS. Esse último, definido no MPEG-2 Systems, apesar de também conter
fluxos elementares (elementary streams) de vídeo e áudio, é uma especificação de como multiplexar esses fluxos elementares com objetivo de armazená-los no disco. Já um programa, conforme representado na Figura 2.7, é definido simplesmente como um grupo de fluxos elementares, com uma base de tempo comum. Usando essa definição, é possível fazer uma simples analogia com um programa de televisão que assistimos em nossa TV analógica, composto de vídeo, áudio e legenda. Os dados são transportados sob o mesmo meio físico que as mídias contínuas (áudios e vídeos) encapsulados em um programa, e portanto, compartilham a largura de banda deste meio. O DSM-CC é fundamental para a implementação do conceito de datacasting através do carrossel. O carrossel é uma abstração de um mecanismo onde áudio, vídeo e dados são enviados ciclicamente, de forma entrelaçada no tempo. De uma forma geral, carrossel permite que usuários de TV interativa possam selecionar seus serviços quando necessário. Mais informações sobre o carrossel será vista adiante, junto com informações sobre sistemas de TV Digital. Cada programa pode ser concebido como um serviço da TV Digital. Esse serviço pode ser um canal de TV convencional com vídeo, áudio e legenda, mas pode ser qualquer combinação de fluxos elementares – inclusive apenas dados (um datacasting). Com o objetivo de identificar esses serviços, algumas tabelas são definidas no MPEG-2 TS. Cada fluxo elementar recebe um identificador único (PID – Packet Identifier) de 13 bits. Todo pacote de 188 bytes pertencente ao mesmo fluxo elementar é identificado pelo mesmo PID. Um PID é apenas um número, e por isso não contém informações sobre qual o tipo do fluxo e qual serviço (programa) referencia. Para isso o MPEG-2 TS define um conjunto de tabelas, com o nome de PSI (Program Specific Information). Um PSI é, na verdade, uma coleção de outras tabelas, a se destacar: PAT (Program Association Table), CAT (Conditional Access Table), e PMTs (Program Map Table) (Figura 2.8). Os serviços (programas) existentes em um MPEG-2 TS são listados em uma tabela PAT, que sempre possui PID 0 (por isso, é facilmente identificável). Um PAT possui uma lista de PIDs de PMTs. Cada PMT corresponde a um programa, e contém uma lista de PIDs dos fluxos elementares que o compõem. PAT (PID 0) Serviço 1 2 3
PID 200 300 400
PMT (PID 200) PID 100 102 103
Serviço 1 Fluxo Elementar vídeo áudio dados
CAT (PID 1) Dados de acesso condicional
PMT (PID 300) PID 100 102 106
Serviço 2 Fluxo Elementar vídeo áudio dados
PMT (PID 400) PID 107
Serviço 3 Fluxo Elementar dados
Figura 2.8. PSI – Um conjunto de tabelas descrevendo serviços.
Na Figura 2.8 é possível observar que o PAT enumera três serviços, cujos PIDs são 200, 300 e 400. Os serviços com os PIDs 200 e 300 possuem fluxos elementares de
vídeo e de áudio (com PIDs 100 e 102, respectivamente) que são compartilhados entre eles. Esses serviços poderiam representar o mesmo vídeo sendo difundido com duas legendas diferentes (as legendas possuiriam os PIDs 103 e 106). O PAT ainda ”aponta” para um serviço (um PMT) com PID 400, que possui apenas um fluxo elementar de dados com PID 107 (um datacasting). Alguns programas (serviços) podem ser abertos, acessíveis a todos, contudo outros podem necessitar assinatura especial para acessá-los. Nesse sentido, todo PSI possui um CAT com dados usados para acesso condicional (criptografia), cujo PID sempre é 1 (portanto, fácil de identificar). 2.6.7. MPEG-2 AAC e Dolby AC-3 Após 1991, a partir do desenvolvimento da Camada-3 do MPEG-1 Áudio (também denominada MP3), as pesquisas sobre compressão de áudio evoluíram até produzir o desenvolvimento de um novo padrão: o MPEG-2 AAC (Advanced Áudio Coding). Esse padrão – especificado como parte 7 do padrão MPEG-2 – consegue taxas de compressão bem superior que seu antecessor, permitindo o uso de até 48 canais principais de áudio, além de outros canais de baixa freqüência. O Dolby AC-3, diferentemente dos padrões MPEG, é especificado por uma única companhia: Dolby Laboratories. Esse padrão proprietário, largamente utilizado na codificação de áudio em filmes para cinema e DVD, foi o esquema de compressão escolhido pelo sistema ATSC – padrão de TV digital norte-americano. O Dolby AC-3 é a terceira geração de algoritmos de áudio. Permite até 5 canais principais e um canal subwoofer que podem ser comprimidos em um único fluxo de dados com 640kbps.
2.7. Componentes da TV digital interativa Um sistema de TV digital interativa pode ser decomposto em três partes: (i) um difusor, responsável por prover o conteúdo a ser transmitido, e suportar as interações com os telespectadores; (ii) um receptor que recebe e apresenta o conteúdo e possibilita ao telespectador interagir com o difusor; e (iii) um meio de difusão, composto por canal de difusão e canal de retorno (ou canal de interatividade), que habilita a comunicação entre difusor e receptor (Figura 2.9). Receptor
Difusor Canal de difusão Provedor de Serviço de Difusão
Cabo
Provedor de Serviço de Interação
Receptor digital ou set top box
Meios de Difusão: Radiodifusão
Satélite
Telespectador
Canal de retorno
Figura 2.9. Modelo de um sistema de televisão digital Interativa.
2.7.1. Meios de difusão A difusão é o envio do conteúdo (áudio, vídeo ou dados) de um ponto provedor do serviço de difusão – que é responsável pelo gerenciamento de diversos canais televisivos, – para outros pontos, os receptores, onde se encontram a recepção digital e os telespectadores. Os meios de difusão mais comuns são via satélite, cabo e radiodifusão, sendo esse último também conhecido como difusão terrestre. O provedor de serviço de difusão pode deter e controlar o seu meio de difusão. Esse é o caso típico quando o meio de difusão usado é via cabo. Por outro lado, um provedor que difunde seu conteúdo via satélite usualmente não é responsável pela operação desse meio. Plataformas de cabo possuem como vantagem uma boa largura de banda para o canal de difusão e para o canal de retorno (usado para a interação do telespectador com o provedor do serviço) [Gawlinsk 2003]. Contudo, a grande desvantagem do uso desse meio é que a transmissão só alcança as residências que estão interligadas fisicamente. Plataformas de satélite possuem como vantagem o alcance de seu sinal, que pode alcançar os mais recônditos lugares do planeta. Não existem grandes custos intermediários no crescimento do alcance da rede de difusão (no caso do cabo existe a necessidade de passar cabos por novas ruas). No entanto, esse meio de difusão apresenta como desvantagem a dificuldade de estabelecer um canal de retorno entre o telespectador e o provedor usando o próprio satélite. Essa dificuldade usualmente é superada através do uso de linhas telefônicas. A grande vantagem do uso de difusão terrestre é o fato desse meio ser usado atualmente nas televisões convencionais. Por conseguinte, em teoria, é possível estabelecer de uma forma mais simples a migração lenta entre telespectadores de TV convencional para a TV digital interativa. Uma desvantagem desse meio é o fato que usualmente tem menos largura de banda disponível, tendendo a possuir menos canais de TV e serviços interativos do que as plataformas via cabo e satélite. Além disso, possui o problema do canal de retorno, da mesma forma que ocorre no caso do uso de satélite. 2.7.2. Lado do difusor A difusão de um sinal de TV digital implica em várias etapas para construção do sinal a ser difundido (Figura 2.10). Além dos fluxos vídeo e áudio, existe um terceiro tipo de informação que também pode ser difundido: dados. Os exemplos são inúmeros, desde legendas de filme, guias de programação de canais (EPG – Electronic Program Guide) ou qualquer tipo de dado que pode ser usado para prover um serviço (ex. dados para tgoverno). Mas existe um tipo de dado importante em TV digital: aplicativos – programas usualmente em linguagem Java –, que serão executados na televisão digital, que passa a possuir capacidade de processamento. Existem duas formas de gerar conteúdo televisivo: transmiti-lo ao vivo ou gravar seqüências de vídeo e áudio para posterior edição antes da difusão. Em ambas as formas, para poderem ser difundidos, os sinais de áudio e vídeo precisam ser codificados por um elemento codificador (encoder) e encapsulados em pacotes de transporte MPEG2-TS por um multiplexador. Os dados também precisam ser inseridos no multiplexador, através de um injetor de dados.
Geralmente os fluxos elementares na televisão digital são codificados usando taxa de bits variável (VBR). Após a multiplexação desses fluxos, um problema que poderia ocorrer é o somatório da taxa de bits gerada ultrapassar a largura de banda disponível para difusão. Esse problema é amenizado pelo fato que cada fluxo elementar usualmente possuir a taxa máxima em instantes diferentes. Após a multiplexação, o próximo passo é transformar esse sinal digital em um sinal analógico para que o mesmo possa ser difundido pelos meios convencionais. Cabe ao modulador essa tarefa. Aquisição de áudio e vídeo
Codificador MPEG-2
Edição e inserção de conteúdo pré-codificado
Codificador MPEG-2
Injetor de dados
Multiplexador
Modulador
UpConverter
Meios de Difusão: Cabo
Radiodifusão
Satélite
Figura 2.10. Etapas de difusão.
O modulador gera um sinal analógico em baixa freqüência. Esse sinal precisa ser convertido em um sinal de freqüência maior para poder ser difundido pelos diversos meios. O equipamento responsável por essa conversão é o UpConverter. 2.7.3. Lado do receptor e set top box Antes de ser processado por um receptor, o sinal difundido precisa ser captado por uma antena específica para a tecnologia usada, no caso de satélite ou radiodifusão, ou chegar via cabo. O receptor pode estar embutido em uma televisão digital ou ser um equipamento à parte. Nesse último caso, o receptor passa a ser conhecido como terminal de acesso ou set top box. A idéia básica desse dispositivo é o de uma pequena caixa agregada a uma televisão analógica, que converte os sinais digitais para que sejam assistidos por essas televisões convencionais. Um receptor ou set top box pode possuir também um canal de retorno tornando possível uma interatividade entre o telespectador e os serviços disponíveis. Esse canal de retorno pode utilizar as mais diversas tecnologias disponíveis, como linha telefônica
discada, xDSL e cabo, para fazer a comunicação no sentido inverso da difusão, do telespectador para o operador da rede. Para permitir ao telespectador a interação com os serviços, os set top boxes possuem capacidade de processamento. Por isso seu hardware pode conter tecnologias que são comuns aos computadores, tais como CPU, memória, modems para canal de retorno, discos rígidos para armazenamento de dados, e leitores de smart cards para controle de acesso. Como ocorre em computadores convencionais, esses dispositivos são controlados por device drivers de sistemas operacionais. Contudo, esses sistemas operacionais são bem mais simples que os convencionais, e possuem código armazenado em memória não volátil (ROM). Set top boxes também precisam lidar com controle remoto, tal como na TV convencional. Contudo as semelhanças param aqui, pois os tipos de serviços são bem diferentes dos da TV convencional. Portanto, uma área de pesquisa em TV digital, é o projeto de novos tipos de controles remotos, funcionalidades e interfaces com o telespectador. As etapas envolvidas com processamento do sinal em um set-top box são ilustradas na Figura 2.11. Meios de Difusão: Cabo
Radiodifusão
Satélite
Sintonizador sinal Demodulador fluxo de transporte Demultiplexador
Decodificador MPEG-2
Fluxo de dados
fluxos elementares de áudio, vídeo e dados
Sinais de áudio e vídeo no formato específico da televisão
Figura 2.11. Etapas da recepção.
O primeiro elemento que processa (capta) o sinal difundido é o sintonizador digital. A seguir, o sinal passa pelo demodulador, que extrai o fluxo de transporte MPEG-2, passando-o para o demultiplexador, responsável por extrair todos os fluxos elementares. Esses, por sua vez, são então encaminhadas para o decodificador, que os converterá para o formato apropriado de exibição utilizado pelo equipamento televisivo.
2.7.4. Datacasting, Carrossel de dados e carrossel de objetos O surgimento da TV digital tornou possível a transmissão de qualquer tipo de dados digitais. Esse serviço, conhecido como datacasting (data broadcasting) poderá vir a ser estratégico no futuro da TV Digital [Pagani 2003] [Griffiths 2003]. Os serviços de datacasting podem ser classificados segundo seu grau de acoplamento com o fluxo de vídeo/áudio difundido. Um datacasting fortemente acoplado é aquele onde os dados difundidos têm relacionamento temporal com o fluxo de vídeo/áudio. Um teletexto sobre a matéria que está sendo apresentada no vídeo, ou uma partitura musical do áudio que está sendo executado são exemplos desse tipo de datacasting. No datacasting fracamente acoplado, os dados são relacionados ao áudio e vídeo, mas o telespectador pode escolher o melhor momento para acessar esses dados (podendo ser até mesmo no final do vídeo). Um material educacional adicional a um vídeo educativo, pode ser um exemplo. No datacasting desacoplado o dado pode ser enviado em um fluxo separado, totalmente independente de outros fluxos. 2.7.4.1 Carrossel de dados
O DSM-CC especifica dois tipos de protocolos: carrossel de dados (data carrossel) e carrossel de objetos (object carrossel). O uso desses protocolos é a forma mais eficiente para implementar o datacasting. Em um carrossel, os dados são enviados periodicamente sobre um fluxo de transporte MPEG-2 (Figura 2.12). Dados B Dados A Dados C Dados E Dados D
carrossel de dados
os dados são transmitidos intercalados
usuários podem selecionar um dos dados transmitidos
Figura 2.12. Carrossel de dados [Gawlinsk 2003].
O carrossel de dados é mais simples e limitado que o carrossel de objetos. Não possui itens individuais de dados, ou estruturas de diretórios, apenas um pedaço monolítico de dados. Por outro lado, o carrossel de objetos estende o de dados, padronizando uma forma de fazer difusão de dados identificáveis (ou objetos), de um servidor para um receptor, que podem ser imagens, programas, arquivos texto, etc. O DSM-CC é incompleto na forma de determinar como as aplicações nos set top boxes irão lidar um carrossel de dados ou objetos. Por esse motivo, os sistemas de TV digital (europeu, norte-americano e japonês) especificam APIs com esse objetivo. O MHP, por exemplo, middleware do sistema DVB (será visto mais sobre esse assunto adiante neste texto), especifica um MHP File System com esse objetivo (Figura 2.13).
DVB MHP File System DSM-CC Object Carrossel DSM-CC Data Carrossel MPEG Audio
MPEG Video
MPEG-2 Sessão Privada MPEG-2 TS
Figura 2.13. Sistema de arquivos MHP sobre carrossel de objetos [TAM 2003].
2.8. Características dos principais sistemas de TV digital Como ocorre em projetos de edificações, a melhor forma de lidar com um sistema complexo – como no caso de um sistema de TV digital interativa –, é através da representação de sua arquitetura. Uma arquitetura visa mostrar os principais elementos de um sistema, e suas interações, escondendo detalhes que não são considerados importantes sob um determinado ponto de vista. Uma arquitetura que representa as camadas de tecnologias existentes em TV digital interativa é apresentada na Figura 2.14. Aplicações EPG
t-gov
t-comércio
internet
Middleware DASE Compressão
Áudio Vídeo
MPEG-2 BC
MHP
ARIB
MPEG-2 AAC
MPEG-2 SDTV
Dolby AC3
MPEG-2 HDTV
Transporte MPEG-2 Transmissão Modulação
8-VSB
COFDM
Figura 2.14. Arquitetura da TV digital.
A idéia por detrás da arquitetura é a de que cada camada oferece serviços para a camada superior, e usa os serviços oferecidos pela camada inferior. Dessa forma, uma aplicação que executa em TV digital interativa faz uso de uma camada de middleware, que intermedeia toda a comunicação entre a aplicação e o resto dos serviços oferecidos. A finalidade da camada de middleware – ou camada do meio – é oferecer um serviço padronizado para as aplicações (camada de cima), escondendo as peculiaridades e heterogeneidade das camadas inferiores (tecnologias de compressão, de transporte e de modulação). O uso de middleware facilita a portabilidade de aplicações, que podem ser transportadas para qualquer receptor digital (ou set-top box) que suporte o middleware adotado. Essa portabilidade é primordial em sistemas de TV digital, pois é muito complicado considerar como premissa que todos os receptores digitais sejam exatamente iguais.
As principais especificações existentes de TV digital – norte-americano, europeu e japonês – adotam diferentes padrões para middleware em seus receptores digitais. Dessa forma, na seqüência deste texto, esses padrões de TV digital e seus middlewares são introduzidos e comparados. 2.8.1. DVB – Digital Video Broadcasting O DVB (Digital Video Broadcasting) é conhecido como o padrão europeu de televisão digital. Na realidade esse padrão é formado por um conjunto de documentos, definindo padrões de transmissão, sendo os mais conhecidos: DVB-T (radiodifusão), DVB-C (difusão por cabo), DVB-S (difusão por satélite) e DVB-MHP (Multimedia Home Plataform – padrão de middleware para TV digital). Esse conjunto de padrões é definido por um consórcio homônimo, que começou oficialmente em setembro de 1993. O consórcio DVB é atualmente composto por mais de 300 membros, de 35 países. O padrão DVB-T é adotado em países da Europa, além da Austrália, Malásia, Hong Kong, Índia, África do Sul e diversos outros países fora da Europa. O país que mais consolidou o uso do DVB é a Inglaterra, já possuindo mais de um milhão de usuários. Neste e nos demais países, a televisão digital terrestre é um serviço pago, e os set top boxes são subsidiados pelas operadoras de TV. O DVB-T é um esquema de transmissão para difusão de televisão digital terrestre (radiodifusão). Utiliza a modulação COFDM cuja taxa de transmissão varia entre 5 a 31,7 Mbps, dependendo dos parâmetros utilizados na codificação e modulação do sinal. Pode operar em canais de TV de 6, 7 ou 8 MHz. A multiplexação e codificação de áudio e vídeo são feitas sobre o padrão MPEG-2. O middleware utilizado é o MHP (Multimedia Home Plataform), descrito a seguir. 2.8.1.1 MHP – Multimedia Home Platform
Há algum tempo a comunidade que desenvolve tecnologia para TV digital percebeu que provedores de serviços não iam ter sucesso comercial se tivessem que desenvolver serviços interativos que não fossem portáveis em set top boxes de diferentes fabricantes. Em 1997 o grupo DVB começou a especificar uma camada de middleware, que deu origem à plataforma MHP em junho de 2000. Um ano após a primeira versão, em abril de 2001, foi lançada a especificação MHP 1.1. O MHP busca oferecer um ambiente de TV interativa, independente de hardware e software específicos, aberto e interoperável, para receptores e set top boxes de TV digital. Seu ambiente de execução é baseado no uso de uma máquina virtual Java (a mesma linguagem de programação adotada em computadores) e um conjunto de interfaces de programação de aplicações (APIs). Essas APIs possibilitam que programas escritos em Java possam ter acesso a recursos e facilidades do receptor digital de forma padronizada. Uma aplicação DVB que usa API Java é denominada uma aplicação DVB-J. Em adição ao uso da API Java, o MHP 1.1 introduziu a possibilidade do uso de uma linguagem de programação semelhante ao HTML (empregada na internet para programação de páginas web), denominada DVB-HTML. Aplicações DVB-J e DVB-HTML possuem a capacidade de:
• carregar (download), através de um canal de inetartividade, aplicações interativas; • armazenar aplicações em memória persistente (ex. disco rígido); • acessar leitores de smart cards; • controlar aplicações de internet, tais como navegador web e leitor de email. Em adição ao MHP, o MHEG-5 (padrão ISO/IEC 13522-5) também é adotado na camada de middleware no DVB-T. O MHEG é um padrão usado para representar apresentações multimídia, permitindo interatividade do usuário com o conteúdo da apresentação. No caso da TV digital, MHEG-5 pode ser usado para representar um guia de programação eletrônico (EPG). A especificação do MHP herdou uma série de características que já existiam no MHEG, tal como o uso de carrossel de dados. Atualmente, existe um esforço conjunto para que as especificações de ambos os padrões possam coexistir em uma mesma TV digital. 2.8.2. ATSC – Advanced Television Systems Committee Em funcionamento nos Estados Unidos desde novembro de 1998, o ATSC também já foi adotado pelo Canadá, Coréia do Sul, Taiwan, e recentemente, pelo México. Esse padrão utiliza a modulação 8-VSB, possuindo uma taxa de transmissão de 19,8 Mbps, ocupando uma largura de banda de 6, 7 ou 8 MHz. A multiplexação e codificação de vídeo são feitas sobre o padrão MPEG-2. Já a codificação de áudio é realizada através do padrão Dolby AC-3. O middleware utilizado é o DASE (DTV Application Software Enviroment), visto a seguir. 2.8.2.1 DASE – DTV Application Software Environment
O DASE foi desenvolvido pelo ATSC como um padrão norte-americano para a camada de middleware em set top boxes de TVs digitais. De forma similar ao MHP, o DASE adota uma máquina virtual Java como mecanismo que facilita a execução de aplicações que permitem interatividade. Também de forma similar ao MHP, o DASE também permite o uso de linguagens declarativas, usadas na web, como HTML e JavaScript. Infelizmente, as semelhanças entre esses dois padrões param neste ponto. Os middlewares MHP e DASE não foram projetados para serem compatíveis entre si. Isso significa que um serviço desenvolvido para um desses padrões não irá funcionar em outro. 2.8.3. ISDB – Integrated Services Digital Broadcasting Criado em 1999 por várias empresas e operadoras de televisão, o ISDB-T é o padrão de transmissão terrestre japonês, sendo adotado somente por esse país. Utiliza na modulação o COFDM, com algumas variações; possui uma taxa de transferência que varia entre 3,65 à 23,23 Mbits/s, e uma largura de banda de 6, 7 ou 8 MHz. As suas maiores vantagens são a grande flexibilidade de operação e potencial para transmissões móveis e portáteis. A multiplexação e codificação de vídeo, como nos dois padrões anteriores, também são realizadas em MPEG-2. A codificação de áudio utiliza o MPEG2 ACC
audio. O middleware é o ARIB (Association of Radio Industries and Businesses), descrito a seguir. 2.8.3.1 ARIB – Association of Radio Industries and Businesses
O middleware do ISDB é padronizado pela Organização ARIB. Esse middleware é formado por alguns padrões como o ARIB STD-B24 (Data Coding and Transmission Specification for Digital Broadcasting) que define linguagem declarativa denominada BML (Broadcast Markup Language). Essa linguagem, baseada em XML (Extensible Markup Language) é usada para especificação de serviços multimídia para TV digital. Outra especificação do middleware é o ARIB STD-B23 (Application Execution Engine Platform for Digital Broadcasting). Essa especificação é baseada no DVBMHP, e indica uma tendência do ARIB de tentar estabelecer uma conformidade com outros padrões de middleware. 2.8.4. Experiências brasileiras As discussões em torno do assunto TV digital começaram no Brasil em 1994. Desde então têm se debatido vários aspectos tecnológicos, porém nunca se aprofundou a questão do conteúdo ou finalidades da tecnologia. Os padrões internacionais sempre estiveram no centro das discussões, desvirtuando os reais efeitos dos avanços tecnológicos, seja na radiodifusão ou nas telecomunicações, dois temas intrínsecos ao assunto. Esses estudos nunca chegaram a resultados concretos. Ficaram muito mais na suposição e na falta de vontade política de avançar. Apesar das sugestões da Anatel, que até chegou a propor o padrão japonês como o mais adequado para o país [Anatel 2001], poucos dados empíricos estão disponíveis para balizar qualquer argumento sobre a pertinência da adoção de um padrão estrangeiro ou sobre o desenvolvimento de um padrão nacional. O resultado é mais um atraso tecnológico, industrial e econômico, tônica da realidade brasileira nas últimas décadas. Os estudos sobre o assunto têm raízes na criação da Comissão Assessora para Assuntos de Televisão (Com-TV), estabelecida pelo Ministério das Comunicações em 1991. A Comissão tinha como objetivo principal o estudo e a análise da TV de alta definição, em desenvolvimento em alguns países, principalmente no Japão e nos EUA, e em discussão no âmbito da União Internacional de Telecomunicações (UIT, sigla em inglês). Após o surgimento dos sistemas digitais, a TV de alta definição passou a ser chamada de televisão digital, uma vez que praticamente pararam os estudos sobre a TV analógica. As primeiras pesquisas brasileiras sobre a TV digital foram feitas em 1994 pela Sociedade Brasileira de Engenharia de Televisão (SET) e a Associação Brasileira de Emissoras de Rádio e Televisão (Abert). Desde então, um grupo de pesquisa formado a partir dessas duas associações estuda a passagem do atual sistema de radiodifusão analógico para o padrão digital. O grupo tem acompanhado, estudado e avaliado os sistemas de TV digital desenvolvidos no mundo, além de observar sua implantação nos diversos países. Centrando os estudos nos três padrões existentes, o grupo avançou em 1998, quando a Anatel iniciou os seus estudos sobre TV digital e mercado de
telecomunicações. Além de tomar a frente nas pesquisas, a Agência avalizou a iniciativa SET/Abert, dando continuidade ao trabalho que vinha sendo desenvolvido, porém com uma visão mais pragmática. O objetivo inicial estava claro: escolher um dos três padrões para ser adotado pelo Brasil. O desenvolvimento de um padrão nacional estava praticamente fora de questão. Ainda em 1998, a Anatel iniciou o processo de escolha do padrão digital da TV brasileira, através da abertura da Consulta Pública nº 65, de 27 de julho. O objetivo desse procedimento era viabilizar os testes de campo com os sistemas digitais disponíveis. Em novembro do mesmo ano, 17 emissoras manifestaram interesse em participar dos testes, entre elas a Fundação Padre Anchieta, o SBT e a TV Globo. Em seguida a Anatel iniciou o processo de contratação de consultorias especializadas para assessorar os pesquisadores no assunto. No inicio de 1999 foram importados os equipamentos necessários para testar os três sistemas de transmissão. Os testes de laboratório e de campo foram feitos em setembro daquele ano e em janeiro de 2000, respectivamente. O passo seguinte foi demonstrar a nova tecnologia em diversos shopping centers. Depois a Anatel visitou as entidades representantes dos três padrões testados e outros órgãos governamentais reguladores do serviço de radiodifusão. Logo no inicio dos testes, em fevereiro de 2000, percebeu-se que a modulação 8VSB, usada pelo padrão norte-americano, não atendia às necessidades brasileiras, uma vez que seu desempenho foi insatisfatório na recepção doméstica, principalmente usando antenas internas. Esse fato levou a Anatel a descartar o padrão de modulação norte-americano, colocando em consulta pública a utilização do COFDM, usado pelo DVB e ISDB. Atualmente, quase metade (47%) dos aparelhos de TV tem recepção apenas por antenas internas. Esse número aumenta consideravelmente se adicionarmos os aparelhos com antenas externas, mas que mesmo assim recebem predominantemente o sinal pelas antenas internas. O relatório final dos testes de TV digital confirmou o melhor desempenho dos padrões europeu e japonês, além do desempenho insuficiente do padrão norteamericano nos quesitos transmissão de sinais em áreas de sombra e para receptores móveis. Entre os dois primeiros, o padrão japonês foi considerado superior ao sistema europeu, devido ao melhor desempenho na recepção de sinais televisivos em ambientes fechados, e a sua flexibilidade para recepção de programas ou acesso a serviços, através de terminais fixos ou móveis. Em 31 de agosto de 2000, a Anatel encerrou a discussão técnica sobre o padrão de TV digital a ser adotado no Brasil. Esperava-se um pronunciamento oficial sobre qual padrão seria adotado, mas este anúncio foi adiado para depois da posse do novo governo, que ocorreria dois anos depois. Após a posse no novo governo, o então Ministro das Comunicações, Miro Teixeira, encaminhou uma carta de intenções ao Presidente da Republica, onde levantou a necessidade da inclusão digital através da TV interativa [Ministério das Comunicações 2003]. Era o primeiro sinal de que o assunto teria outro tratamento. O passo seguinte foi o anúncio de que o país desenvolveria um padrão próprio de transmissão, idéia que foi amplamente defendida pelo ministro até sua saída do Ministério, um ano após tomar posse. Em maio do mesmo ano, foi criado um grupo de
estudo para analisar novamente o assunto e dar um parecer sobre os estudos já realizados. Os trabalhos desse grupo de estudo duraram até novembro, quando saiu o decreto Nº 4.901, de 26 de novembro de 2003, que instituiu o Sistema Brasileiro de TV Digital (SBTVD). O decreto, além de nortear a transição do sistema analógico para o digital, deixou claro que esse avanço tecnológico não se restringiria a uma simples troca de equipamentos. A preocupação com a inclusão social por intermédio da TV e com o desenvolvimento da indústria nacional estava entre os principais objetivos. O decreto deixou claro que a TV digital seria uma ferramenta com finalidades sociais, não uma simples evolução tecnológica que atende apenas a interesses mercadológicos ou econômicos [Brasil 2003]. Para a gestão e execução do SBTVD, foram criados três comitês: Comitê de Desenvolvimento, Comitê Consultivo e Grupo Gestor. Ao primeiro, vinculado diretamente à Presidência da República, compete definir as políticas para o desenvolvimento do sistema, incluindo o desenvolvimento tecnológico, a transição, a regulação e o modelo de negócios a ser adotado. É um órgão político, composto por Ministros de Estado. O Comitê Consultivo é uma extensão do Comitê de Desenvolvimento, sendo responsável pela proposta de ações e diretrizes fundamentais ao sistema. É composto por representantes da sociedade civil, indicados pelas entidades que desenvolvem atividades relacionadas ao tema. O Grupo Gestor é responsável pelas ações determinadas pelos dois Comitês, sendo apoiado pela Financiadora de Estudos e Projetos (Finep) e pela Fundação CPqD. O decreto de criação do SBTVD estabeleceu o prazo de um ano, contando a partir da data da criação do Comitê de Desenvolvimento, para a realização dos estudos e apresentação do relatório sobre a adoção ou o desenvolvimento de um padrão de TV digital, além da transição e exploração do novo modelo. O Comitê foi criado em março de 2004, iniciando o prazo de um ano para as definições.
2.9. Comentários finais Este texto descreveu os componentes básicos da TV digital e interativa e alguns desdobramentos que o tema adquiriu no Brasil. De forma introdutória, procurou-se fomentar o debate em torno do assunto, através da apresentação dos principais conceitos relacionados ao tema e necessários para embasar opiniões mais convincentes. Em nenhum momento teve-se a pretensão de esgotar o tema, apenas levantar as questões pertinentes e contribuir no debate sobre a transição para a TV digital no país. Como vimos no decorrer do minicurso, o tema é abrangente e multidisciplinar, dificultando até um recorte dos aspectos a serem discutidos. Para completar, ou melhor, aumentar a abrangência do tema, poderiam ser desenvolvidos vários outros textos, enfatizando, por exemplo, middleware, incluindo middlewares comerciais, o GEM (Globally Executable MHP), a API Java TV, da Sun Microsystems, muito utilizada pelos programadores de serviços para TV digital interativa. Outros assuntos que poderiam ser aprofundados são: padrões e técnicas de modulação de sinais digitais, novos serviços para TV digital, tecnologias para canal de interatividade, tecnologia de set top box, impacto social da TV digital, modelos mercadológicos e regulatórios, inclusão digital e social, entre outros.
Agradecimentos: Os autores agradecem a Carlos Piccioni pelo apoio técnico, e ao CNPq pelo auxílio financeiro através da chamada CNPq 10/2001-ProTeM/RNP 01/2001.
Referências ANATEL, Agência Nacional de Telecomunicações. “TV Digital”, Brasília, 2001. ANATEL, Agência Nacional de Telecomunicações. Brasília, janeiro de 2004. Disponível em . Acesso em 22/03/2004. Atlas Brasileiro de Telecomunicações, São Paulo, Glasberg, 2004. Becker, V. e Montez, C., TV Digital Interativa: Conceitos, Desafios e Perspectivas para o Brasil, Ed. I2TV, 2004. Becker, V. e Moraes, A. “Do analógico ao Digital: uma proposta de comercial para TV interativa. In: III Simpósio Catarinense de Processamento Digital de Imagens”, 2003, Florianópolis. Florianópolis: Simpósio Catarinense de Processamento Digital de Imagens, 2003. p. 122-134. BRASIL. Decreto-lei n. 4.901, de 26 de novembro de 2003. “Institui o Sistema Brasileiro de Televisão Digital - SBTVD, e dá outras providências”, Diário Oficial da República Federativa do Brasil, Brasília, 27 de nov. 2003. Seção 1, Pág. 7. Buford, J., Multimedia Systems, ACM Press, 1994. Chion, M. “La audiovisión: Introducción a un análisis conjunto de la imagen y el sonido”, Barcelona, Paidós, 1993. Citado por Rezende (2000). Clark, W. O campeão de audiência: uma autobiografia. São Paulo, Ed. Nova Cultural, 1991. Collins, W. G., Fundamentals of Digital Television Transmission, John Wiley & Sons, Inc., 2001. Drury, G., Markarian, G., Pickavance, K., Coding and Modulation For Digital Television, Kluwer Academic Publishers, 2002. Eco, H., Apocalípticos e integrados, São Paulo, Perspectiva, 1973. Fluckiger, F., Understanding Networked Multimedia: Applications and Technology, Prentice Hall, 1995. Fragoso, S. (2001) “De interações e interatividade”, In: Associação Nacional dos Programas de Pós-Graduação em Comunicação, Brasília, Associação Nacional dos Programas de Pós-Graduação em Comunicação, 2001. CD-ROM. Gawlinski, M., Interactive Television Production, Oxford, Focal Press, 2003. Griffiths, A., Digital Television Strategies: Business Challenges and Opportunities, Palgrave Macmillan, 2003. Grotticelli, M. The DTV Consumer. In: SILBERGLEID, Michael; PESCATORE, Mark J. The Guide to Digital Television, Third Edition, United Entertainment Media, Nova York, 1999. p. 25-30 KOOGAN/HOUAISS. Enciclopédia e dicionário ilustrado. 4.ed. Rio de Janeiro. Seifer, 1999.
Lemos, A. L.M. “Anjos interativos e retribalização do mundo: sobre interatividade e interfaces digitais”, [S.l. s.n], 1997. Lu, G., Communication and Computing for Distributed Multimedia Systems, Artech House, 1996. Maclin, B. What Every Marketer Needs to Know about iTV. Nova Iorque, eMarketer Analyst Brief, 2001. MINISTÉRIO das Comunicações. Política para adoção de tecnologia digital no serviço de televisão. Brasília, 2003. Nielsen, J. (2000) “Projetando websites”, São Paulo, Campos. Pagani, M., Multimedia and Interactive Digital TV: Managing the Opportunities Created by Digital Convergence, IRM Press, 2003. Popper, F., As imagens artísticas e a tecnociência, In: PARENTE, André (org.) Imagem-máquina. Rio de Janeiro: Ed.34, 1993. Reisman, R. R (2004) “Rethinking Interactive TV – I want my Coactive TV. [S.l.]”, Teleshuttle Corporation, 2002. Disponível em . Acesso em 19/03/2004. Rezende, G. J. (2000) “Telejornalismo no Brasil: um perfil editorial”. São Paulo, Summus Editorial, 2000. Schwalb, E. M., iTV Handbook; Technologies and Standards, Prentice Hall PTR, 2003. Steuer, J. “Defining Virtual Reality: Dimensions Determining Telepresence”. Journal of Communication, v. 42, n. 4, 1992. Tan, J. et. all (2003) Recording Interactive TV, IEEE International Conference on Consumer Electronics. Tektronix (2002) “A Guide to MPEG Fundamental and Protocol Analysis: Including DVB e ATSC”, http://www.tektronix.com/video_audio. Wiener, N. Cibernética e sociedade: o uso humano de seres humano. São Paulo, Cultrix, 1968. Xavier, R. Sacchi, R. “Almanaque da TV: 50 anos de memória e informação”, Objetiva, Rio de Janeiro, 2000.