quinta-feira, 16 de julho de 2009

O MP3 (MPEG-1/2 Audio Layer 3)

Foi um dos primeiros tipos de compressão de áudio com perdas quase imperceptíveis ao ouvido humano. A sua taxa de compressão é medida em Kb/s (kilobits por segundo), sendo 128 Kb/s a qualidade padrão, na qual a redução do tamanho do arquivo é de cerca de 90%, ou seja, uma razão de 10:1. Essa taxa de compressão atualmente pode chegar até 320 Kb/s, a qualidade máxima, na qual a redução do tamanho do arquivo é de cerca de 25%, ou seja, uma razão de 4:1, passando antes por 192 Kb/s, 256 Kb/s, ou seja, o máximo de qualidade que pode ser tirado em MP3.
O método de compressão com perdas empregado na compressão do MP3 consiste em retirar do áudio tudo aquilo que o ouvido humano normalmente não conseguiria perceber, devido a fenômenos de mascaramento de sons e de limitações da audição humana (embora pessoas com ouvido absoluto possam perceber tais perdas).

O significado da sigla
MP3 é uma abreviação de MPEG 1 Layer-3 (camada 3). Trata-se de um padrão de arquivos digitais de áudio estabelecido pelo Moving Picture Experts Group (MPEG), grupo de trabalho de especialistas de Tecnologias da Informação vinculado ao ISO e à CEI, As camadas referem-se ao esquema de compressão de áudio do MPEG-1. Foram projetadas em número de 3, cada uma com finalidades e capacidades diferentes. Enquanto a camada 1, que dá menor compressão, se destina a utilização em ambientes de áudio profissional (estúdios, emissoras de TV, etc) onde o nível de perda de qualidade deve ser mínimo devido à necessidade de reprocessamento, a 3 se destina ao áudio que será usado pelo cliente final. Como se espera que esse áudio não sofrerá novos ciclos de processamento, a compressão pode ser menos conservadora e aproveitar melhor as características psico-acústicas do som limitando-se apenas pela qualidade desejada para o ouvido humano.
A compressão típica da camada 1 é de 2:1 enquanto a da 3 é de 10:1. É importante lembrar que essa diferença da compressão não tem nada a ver com uma camada ser mais avançado que o outro tecnologicamente, mas sim com o objetivo da aplicação do áudio ser processado.
Um erro comum é confundir o MP3 com MPEG-3. MPEG-3 é um formato morto, pois o formato MPEG-4 o suplantou com muitas vantagens. Enquanto o MPEG-3 deveria ter sido um formato para compressão tanto de áudio como de vídeo o MP3 responde apenas pela terceira camada de compressão de áudio do MPEG-1.

História
Início de 1970: O Prof. Dieter Seitzer da Universidade Erlangen-Nuremberg na Alemanha depara-se com o problema de transmitir fala em alta qualidade através de linhas telefônicas. Ele inicia então um grupo de pesquisa em codificação de áudio.
Fim de 1970: Em virtude do surgimento do ISDN (Integrated Service Digital Network) e cabos de fibra óptica para telecomunicações, melhorar a codificação de voz pareceu pouco importante, então o Prof. Seitzer iniciou a pesquisa em codificação de sinais de música.
1979: O grupo do Prof. Seitzer desenvolveu o primeiro processador de sinais digitais capaz de realizar a compressão de áudio. Um dos estudantes, Karlheinz Brandenburg, começou a implementar princípios da psicoacústica na codificação de áudio.
1987: A Universidade Erlangen-Nuremberg realizou uma parceria com o Instituto Fraunhofer.
1988: Estabeleceu-se o MPEG (Moving Picture Experts Group), grupo de trabalho da ISO (International Organization for Standardization) responsável por desenvolver padrões para a compressão de áudio e vídeo digitais.
1989: Brandenbeurg finalizou sua tese de doutorado onde apresentava o algoritmo OCF (Optimum Coding in the Frequency Domain). Tal codec possuía várias características da atual tecnologia MP3 e era um sistema de tempo real.
1991: Melhoras no algoritmo OCF somadas a contribuições da Universidade de Hannover, dentre outras, produziram um novo codec de áudio chamado ASPEC (Adaptative Spectral Perceptual Entropy Coding). O ASPEC foi um dos 14 trabalhos enviados para a ISO como proposta de codificação de áudio. Após testes rigorosos, a ISO sugeriu que a codificação de áudio apresentassem 3 abordagens em escala de complexidade e eficiência:
Layer 1 e Layer 2, mais simples, baseadas em um outro codec enviado à ISO, o MUSICAN,
Layer 3 , de alta eficiência e maior complexidade, baseada no ASPEC.
O ASPEC evolui então para o codec MP3 - MPEG-1 Layer 3.
1995: Os pesquisadores de Fraunhofer votaram ' .mp3 ' como a extensão de arquivos MPEG Layer 3. Disponibilizou-se o codec do Layer 3 como shareware.
1997: Michael Robertson constrói o site 'mp3.com', onde disponibiliza informações e tudo mais relacionado à tecnologia MP3.
1998: Surgem os primeiros players portáteis de MP3, usando memória flash.
2000: Surgem no mercado dos EUA CD players com funcionalidades de mp3.
2006: Na Alemanha, MP3 gera mais de 10000 postos de trabalho e aproximadamente 300 milhões de euros de impostos. Os alemães gastam em média 1,5 bilhões de euros em MP3 players e produtos relacionados.
Após a grandiosa fama na Internet, o MP3 causou grande revolução no mundo do entretenimento. Assim como o LP de vinil, o cassete de áudio e o CD, o MP3 se fortaleceu como um popular meio de distribuição de canções. A questão chave para entender todo o sucesso do MP3 se baseia no fato de que, antes dele ser desenvolvido, uma música no computador era armazenada no formato WAV, que é o formato padrão para arquivo de som em PCs, chegando a ocupar dezenas de megabytes em disco.
Na média, um minuto de música corresponde a 10 MB para uma gravação de som de 16 bits estéreo com 44,1 KHz, o que resulta numa grande complicação a distribuição de músicas por computadores, principalmente pela Internet. Com o surgimento do MP3 essa história mudou, pois o formato permite armazenar músicas no computador sem ocupar muito espaço e sem tirar a qualidade sonora das canções. Geralmente, um minuto de música corresponde a cerca de 1 MB em MP3. O MP3 (MPEG-1/2 Audio Layer 3) foi um dos primeiros tipos de arquivos a comprimir áudio com perda de dados, com eficiência, de forma quase imperceptível ao ouvido humano.
Ao se popularizar, o formato MP3 deixou conseqüentemente a indústria fonográfica preocupada com seus lucros. O MP3 alcançou um sucesso tão grande que, quando as gravadoras se deram conta, o formato já estava presente em milhões de computadores em todo o mundo.

Princípios
As taxas de compressão alcançadas pelo MP3 chegam a até 12 vezes, dependendo da qualidade desejada. Para fazer isso o MP3 utiliza-se, além das técnicas habituais de compressão, de estudos de psico-acústica, sendo que estes permitem aproveitar-se das limitações e imperfeições da audição humana.
A utilização dos limites da audição humana baseia-se em três princípios básicos:
1)Faixa de frequência audível dos seres humanos;
2)Limiar de audição na faixa de frequência audível;
3)Mascaramento em frequência e mascaramento temporal.
Faixa de frequência audível humana: O ouvido humano, devido às suas limitações físicas, é capaz de detectar sons em uma faixa de frequência que varia de 20Hz a 20KHz, sendo que estes valores podem variar de indivíduo para indivíduo e também com a idade (com o envelhecimento perdemos a capacidade de ouvir frequências mais altas). Desta forma, não faz sentido armazenar dados referentes a sons fora desta faixa de frequência, pois ao serem reproduzidos, os mesmos não serão percebidos por um ser humano. Esta é a primeira limitação da audição humana do qual o sistema MP3 faz uso para alcançar altas taxas de compressão. De acordo com o Teorema de Nyquist, para garantir a reprodução de um sinal, temos de amostrá-lo pelo menos a duas vezes sua frequência máxima. Ou seja, neste caso, como a frequência máxima de interesse é 20KHz, basta amostrar a 40KHz. Utilizam-se 44100Hz como taxa de amostragem, pois levam-se em consideração 10% de tolerância e busca-se um valor produto dos quatro primeiros números primos. (Obs. (2x3x5x7)^2 = 44100). Desta forma, esta taxa de amostragem funciona como um filtro passa-baixas, que remove todos os componentes de frequência fora da faixa de interesse, neste caso, acima de 20Khz.
Limiar de audição na faixa de frequência audível: Outro fator utilizado pela codificação MP3 é a curva de percepção da audição humana dentro da faixa de frequências audíveis, ou Limiar de Audição. Apesar da faixa de audição humana variar entre 20Hz e 20KHz, a sensibilidade para sons dentro desta faixa não é uniforme. Ou seja, a percepção da intensidade de um som varia com a frequência em que este se encontra. Desta forma, o MP3 utiliza-se desta propriedade para obter compressão em arquivos de áudios. Esta abordagem é bastante intuitiva, sendo que o que se faz é descartar amostras que se encontrem abaixo deste limiar.
Mascaramento em frequência e mascaramento temporal: Por fim, uma última propriedade da audição humana ainda é utilizada pelo método é o chamado mascaramento auditivo, ou “audiabilidade diminuída de um som devido à presença de outro”, podendo este ser em frequência ou no tempo. O mascaramento em frequência ocorre quando um som que normalmente poderia ser ouvido é mascarado por outro, de maior intensidade, que encontra-se em uma frequência próxima. Ou seja, o limiar de audição é modificado (aumentado) na região próxima à frequência do som que causa o ocorrência do mascaramento, sendo que isto se deve à limitação da percepção de frequências do ouvido humano. O mascaramento em frequência depende da frequência em que o sinal se encontra, podendo variar de 100Hz a 4KHz. Em função deste comportamento, o que o método de compressão do MP3 faz é identificar casos de mascaramento em frequência e descartar sinais que não serão audíveis devido a este fenômeno. Além do mascaramento em frequência, temos ainda o mascaramento no tempo, sendo que este ocorre quando um som forte é precedido por um mais fraco que encontra-se em uma frequência próxima à do primeiro. Se o intervalo de tempo entre os dois for suficientemente pequeno, este som mais fraco não será percebido pela audição humana. Se um som é mascarado após um som mais forte, temos o chamado pós-mascaramento. No caso de um som ser mascarado antes do som mais forte, temos o que chamamos de pré-mascaramento. O pré-mascaramento existe só por um curto momento, cerca de 20ms, enquanto que o pós-mascaramento tem efeito por até 200ms. O método de compressão do MP3 utiliza-se portanto deste fenômeno, identificando casos onde o mesmo ocorre e descartando sons que seriam mascarados, o que permiter reduzir a informação de áudio consideravelmente sem mudança audível.

Licenças e patentes
A Thomson Consumer Electronics controla o licenciamento da patente do MPEG-1/2 Layer 3 nos poucos países que reconhecem patentes de software, tais como Estados Unidos da América e Japão.
Em setembro de 1998, o Instituto Fraunhofer enviou um comunicado a diversos desenvolvedores de programas MP3, exigindo cobrança de royalties por essa patente. O comunicado informava que o licenciamento era necessário para "distribuir e/ou vender decodificadores e/ou codificadores", e que os produtos não licenciados infringiam os "direitos sobre a patente do Instituto Fraunhofer e da Thomson. Para produzir, vender e/ou distribuir produtos que se utilizem do padrão MPEG-1/2 Audio Layer 3 e, portanto, de suas respectivas patentes, é necessário obter uma licença."
Tal iniciativa revelou a necessidade de promover formatos realmente livres, como o padrão ogg vorbis.
De notar, que passados 20 anos da existência do MPEG-1, e consequentemente do MP3, a licença passará a ser livre, tornando-se este codificador propriedade da humanidade.

O sistema empregado pelo MP3 também possibilita transmissões por streaming, onde o arquivo pode ser interpretado à medida em que é feito o download ou em que é baixado (não é necessário que o arquivo chegue inteiro para iniciar a reprodução).

CD, DVD ou MP3?

Primeiro, vamos explicar a diferença entre CD e DVD. A distinção principal é a capacidade de armazenamento, que é sete vezes maior no DVD que no CD. Tanto no CD quanto no DVD, os dados de som e imagem ficam armazenados em uma longa linha espiral, que recobre toda a superfície de alumínio. A diferença é a espessura da linha. No CD, ela mede 1 600 nanômetros, algo como uma vez e meia o diâmetro de um fio de cabelo. No DVD, a linha tem 740 nanômetros, pouco mais que a metade do diâmetro do mesmo fiozinho. Como a linha do DVD é mais fina, cabem mais voltas da linha no disco - e, por conseqüência, mais dados. Mas essa evolução não pára com o DVD convencional. Em 2003, chegou ao mercado o blu-ray, um novo formato de DVD ainda mais preciso. Para ler as informações gravadas na espiral, o leitor óptico do blu-ray utiliza um laser azul, mais fininho que o tradicional laser vermelho dos CDs e DVDs. Resultado: maior capacidade de armazenamento. Falta falar das modalidades regraváveis de CD e DVD, os CD-RW e DVD-RW. Eles têm uma camada extra em relação aos convencionais: uma película de tinta especial, onde as informações ficam gravadas. Nos regraváveis, onde há dados, a tinta fica opaca. Onde não tem nada, ela é brilhante. A vantagem é que esse tipo de gravação não é permanente - por meio de uma "raspagem" a laser, um gravador de CDs ou de DVDs consegue deixar toda a tinta brilhante de novo, pronta para ser regravada. Por último, é a vez do MP3, que não é um tipo de disco, mas um formato de compressão que diminui o tamanho dos arquivos de música no CD ou no computador. Só para comparar, em um CD normal cabem 80 minutos de música no formato ".wav", o mais tradicional. Em MP3, esse mesmo CD pode armazenar até 12 horas de som!

Os pontos fortes e fracos das oito mídias mais avançadas da atualidade

CD
O QUE É - Disco de alumínio recoberto com acrílico, capaz de armazenar dados na forma de músicas, vídeos e programas
CAPACIDADE - 700 megabytes (80 minutos de música em formato ".wav" ou 12 horas em MP3)
VANTAGEM - Funciona em aparelhos de som, computadores, DVD players, discmen...
DESVANTAGEM - Capacidade de armazenamento pequena comparada à do DVD

CD-R
O QUE É - CD virgem utilizado para gravar o que o usuário quiser por meio de um aparelho gravador de CDs. O "R" significa recordable, ou gravável
CAPACIDADE - A mesma de um CD
VANTAGEM - Preço baixo e possibilidade de escolher sua própria lista de músicas
DESVANTAGEM - Só pode ser gravado uma vez

CD-RW
O QUE É CD - virgem usado em múltiplas regravações por meio de um aparelho gravador de CDs. O "RW" é de rewritable, regravável
CAPACIDADE - A mesma de um CD
VANTAGEM - Capacidade de reutilização. Pode ser gravado mais de uma vez
DESVANTAGEM - Versatilidade reduzida. Nem todos os CD players de carros estão adaptados para ler seus arquivos

DVD
O QUE É - Disco de alumínio recoberto com acrílico, capaz de armazenar sons e imagens
VANTAGEM - Capacidade de armazenamento sete vezes superior à de um CD

DESVANTAGEM - Preço relativamente elevado. Um DVD custa mais que um CD
CAPACIDADE - 4,7 gigabytes (suficiente para um filme de três horas ou 4 700 horas de música em MP3)

VCD
O QUE É - Sigla de video compact disc, um formato de compressão que permite a um CD armazenar mais arquivos do que normalmente guardaria
CAPACIDADE - Um filme de até duas horas e meia
VANTAGEM - Espreme dentro de um CD um arquivo de vídeo que só poderia ser armazenado em um DVD
DESVANTAGEM - A qualidade da imagem fica prejudicada. Dá para o gasto se for exibida em micros, mas não em televisores

MP3
O QUE É - Formato de compressão que permite reduzir o tamanho de arquivos de áudio. Exige computador ou MP3 player para tocar as músicas
CAPACIDADE - Um MP3 player guarda até 4 mil minutos de áudio
VANTAGEM - Ocupa pouco espaço e tem qualidade boa
DESVANTAGEM - Os MP3 players são um pouco mais caros

CD-ROM
O QUE É - CD multimídia produzido para computadores. "ROM" significa read only memory, ou "memória apenas para leitura"
CAPACIDADE - A mesma de um CD
VANTAGEM - Pode armazenar programas, imagens e sons
DESVANTAGEM - Arquivos multimídia com imagem só funcionam em computadores

BLU-RAY
O QUE É - Novo formato de DVD mais preciso que o convencional. Exige DVD player específico para ler o disco
CAPACIDADE - 27 gigabytes (13 horas de filmes)
VANTAGEM - Melhora a qualidade do som e vídeo e aumenta a capacidade de armazenamento do disco
DESVANTAGEM - Preço alto. Os aparelhos são mais caros