Foi um dos primeiros tipos de compressão de áudio com perdas quase imperceptíveis ao ouvido humano. A sua taxa de compressão é medida em Kb/s (kilobits por segundo), sendo 128 Kb/s a qualidade padrão, na qual a redução do tamanho do arquivo é de cerca de 90%, ou seja, uma razão de 10:1. Essa taxa de compressão atualmente pode chegar até 320 Kb/s, a qualidade máxima, na qual a redução do tamanho do arquivo é de cerca de 25%, ou seja, uma razão de 4:1, passando antes por 192 Kb/s, 256 Kb/s, ou seja, o máximo de qualidade que pode ser tirado em MP3.
O método de compressão com perdas empregado na compressão do MP3 consiste em retirar do áudio tudo aquilo que o ouvido humano normalmente não conseguiria perceber, devido a fenômenos de mascaramento de sons e de limitações da audição humana (embora pessoas com ouvido absoluto possam perceber tais perdas).
O significado da sigla
MP3 é uma abreviação de MPEG 1 Layer-3 (camada 3). Trata-se de um padrão de arquivos digitais de áudio estabelecido pelo Moving Picture Experts Group (MPEG), grupo de trabalho de especialistas de Tecnologias da Informação vinculado ao ISO e à CEI, As camadas referem-se ao esquema de compressão de áudio do MPEG-1. Foram projetadas em número de 3, cada uma com finalidades e capacidades diferentes. Enquanto a camada 1, que dá menor compressão, se destina a utilização em ambientes de áudio profissional (estúdios, emissoras de TV, etc) onde o nível de perda de qualidade deve ser mínimo devido à necessidade de reprocessamento, a 3 se destina ao áudio que será usado pelo cliente final. Como se espera que esse áudio não sofrerá novos ciclos de processamento, a compressão pode ser menos conservadora e aproveitar melhor as características psico-acústicas do som limitando-se apenas pela qualidade desejada para o ouvido humano.
A compressão típica da camada 1 é de 2:1 enquanto a da 3 é de 10:1. É importante lembrar que essa diferença da compressão não tem nada a ver com uma camada ser mais avançado que o outro tecnologicamente, mas sim com o objetivo da aplicação do áudio ser processado.
Um erro comum é confundir o MP3 com MPEG-3. MPEG-3 é um formato morto, pois o formato MPEG-4 o suplantou com muitas vantagens. Enquanto o MPEG-3 deveria ter sido um formato para compressão tanto de áudio como de vídeo o MP3 responde apenas pela terceira camada de compressão de áudio do MPEG-1.
História
Início de 1970: O Prof. Dieter Seitzer da Universidade Erlangen-Nuremberg na Alemanha depara-se com o problema de transmitir fala em alta qualidade através de linhas telefônicas. Ele inicia então um grupo de pesquisa em codificação de áudio.
Fim de 1970: Em virtude do surgimento do ISDN (Integrated Service Digital Network) e cabos de fibra óptica para telecomunicações, melhorar a codificação de voz pareceu pouco importante, então o Prof. Seitzer iniciou a pesquisa em codificação de sinais de música.
1979: O grupo do Prof. Seitzer desenvolveu o primeiro processador de sinais digitais capaz de realizar a compressão de áudio. Um dos estudantes, Karlheinz Brandenburg, começou a implementar princípios da psicoacústica na codificação de áudio.
1987: A Universidade Erlangen-Nuremberg realizou uma parceria com o Instituto Fraunhofer.
1988: Estabeleceu-se o MPEG (Moving Picture Experts Group), grupo de trabalho da ISO (International Organization for Standardization) responsável por desenvolver padrões para a compressão de áudio e vídeo digitais.
1989: Brandenbeurg finalizou sua tese de doutorado onde apresentava o algoritmo OCF (Optimum Coding in the Frequency Domain). Tal codec possuía várias características da atual tecnologia MP3 e era um sistema de tempo real.
1991: Melhoras no algoritmo OCF somadas a contribuições da Universidade de Hannover, dentre outras, produziram um novo codec de áudio chamado ASPEC (Adaptative Spectral Perceptual Entropy Coding). O ASPEC foi um dos 14 trabalhos enviados para a ISO como proposta de codificação de áudio. Após testes rigorosos, a ISO sugeriu que a codificação de áudio apresentassem 3 abordagens em escala de complexidade e eficiência:
Layer 1 e Layer 2, mais simples, baseadas em um outro codec enviado à ISO, o MUSICAN,
Layer 3 , de alta eficiência e maior complexidade, baseada no ASPEC.
O ASPEC evolui então para o codec MP3 - MPEG-1 Layer 3.
1995: Os pesquisadores de Fraunhofer votaram ' .mp3 ' como a extensão de arquivos MPEG Layer 3. Disponibilizou-se o codec do Layer 3 como shareware.
1997: Michael Robertson constrói o site 'mp3.com', onde disponibiliza informações e tudo mais relacionado à tecnologia MP3.
1998: Surgem os primeiros players portáteis de MP3, usando memória flash.
2000: Surgem no mercado dos EUA CD players com funcionalidades de mp3.
2006: Na Alemanha, MP3 gera mais de 10000 postos de trabalho e aproximadamente 300 milhões de euros de impostos. Os alemães gastam em média 1,5 bilhões de euros em MP3 players e produtos relacionados.
Após a grandiosa fama na Internet, o MP3 causou grande revolução no mundo do entretenimento. Assim como o LP de vinil, o cassete de áudio e o CD, o MP3 se fortaleceu como um popular meio de distribuição de canções. A questão chave para entender todo o sucesso do MP3 se baseia no fato de que, antes dele ser desenvolvido, uma música no computador era armazenada no formato WAV, que é o formato padrão para arquivo de som em PCs, chegando a ocupar dezenas de megabytes em disco.
Na média, um minuto de música corresponde a 10 MB para uma gravação de som de 16 bits estéreo com 44,1 KHz, o que resulta numa grande complicação a distribuição de músicas por computadores, principalmente pela Internet. Com o surgimento do MP3 essa história mudou, pois o formato permite armazenar músicas no computador sem ocupar muito espaço e sem tirar a qualidade sonora das canções. Geralmente, um minuto de música corresponde a cerca de 1 MB em MP3. O MP3 (MPEG-1/2 Audio Layer 3) foi um dos primeiros tipos de arquivos a comprimir áudio com perda de dados, com eficiência, de forma quase imperceptível ao ouvido humano.
Ao se popularizar, o formato MP3 deixou conseqüentemente a indústria fonográfica preocupada com seus lucros. O MP3 alcançou um sucesso tão grande que, quando as gravadoras se deram conta, o formato já estava presente em milhões de computadores em todo o mundo.
Princípios
As taxas de compressão alcançadas pelo MP3 chegam a até 12 vezes, dependendo da qualidade desejada. Para fazer isso o MP3 utiliza-se, além das técnicas habituais de compressão, de estudos de psico-acústica, sendo que estes permitem aproveitar-se das limitações e imperfeições da audição humana.
A utilização dos limites da audição humana baseia-se em três princípios básicos:
1)Faixa de frequência audível dos seres humanos;
2)Limiar de audição na faixa de frequência audível;
3)Mascaramento em frequência e mascaramento temporal.
Faixa de frequência audível humana: O ouvido humano, devido às suas limitações físicas, é capaz de detectar sons em uma faixa de frequência que varia de 20Hz a 20KHz, sendo que estes valores podem variar de indivíduo para indivíduo e também com a idade (com o envelhecimento perdemos a capacidade de ouvir frequências mais altas). Desta forma, não faz sentido armazenar dados referentes a sons fora desta faixa de frequência, pois ao serem reproduzidos, os mesmos não serão percebidos por um ser humano. Esta é a primeira limitação da audição humana do qual o sistema MP3 faz uso para alcançar altas taxas de compressão. De acordo com o Teorema de Nyquist, para garantir a reprodução de um sinal, temos de amostrá-lo pelo menos a duas vezes sua frequência máxima. Ou seja, neste caso, como a frequência máxima de interesse é 20KHz, basta amostrar a 40KHz. Utilizam-se 44100Hz como taxa de amostragem, pois levam-se em consideração 10% de tolerância e busca-se um valor produto dos quatro primeiros números primos. (Obs. (2x3x5x7)^2 = 44100). Desta forma, esta taxa de amostragem funciona como um filtro passa-baixas, que remove todos os componentes de frequência fora da faixa de interesse, neste caso, acima de 20Khz.
Limiar de audição na faixa de frequência audível: Outro fator utilizado pela codificação MP3 é a curva de percepção da audição humana dentro da faixa de frequências audíveis, ou Limiar de Audição. Apesar da faixa de audição humana variar entre 20Hz e 20KHz, a sensibilidade para sons dentro desta faixa não é uniforme. Ou seja, a percepção da intensidade de um som varia com a frequência em que este se encontra. Desta forma, o MP3 utiliza-se desta propriedade para obter compressão em arquivos de áudios. Esta abordagem é bastante intuitiva, sendo que o que se faz é descartar amostras que se encontrem abaixo deste limiar.
Mascaramento em frequência e mascaramento temporal: Por fim, uma última propriedade da audição humana ainda é utilizada pelo método é o chamado mascaramento auditivo, ou “audiabilidade diminuída de um som devido à presença de outro”, podendo este ser em frequência ou no tempo. O mascaramento em frequência ocorre quando um som que normalmente poderia ser ouvido é mascarado por outro, de maior intensidade, que encontra-se em uma frequência próxima. Ou seja, o limiar de audição é modificado (aumentado) na região próxima à frequência do som que causa o ocorrência do mascaramento, sendo que isto se deve à limitação da percepção de frequências do ouvido humano. O mascaramento em frequência depende da frequência em que o sinal se encontra, podendo variar de 100Hz a 4KHz. Em função deste comportamento, o que o método de compressão do MP3 faz é identificar casos de mascaramento em frequência e descartar sinais que não serão audíveis devido a este fenômeno. Além do mascaramento em frequência, temos ainda o mascaramento no tempo, sendo que este ocorre quando um som forte é precedido por um mais fraco que encontra-se em uma frequência próxima à do primeiro. Se o intervalo de tempo entre os dois for suficientemente pequeno, este som mais fraco não será percebido pela audição humana. Se um som é mascarado após um som mais forte, temos o chamado pós-mascaramento. No caso de um som ser mascarado antes do som mais forte, temos o que chamamos de pré-mascaramento. O pré-mascaramento existe só por um curto momento, cerca de 20ms, enquanto que o pós-mascaramento tem efeito por até 200ms. O método de compressão do MP3 utiliza-se portanto deste fenômeno, identificando casos onde o mesmo ocorre e descartando sons que seriam mascarados, o que permiter reduzir a informação de áudio consideravelmente sem mudança audível.
Licenças e patentes
A Thomson Consumer Electronics controla o licenciamento da patente do MPEG-1/2 Layer 3 nos poucos países que reconhecem patentes de software, tais como Estados Unidos da América e Japão.
Em setembro de 1998, o Instituto Fraunhofer enviou um comunicado a diversos desenvolvedores de programas MP3, exigindo cobrança de royalties por essa patente. O comunicado informava que o licenciamento era necessário para "distribuir e/ou vender decodificadores e/ou codificadores", e que os produtos não licenciados infringiam os "direitos sobre a patente do Instituto Fraunhofer e da Thomson. Para produzir, vender e/ou distribuir produtos que se utilizem do padrão MPEG-1/2 Audio Layer 3 e, portanto, de suas respectivas patentes, é necessário obter uma licença."
Tal iniciativa revelou a necessidade de promover formatos realmente livres, como o padrão ogg vorbis.
De notar, que passados 20 anos da existência do MPEG-1, e consequentemente do MP3, a licença passará a ser livre, tornando-se este codificador propriedade da humanidade.
O sistema empregado pelo MP3 também possibilita transmissões por streaming, onde o arquivo pode ser interpretado à medida em que é feito o download ou em que é baixado (não é necessário que o arquivo chegue inteiro para iniciar a reprodução).