Tutorial fișiere audio

February 18, 2014

Tutorial fisiere audio

Fișierele audio au început să fie utilizate de publicul larg la mijlocul anilor ’90. Acest mod de a asculta muzică a devenit viral la nivel planetar odată cu succesul WinAmp (player software), a rețelelor de file-sharing eMule, Napster, Kazaa și a hub-urilor DC++. Milioane de utilizatori schimbau între ei fișiere audio pe care le ascultau pe calculatoarele personale. Formatul cel mai popular era mp3, format care asigura o calitate acceptabilă a audiției și o dimensiune foarte mică a fișierului în comparație cu materialul conținut pe CD-urile Audio. După nu foarte mult timp au apărut playere portabile ( iPod ) care au dat o amploare și mai mare fenomenului. Succesul a fost atât de mare încât fabricanții de electronice au fost siliți să accepte mp3 ca standard de facto și să facă propriile produse compatibile cu el (CD-playere, Receivere, Head-Unituri auto).

În acele vremuri, scepticii considerau calitatea audio inferioară a mp3-ului ca fiind un obstacol peste care nu se va putea trece niciodată, nimeni nu s-ar fi gandit că ar renunța la CD sau vinil pentru a asculta fișiere audio. Chiar și ideea de a încerca să vinzi muzică sub această formă a părut o glumă proastă. Au trecut aproape 20 de ani de atunci și lucrurile s-au schimbat dramatic. Capacitățile de stocare au crescut, domeniul informatic a progresat enorm iar conexiunile la internet au devenit extrem de rapide și foarte ieftine. Ceea ce părea de domeniul SF în anii 90 acum este realitate cotidiană ( sper că vă amintiți de părerea lui Bill Gates cum că 650 kb de memorie sunt arhisuficienți pentru un PC ). Nu numai că avem fișiere audio de calitate mult superioară CD-ului Audio dar există echipamente extrem de rafinate dedicate reproducerii lor. Putem afirma că, în zilele noastre, fișierul audio este asociat cu înalta fidelitate. Avem de unde alege, de la mp3 la PCM 24/192 sau DSD, sunt numeroase magazine online care oferă material audio la calitate CD sau mai bună, iar suporturile fizice clasice vin însoțite si de fișiere.

DAC Chord QBD 76 DSD — **DAC Chord QBD 76 HDSD**

Trecînd peste îmbunătățirile în sunet pe care le poate aduce înalta rezoluție, folosirea de fișiere audio ( dematerializarea ) aduce cu sine avantajul lejerității în utilizare. Nu mai este nevoie să ne ridicăm din scaun pentru a pune alt CD, avem la câteva taste distanță toată colecția muzicală la dispoziție. Putem să schimbăm piesa sau albumul direct de pe telefonul mobil sau tabletă, avem afișate coperta albumului și detalii despre interpreți. Fișierele le putem extrage direct de pe CD-urile pe care le avem în colecție sau le putem cumpăra din magazinele online specializate ( iTunes, Amazon, HDTracks ). Putem să le schimbăm între noi sau putem să le stocăm în cloud și să le accesăm oricînd și oriunde, de pe orice terminal conectabil la internet.

Un alt mare avantaj care a venit odată cu era digitală este faptul că, spre deosebire de formatele analogice (vinil, casetă, bandă magnetică), putem realiza oricâte copii perfecte, la infinit, fără nici cea mai mică pierdere de calitate la copiere ( în anumite condiții, despre care vom discuta cu altă ocazie ). Capacitățile de stocare au devenit din ce în ce mai mari și accesibile așa că putem pune în ziua de azi o colecție de 4,000 de albume la calitate CD pe un singur HDD (să ne amintim de perioada în care aveam un 286 cu harddisk de 40 MB – cum ar fi fost atunci să ai la dispoziție unul de 1.5 TB ? )

Pe de altă parte, dacă discutăm despre dezavantaje (altele decât strict cele legate de calitatea audiției) avem două probleme. În cazul fișierelor audio nu mai avem în mînă acele coperți imprimate, de mari dimensiuni în cazul vinilurilor. Putem vedea ilustrațiile pe un monitor dar cei care s-au obișnuit să țină o copertă în mână se adaptează mai greu la această schimbare. Mai mult, pentru mulți utilizatori de vinil, tabietul căutării discului prin colecție sau al întoarcerii discului la fiecare 20 de minute este o plăcere în sine. A doua problemă este faptul că, spre deosebire de un obiect fizic, un fișier audio nu mai are absolut nici un fel de valoare de revânzare din momentul în care îl achiziționezi iar prețul de achiziție este comparabil cu prețul unui CD-Audio sau SACD (în mod uzual, vinilurile sunt mai scumpe). În schimb, un fișier nu se poate uza.

Legat de avantaje și dezavantaje în ceea ce privește strict calitatea redării, este de discutat. În cazul CD-urilor sau SACD-urilor treaba este destul de simplă – ai playerul, pui discul, cântă. Mare lucru nu poți face în plus înafară de achiziționa un player de calitate superioară sau de a folosi un convertor digital-analog separat (DAC), în acest caz playerul fiind folosit doar pentru citirea informației digitale de pe disc. Când vorbim despre fișiere avem două categorii de utilizatori: cei care redau fișierele dintr-un PC și folosesc un DAC pentru decodare și cei care utilizează echipamente speciale pentru redarea fișierelor (stocate în rețea sau chiar în acele echipamente) streamere, mediaplayere, servere audio). Utilizarea unui asemenea echipament este extrem de simplă, în schimb, redarea direct din PC introduce multe variabile și necesită mai multă muncă și pricepere pentru a ajunge la rezultate mulțumitoare.

Sunt două aspecte de care trebuie ținut cont cînd vine vorba de un fișier audio, și anume formatul de fișier (containerul) și formatul audio (conținutul efectiv).

Formatul de fișier se referă la faptul că același material audio poate fi scris pe hard-disk sub mai multe forme. Informația poate fi comprimată sau necomprimată, iar, în cazul în care este comprimată, compresia poate fi făcută cu pierderi sau fără pierderi. De exemplu, fișierele de tip WAV conțin informația audio necomprimată. Nu sunt folosite prea des în practică din două motive: ocupă prea mult spațiu pe disc și nu pot conține informații de tip metadata care să ajute un player să afișeze interpretul, numele albumului, numele piese, etc …

Dacă discutăm despre compresie, ea trebuie privită asemeni unei operații de arhivare (gen zip sau rar) dar o arhivare optimizată pentru fișiere care conțin material audio. În mare, sunt două tipuri de compresie – cu pierderi (lossy) și fără pierderi (loseless).

Compresia fără pierderi (loseless) conține materialul audio nealterat dar așezat astfel încât să ocupe aproximativ de două ori mai puțin spațiu pe disc (și implicit să poată fi transferat de două ori mai repede prin internet). Cel mai cunoscut encoder de acest tip, devenit standard în ultimii ani, este FLAC (Free Loseless Audio Codec – https://xiph.org/flac/) iar fișierele rezultate au extensia flac . Un alt encoder loseless care a cunoscut o oarecare popularitate în urmă cu mai multă vreme este Monkey’s Audio iar fișierele rezultate au extensia ape . Cum este posibilă scrierea informației audio într-un volum de două ori mai mică fără să se piardă nici cele mai mici detalii ? În definitiv este vorba despre matematică. Sunt mai multe astfel de tehnici numerice folosite, toate avînd ca scop o compactare cât mai bună fără ca materialul original să fie trunchiat ( http://www.monkeysaudio.com/theory.html ). Trebuie menționat că aceste encodere loseless au setări de calitate dar aceste setări se referă strict la obținerea unui fișier cât mai compact cu prețul utilizării unor calcule mai complexe și, implicit, a necesității unei puteri mai mari de procesare.

Compresia cu pierderi (lossy) a fost și a rămas extrem de populară în principal datorită performanțelor excepționale obținute în micșorarea fișierelor. De exemplu, celebrul mp3 ( MPEG Audio Layer III ), primul format de fișier audio comprimat a devenit un sinonim cu noțiunea de fișier audio în a doua parte a anilor ’90 deoarece un putea comprima un original la mai puțin de o zecime din dimensiunea lui inițială, cu o pierdere de calitate acceptabilă. Gîndiți-vă la alternativa de a transfera 65 MB în loc de 650 MB pentru în perioada în care conexiunile la internet erau dial-up cu viteze de download de ordinul a 40 kb/s.

Metodele matematice de compactare a unui fișier audio fără a altera conținutul originalului își ating limitele producând rate de compresie de circa 50%. Pentru a mări eficiența compresiei, este nevoie să se renunțe la bucățele din materialul original, părți considerate fie inaudibile, fie nesemnificative. Pentru ca acest lucru să se poată petrece fără rezultate neplăcute în momentul audiției, s-a apelat la psihoacustică. Fundamentul științific pe care se bazează mp3 a început să fie dezvoltată spre finele anilor ’70 la universitatea Erlangen-Nurenberg. Profesorul Dieter Seitzer încerca să găsescă o metodă cât mai eficientă de a transmite sunet prin linia telefonică iar cercetările sale au fost dezvoltate de un student, Karlheinz Brandenburg, care a făcut din compresia audio o teză de doctorat. Un grup de 15 cercetători și-au petrecut următorii 20 de ani încercând să rezolve problema lui Seitzer. Ideile erau curajoase dar tehnica de calcul pe care o aveau la dispoziție era mult prea slabă.

**Karlheinz Brandenburg, unul dintre creatorii formatului mp3**

Psihoacustica studiază modul în care creierul uman percepe sunetele și le interpretează. De exemplu, efectul Haas spune că, dacă două sunete identice ajung la ureche din două direcții diferite la un interval de timp foarte scurt, noi le auzim ca pe un singur sunet provenit din prima direcție care a fost percepută. Din acest motiv cel de-al doilea sunet poate fi dispensabil. Urechea umană percepe o gamă limitată de frecvențe, în mod convențional fiind considerat ca spectru audio intervalul dintre 20 Hz și 20,000 Hz. Realitatea este că puțini dintre noi aud întregul spectru sonor, odată cu înaintarea în vîrstă acuitatea auditivă este limitată la circa 16 – 17 kHz, astfel codecul poate tăia frecvențele superioare. Mai mult, auzul nu este liniar în raport cu frecvența sunetului, urechea fiind mult mai sensibilă la frecvențele medii (zona vocilor umane) decât la joasele extreme sau înaltele extreme, așa că se poate renunța și la acestea. Cercetările au condus la criterii din ce în ce mai complexe și rafinate conform cărora informația sonoră să poată fi împărțită în esențială și dispensabilă. Prin 1991, tehnica de calcul a devenit suficient de performantă astfel încât cercetările să poată avea o aplicabilitate concretă în lumea reală. Începînd din 1987 s-a implicat institutul de cercetări Fraunhofer iar procesul de standardizare demarat s-a finalizat prin acceptarea mp3 ca un standard pentru compresie audio (ISO-MPEG-1 Audio Layer 3, mai exact). Lucrurile au explodat abia după ce amatorii au descoperit că această tehnologie poate fi utilizată în distribuirea muzicii prin internet. În 1997 a apărut site-ul mp3.com, un loc de unde se putea descărca muzică în mod gratuit și urmarea a fost că, în scurt timp, termenul “mp3” a depășit “sex” în topul celor mai căutate cuvinte cheie pe internet.

Renunțarea la diverse părți din materialul audio care urmează a fi comprimat se face în funcție de gradul de compresie dorit de utilizator (acea setare de “bitrate”) – cu cât mai mic , cu atât se taie mai agresiv din materialul original (setările sub 128 kb/s sunt considerate ca producând o calitate slabă, iar peste 192 kb/s una bună). Bineînțeles că encoderele apărute au strategii diverse iar acest lucru face ca programe diferite să ducă la rezultate diferite, chiar dacă vorbim despre același format (mp3) și chiar și despre același bitrate. Astfel avem utilizatori care preferă un encoder în dauna altuia ( lame, Fraunhofer, BladeEnc, GoGo, Xing, etc. ), toate producînd același format de fișier, și anume mp3. Trebuie menționat că alături de mp3 mai există și alți algoritmi lossy, cum ar fi: AAC, OggVorbis, WMA sau chiar celebrul ATRAC folosit pentru MiniDisc ( da, celebrul MiniDisc SONY folosea un algoritm de compresie cu pierderi ).

Toată discuția de mai sus se referă doar la container sau la forma în care este stocat un material audio. Să zicem că avem un material audio original de 500 Mb, necomprimat (scos de pe un CD Audio, de exemplu). Putem să-l lăsăm necomprimat în format WAV (500 MB) sau să-l comprimăm fără pierderi la circa 50% din dimensiune cu ajutorul FLAC sau Ape (250 MB), sau putem să apelăm la un encoder lossy și să-l facem mp3 / 128 kbit/s (60 MB). În principiu, fișierele loseless se aud identic iar cele lossy din ce în ce mai prost în funcție de algoritm și de bitrate-ul ales pentru compresie. Ceea ce este important de înțeles este că, indiferent de forma de fișier în care se află, discutăm despre același tip de material sonor, cu aceeași origine (originalul copiat de pe CD-ul Audio).

Formatul audio depinde de modul în care s-a făcut conversia din analogic în digital. La ora actuală sunt două formate cu care se lucrează în audio: PCM și DSD. Ambele fac în esență același lucru, aproximează forma de undă analogică și o convertesc în format digital, dar modul în care fac acest lucru este total diferit (adică DSD nu este un PCM mai bun ci este cu totul altceva)

PCM (Pulse-code Modulation) este celebru fiindcă se află în spatele CD-ului Audio, cel mai răspîndit format digital la ora actuală. Pe scurt, PCM folosește intervale de timp egale la care citește valoarea amplitudinii semnalului audio, ca pe o funcție f(timp) = amplitudine. Cu cât intervalele de timp sunt mai mici sau finețea citirii amplitudinii este mai mare, cu atît unda originală va fi mai fidel reprezentată și refăcută la redare, dar și dimensiunea fișierului rezultat va fi mai mare. În cazul CD-ului Audio a fost nevoie ca aceste valori să fie alese astfel încât materialul care putea fi pus pe un CD să aibe o dimensiune acceptabilă, și anume de aproximativ 75 de minute. În acest mod s-a ajuns la alegerea unei scale de 16 bit pentru amplitudine ( 2 la puterea a 16-a – se pot stoca valori între 0 și 65,536 ) și a unei frecvențe de eșantionare de 44.1 kHz (adică într-o secundă se fac 44,100 de citiri ale amplitudinii). Pentru a putea încadra semnalul audio pe scala amplitudinii de 16 bit a fost nevoie să se introducă o limită superioară a frecvenței audio, stabilită la 22.05 kHz conform condiței pusă de teorema Nyquist ( pentru a reuși determinarea precisă a materialului audio, avem nevoie de un sampling-rate de două ori mai mare decât valoarea maximă a frecvenței din original ), orice sunet aflat peste această limită fiind tăiat de un filtru amplasat înainte de conversia analog-digitală.

Dacă alegem la digitizare o rată de eșantionare mai mare ( citiri mai dese ) și o scală mai mare de valori pentru amplitudine ( citiri mai fine ) obținem o rezoluție superioară ( comparativ cu CD-Audio, considerat standardul de calitate în digital ). De exemplu HiRes 24/96 înseamnă o scală de 24 bit ( 2 la a 24-a sau valori de la 0 la 16,777,215 ) la 96 kHz ( 96,000 de citiri pe secundă ) iar 24/192 înseamnă tot o reprezentare a amplitudinii semnalului în 24 bit dar cu de două ori mai multe citiri pe secundă ( 192,000 ). Această creștere a rezoluției aduce după sine o creștere direct proporțională a dimensiunii fișierelor rezultate, în mod uzual fiind stocate în format FLAC – dacă un fișier 16/44 are o dimensiune fizică, același material înregistrat în 24/96 va fi de trei ori mai mare. Înafară de creșterea fineței aproximărilor, HiRes a adus după sine și creșterea frecvențelor audio maxime care pot fi prezente pe o înregistrare, acestea mergând mult înafara spectrului pe care-l poate auzi urechea umană, în domeniul ultrasunetelor ( 48,000 Hz pentru 24/96 ). Fișierele PCM 24/96 au fost devenit standard pentru înalta rezoluție în stereo odată cu apariția DVD-Audio dar continuă să fie populare în ciuda dispariției acestui mediu fizic.

DSD (Direct Stream Digital) a fost dezvoltat pentru a fi folosit pe SACD-ul dezvoltat de SONY în 2000 (Super-Audio CD), este HiRes prin definiție și se bazează pe o filosofie total diferită față de PCM. Pe scurt, DSD folosește doar un singur bit pentru amplitudinea semnalului ( 0 sau 1 ) dar înregistrează variațiile acestuia cu o rată de 2.8224 MHz ( 2,822,400 de citiri pe secundă ). Foarte grosier vorbind, putem face o analogie cu o pedală de accelerație a unui autovehicul. Să zicem că PCM are o pedală cu o cursă foarte lungă pe care putem apăsa mai puțin sau mai mult, în trepte, în timp ce DSD are o pedală extrem de scurtă cu care dăm șprițuri mai rare sau mai dese în funcție de cât de repede vrem să mergem.

Din motivele expuse mai sus, o comparație directă între DSD și PCM se poate face doar subiectiv, prin audiția rezultatului. Nefiind compatibile, nu se poate face o conversie “curată” din PCM în DSD sau invers și se folosesc tehnici care implică mici pierderi de informație în cazul în care se face o conversie. Fișierele DSD sunt în formatul DSF (stereo) sau DFF (multicanal) și pot fi redate de anumite playere software pe PC-uri.

Pentru a putea asculta fișierele avem nevoie de o sursă de redare a lor (care să permită selectarea și rularea unei anumite melodii) și de un echipament care să decodeze semnalul digital și să-l transforme în semnal audio analogic, care poate fi amplificat și livrat unui traductor (boxe, căști).

Mulți entuziaști nu sunt interesați decât de funcționalitate și utilizează PC-uri banale pentru a reda fișierele. În cazul acesta este suficient să rulezi un software de genul foobar2000, Amarok, Rhythmbox, sau Amarra și să conectezi PC-ul la sistemul audio fie direct prin interfața sa audio, fie prin intermediul unui DAC extern.

Mergînd mai departe, cei care nu doresc un PC urît și zgomotos în sufragerie au posibilitatea de a folosi un HTPC, un PC miniaturizat, mult mai puțin zgomotos (unele soluții sunt fanless), controlat de pe tabletă sau smartphone și conectat la sistemul audio fie direct, fie prin intermediul unui DAC extern.

Următorul pas este achiziționarea unui echipament special dedicat rulării fișierelor audio, un așa-numit streamer care este conectat la rețeaua locală și legat la sistemul audio tot fie direct, fie prin intermediul unui DAC.

**Streamer si DAC Cabasse Stream Source**

Există și echipamente de tip all-in-one, care conțin atît partea de extragere a informațiilor de pe CD-urile proprii, partea de stocare locală pe hard-diskuri, redarea fișierelor și decodarea digital-analogică.

USB a devenit metoda preferată pentru a conecta un DAC la un computer (indiferent dacă e vorba de Windows, Mac sau Linux). Există soluții performante pentru asta indiferent dacă discutăm de DAC-uri din zona ieftină cum ar fi produsele FiiO, Audioquest Dragonfly, Meridian Director sau discutăm despre produse hi-end cum ar fi M2Tech Vaughan sau Chord Electronics QBD76 HDSD.

Streamerele dedicate ( sau network playere ) sunt o soluție elegantă. Și în cazul lor putem discuta despre o gamă largă de echipamente, de la cele mai accesibile ( Cabasse Stream Source, Pioneer N-30, Pioneer N-50 ) la cele mai exclusiviste ( Chord Electronics DSX-1000 sau Meridian Media Core 200 ).

**Streamer si DAC Chord Electronics DSX 1000**

În concluzie, se poate afirma că prețurile scăzute și tehnologia într-un progres continuu au făcut ca opțiunea de a asculta muzică din fișiere audio să fie nu doar o soluție comodă cât și una extrem de performantă.

4 comments

Jozsefe Elenes says:

April 15, 2014 at 12:22

buna ziua

f.interesant acest articol si educativ. Dar am si eu o nelamurire. Nu am inteles si poate ma jutati cu asta. Sa inteleg ca in afara de playerul CD clasic nu mai exista alta cale de a inregistra si reda muzica de calitate superioara? Adica sa inregistrez pe suport CD si sa-l redau cu un aparat, ca playerele CD. Cum sa ma exprim. Calitate audio superioara (nu video) gen DVD.
mihai says:

April 16, 2014 at 16:15

Salut Jozsefe.

Aparatele de tip DVD sau Bluray player sunt gandite in primul rand pentru redare video. Din acest motiv majoritatea modelelor nu exceleaza la calitate audio. Exista si exceptii, produse exotice, de obicei foarte scumpe. De exemplu BD32 de la Primare este un Bluray player care se poate compara cu orice cd-player dedicat, dar pretul este prohibitiv.
Popescu says:

June 16, 2016 at 11:18

Buna, va solicit un ajutor. Am mai multe discuri vinil si vreau sa le copiez pe calculator si nu stiu ce program sa folosesc mai ales ca sunt si ff novice .
NICU says:

January 30, 2019 at 15:01

Buna ziua.Domnul Mihai,puteti sa puneti un tutorial cu setarile ce trebuiesc facute playerului foobar2000 (pas cu pas)pentru asculta toata gama de muzica gen flac,wave,pcm,dsd(dsf file) ?Apoi ar mai fi de dorit (tot pas cu pas) sa ne ajutati cum sa putem adauga plugin-uri sau skin-uri cu vu-metre analogice?