04. A digitális rögzítés fizikája

A mai modern stúdiókban és az otthoni házi stúdiókban is digitális elven célszerű rögzíteni a zenét. Mit jelent ez?

A mikrofon vagy gitár hangját a hangkártya bemenetére küldve a hangkártyában lévő analóg-digitális (=AD) átalakító áramkör másodpercenként sokszor mintát vesz, és a minta nagyságát összehasonlítja előre beállított szintekkel, amelynek alapján létrehoz egy számsorozatot. A gépen futó szoftver ezeket a számokat rögzíti a merevlemezen egy fájlba. A lementett fájlokat játszuk vissza később, keverjük ki belőlük a végleges zenét. Az összekevert zenét lejátszva a hangkártya menet közben alakítja vissza a rögzített és megkevert digitális jelekből a hangkártya kimenetén megjelenő hangot. Ehhez egy digitál-analóg (=DA) átalakító áramkört használ.

A zene minősége függ a felhasznált és felvett fájlok minőségétől, ezért az átalakítás Elsődleges fontosságú. Az átalakítás minőségét alapvetően három dolog befolyásolja:

  • A mintavételi frekvencia. Ez azt jelenti, hogy a bejövő jelből a hangkártya másodpercenként hányszor vesz mintát. A Shannon mintavételi törvénye azt mondja ki, hogy a mintavételi frekvenciának legalább kétszer akkorának kell lennie, mint a rögzíteni kívánt jel legmagasabb frekvenciájú komponense. Az emberi fül csecsemőkorban maximálisan 20 000 Hz-es jelet hall meg, ami az életkor előrehaldtával romlik, tehát ha 40 000 Hz-en veszünk mintákat akkor annak jónak kell lennie. Technikai okok miatt a CD minőség mintavételi szabványát 44 100 Hz-ben állapították meg. Itt most nem részletezett okok miatt a számítógépes felvételeknél elegendő lenne ez a mintavételezési frekvencia, de mégis 48 000 HZ-en szoktak mintát venni. A hangkártyákon be lehet állítani ennél kisebb mintavételezési frekvenciákat is. A 11000 Hz eléggé pocsék eredényt ad, a 22000 Hz már élvezhető hangot ad. Megjegyzem, hogy az MP3-as zenék legmagasabb hangja 15 400 Hz, tehát elegendő lenne 31000 Hz-s mintavételi frekvencia.
  • A kvantálás minősége. Ez azt jelenti, hogy a bemeneti jelet hány különböző féle előre beállított szinttel hasonlítja össze az AD átalakító. Alapszabály, hogy minnél több szinet használunk, annál pontosabban tudjuk leírni a bejövő jel alakját. Ha kevés a kvantálási szint, akkor a bejövő jel finomabb változásait nem tudja visszaadni az átalakítás. A gyakorlatban ez azt jelenti, hogy a halk hangok, a finom változások az átalakítás során eltűnnek és nem rögzíti őket a program lemezre, azokat nem lehet sehogyan sem előcsalogatni. A számítástechnika hajnalán az átalakítók csak két állapotot tudtak használni, ez zeneileg értékelhetetlen hangot adott ki. Ezt 1 bites, azaz két állapotnak (=21) hívják. A 8 bites számítógépek idején C-64, Spektrum stb. 8 bites átalakítást használtak (= 28 ) ami 256 különböző szintet jelent, azzal már élvezhető hangot lehetett előállítani. A CD minőségjez 16 bites átalakításra van szükség, ami 65536 szintet jelent. A digitális stúdiók világában vagy ennél nagyobb kvantálást is használnak, söt lebegőpontos kvantálást is. Mivel 1 bájt = 8 bit ez azt jelenti, hogy egy minta mérete 2 bájt.
  • A zaj mennyisége. A zaj az átviteltechnikában mindig megjelenő fals információ, amely a bemeneti jelet torzítja. Miután digitalizálunk egy jelet zaj már nem kerül hozzá, onnantól számítva nem szaporodik. Ennek mértékét nem tudjuk úgy szabályozni, általában a felvevő rendszer, a környezet, a hangszer, az elektronika működéséből adódik hozzá a hangszer jeléhez, amit esetleg tudunk csökkenteni jobb minőségű eszközökkel, illetve zajzárakkal, zajszűrő eljárásokkal. Sajnos 0-ra nem tudjuk azokat csökkenteni.

A mintavételezés paraméterei, a kvantálás és a mintavételi frekvencia egyúttal meghatározza a felvételkor létrejövő fájl nagyságát is.

Ha a mintavételezési frekvencia 48 000 Hz, és 16 bites kvantálást használunk, sztereo üzemmódban, ami 2 csatornát jelent, akkor a létrejövő fájl mérete másodpercenként 48 000 * 2 bájt * 2 csatorna = 192 000 bájt / sec = 187,5 kbájt/sec. 1 perces zenefelvétel pedig 187,7 *60 = 11250 kbájt / perc, azaz kb. 11 MBájt/perc.

Ha egy szám felvételéhez 10 sztereo tracket rögzítünk és a szám 3,5 perc hosszú, akkor a szükséges terület 10*11*3,5 = 385 MBájt lesz.

A fenti számolások alapján egy hosszabb szám felvételéhez 300 MB és 1 GB közötti helyre lesz szükség a számítógép háttértárolóján.

Miért van szükség az ilyen túlméretezett mintákra.

A digitális minták keverésekor a végeredményt a számítógép összeadással hozza létre és alakítja vissza az eredményt a hangkártya vagy egy lejátszóban lévő DA átalakító hanggá.

Hagyományos (analóg keverők esetében ) ha egy hangos és egy halk hangot összekeverek, majd rögzítem, a két jel matematikailag összeadódik. Digitális feldolgozás esetén ha a két jel szintje között túl nagy a hangerőkülönbség, és az összeadás során az összeg nem éri el a következő kvantálási szintet, akkor a halk hang nem jelenik meg az eredményben.

Az emberi fül csodálatos műszer és sokkal nagyobb hangerőkülönbségeket képes felismerni és azonosítani, mint a digitális feldolgozás áramkörei, ezért a digitális keverés eredménye valójában mindig is kicsit furcsa, nem természetes erdményt ad a fül számára. A természetben ugyanis soha nincsen zajmentes környezet (a háttérben akár a szél susogása, akár az állatok, bogarak ciripelése ott van, aminek a hangereje nagyon kicsi, de a fül meghallja).

Zaj

Egy barátom (Sabolc) kedvéért külön részt írok a zajról.

A zaj olyan fals információ az átviteltechnikában, amely a hasznos jelek információtartalmát torzítja, elfedi, szélsőséges esetben haszálhatatlanná teszi. A hangok esetén is hasonló a helyzet. A zaj olyan hang, amely a zenei hangokat valamilyen módon elfedi, torzítja, nem teszi értelmezhetővé. A zajok gyakran, de nem mindig véletlenszerűen keletkeznek. A zajoknak gyakran nincsen jól meghatározható frekvenciájuk és egyéb matematikailag jól kezelhető paramétereik. Ilyen lehet egy leeső tárgynak a hangja, a szél susogása, a kulcs zörése és még sok egyéb. Ilyen az is, amikor a szél fúj, vagy beindítják egy sugárhajtású repülőgép motorját és azt halljuk. Ez utóbbi azonban már tartalmazhat jól meghatározható frekvenciájú összetevőket is, hiszen a sugárhajtómű rotorja forgás során hozzáad a véletlenszerű hangokhoz bizonyos meghatározható frekvenciákat is.

Zajnak tekintjük például egy transzformátorház búgását, amiről lehet tudni, hogy 100 Hz magas hang.

Impulzusok

A zajok egy része impulzusszerű, vagyis hirtelen, véletlenszerűen megjelenik. Ilyen egy villámcsapás hangja, leeső tárgy hangja, avagy a gitár recsegő kapcsolójának a hangja, amikor átkapcsoljuk másik állásba. Az ilyen zajok gyakran elnyomják az értékes zenei hangokat és a felvételen egy reccsenésként hallatszanak. Matematikailag a jelben ilyenkor megjelenik egy vagy több magas tüskeszerű jel, maximális vagy maximálishoz közeli intenzitással. Tele van magas frekvenciájú összetevőkkel. Az ilyen hang elnyomja a zenei hangot és a zenében lévő információ itt elveszik. Ezt átviteltechnikában impulzusnak hívják.

A kérdés, hogyan lehet kiküszöbölni vagy csökkenteni a hatását a felvételen. Ha sok ilyen zaj van, akkor inkább vegyük fel újra a kérdéses részt! Ha csak egy-két helyen jelenik meg, akkor a felvett tracket egy audio editorral (ingyenes AudaCity) nyissuk meg, keressük meg a kérdéses részt, nullázzuk le, majd a zene szomszédos részéből meghatározott hosszban másoljuk oda az eredeti jel darabját. Arra kell figyelni, hogy a másolásnál a zene hullámot a null átmenetnél kell másolni és a null átmenethez kell csatolni. (A hangtrackek szerkesztésével kapcsolatban a tudnivalókat máshol írom le). Az így beszúrt kb. 0,01-0,1 másodperc hosszú darab nagy valószínűséggel nem fog lényegesen különbözni a sáv szomszédos részeitől, ezért a szerkesztés ténye nem fog feltűnni, ha pedig ez a sáv egy több sávból álló összetett zenei anyag része, akkor még úgy sem tűnik fel.

Széles sávú, hosszabb ideig tartó zajok

Amikor egy felvétel alatt a háttérben például szél fúj, vagy autók zaja hallatszik be, akkor az egy folytonos zajként jelenik meg a felvételen. Sajnos ezt nem lehet kiszűrni, hiszen a felvételhez hozzáadódik és a rögzített anyag része. Két dolgot lehet vele tenni.

Az egyik az, hogy a felvétel szüneteiben - például amikor az énekes nem énekel verzét hanem a következő belépésre vár - a track hangerejét nullára vesszük. lyenkor az énekes lélegzetvételének hangja is eltűnik, de a zaj is eltűnik. Természetesen a nullára vétellel együtt a beúsztatás (Fade In) és kiúsztatás (Fade Out) funkciót is használjuk. Levegősebb dalokban, ahol a hangszerek is hagynak teret, az énekesek hangja ilyenkor a semmiből jön elő, ami nem igazán jó, de mást nem tehetünk. Ilyenkor az énekes hangjára tett zengetés (Reverb) valamelyest pótolja a hiányosságot.

A másik lehetőség az, hogyha a hangszerek hangja és a zaj között van frekvencia eltérés, (például cinek hangja + autó motorja, gitár + elektromos hálózat 50 - 100 Hz) akkor hangszínszabályozókkal (equalizer) levágjuk a zaj tartományát vagy erősítjük a hangszer hasznos frekvenciáját. Ezzel nem lehet végleges és tökéletes eredményt elérni, de a zaj zavarását lehet csökkenteni.

A következő három fajta zaj mindegyike folyamatosan keletkezik, de nem mindegyik lesz egyformán rossz a felvételeken, sőt van, amelyik hasznos is.

Sörétzaj

Az elektronikus berendezések működés közben törvényszerűen termelnek zajokat, amit sörétzajnak hívnak. A sörétzaj az elektronok véletlenszerű mozgásából és az így keletkező mikroáramok miatt keletkezik. Ha egy ilyen zajos hangforrást felerősítek nagyon, akkor törvényszerűen a zaj is hangosabbá válik. Ilyen módon a felvétel zajos lesz. mivel a sörétzajnak nincsen tipikus frekvenciája, ezért ezt a felvétel után már nem lehet korrigálni. Törekedni kel rá, hogy a hangszerek hangját minél nagyobb jelszinttel vegyük fel és a felvevő rendszer egyes részeinek zaja legyen sokkal kisebb, mint a hasznos jel. A jel további feldolgozásánál pedig használhatunk zajzárat, hogy a halkabb részeken vágja le a zajokat az elektornika.

Fehér zaj

Fehér zajnak hívják azt a fajta zajt, amikor mindenféle frekvenciájú véletlenszerű zaj megjelenik egy bemeneten a hallható tartományban. Ezt zenei rendszerek átvitelének vizsgálatára használják olyan módon, hogy a bemenetre beküldik a folyamatosan szóló fehér zajt, a rendszer kimenetén pedig mérő mikrofont használva vizsgálják, hogy a hangrendszer és esetleg a környezet milyen frekvenciákon erősíti vagy gyengíti a megszólaló jelet. Ilyen eszközöket használnak koncerteken, amikor beállítják a hangrendszer alapvető tulajdonságait, mert így a környezet elnyelési és erősítési tulajdonságait nagyon pontos equalizerek segítségével lehet kompenzálni. Amelyik frekvencián a környezet elnyel, ott erősíteni kell, ha erősebb, mint az átlag, akkor csökkenteni az erősítést. Így lehet lineárissá tenni az átviteli rendszert és ehhez képest lehet megfogalmazni egy koncert hangzását a későbbiekben.

Ezt az eljárás technikai megközelítésű és valóban lineárissá teszi a hangrendszert, de az emberi fül nem lineáris szerkezet, ezért használják a rózsaszín zajt.

Rózsaszín zaj

A rózsaszín zajban is mindenéfle frekvenciájú összetevő megtalálható, de a fűl érzékenységével és jelleggörbéjével korrigálva. Az emberi fül a hangosság fogalmát úgy érzékeli, hogy az azonos teljesítményű különböző frekvenciájú hangok közül az 1-3 KHz magasságú hangokat halljuk a leghangosabbnak és ettől lefelé és felfelé egyre halkabbnak halljuk a jeleket. A rózsaszín zaj ezért az alsó tartományokban jóval hangosabb és a 3 KHz feletti tartományokban fokozatosan hangosodik.

A hangrendszerek beállításakor a rózsaszín zajgenerátorral azt lehet letesztelni, hogy hangosság érzése szempontjából hogyan viselkedik a hangrendszer.