Was ist der Unterschied zwischen 128 kbps und 320? Die häufigsten Missverständnisse über digitales Audio

MP3-Format. Qualität. (In einfachen Worten)
MP3 ist eine digitale Darstellung eines analogen Signals, das in regelmäßigen Abständen (mit einer in Hertz angegebenen Frequenz) diskreditiert (digitalisiert) und in binärer Form (mit einer angegebenen Genauigkeit – Bittiefe) dargestellt wird.
Künstler - Titel.mp3
192 kbps 48 kHz 16bit CBR-Stereo
1. Was bedeuten 16 KBit/s, 320 KBit/s, 192 KBit/s usw.?
Die Zahl gibt an, wie viele digitale Daten für die Kodierung benötigt wurden.
kbps – „Kilobyte-Pyo-Sekunde“, d. h. Kilobyte pro Sekunde.
Bits pro Sekunde, bps (englisch bits per second, bps) – eine grundlegende Maßeinheit für die Geschwindigkeit der Informationsübertragung.
*Je höher dieser Wert, desto höher sind Qualität und Lautstärke (Mb) des Tons.
* 1 Byte = 8 Bit
* 1 Kilobit = 1024 Bit = 128 Byte (B)
* 1 Megabit = 1048576 Bit = 131072 Byte = 128 KB
Anfänger verwechseln oft Kilobyte mit Kilobit und erwarten von einem 256-Kb/s-Kanal eine Geschwindigkeit von 256 KB/s (auf einem solchen Kanal beträgt die Geschwindigkeit 31,25 KB/s). Das heißt, das Herunterladen von einem Megabyte (1 MB) an Informationen auf einem solchen Kanal dauert 32,768 Sekunden.
2.Was bedeutet 44100 Hz oder 44 kHz?
Abtastfrequenz – die Abtastfrequenz bei der Umwandlung eines analogen Audiosignals in ein digitales. Ausgedrückt in Samples pro Sekunde oder Hertz beträgt die Zeitabtastrate im CD-Format 44,1 kHz.
(In einfachen Worten: Mit welcher Frequenz wird der Ton digitalisiert)
*Soundkarten unterstützen, genau wie Player, gängige Frequenzen.
Allerdings können Sie in Editoren zwischen 2000 Hz und 192.000 Hz speichern. Je höher die Frequenz, desto größer (MB) und desto besser ist die Klangqualität.
3.Was ist 16bit oder 24bit?
Schallamplitudenwerte werden mit unterschiedlicher Anzahl von Bits (Tiefe) dargestellt; Die Audiospur wird üblicherweise mit einer Bittiefe von 12 bis 24 Bit digitalisiert.
*Je besser dieser Wert ist, desto präziser und deutlicher werden unterschiedliche, aber ähnlich klingende Instrumente zu hören sein, was sich auch stark auf die Klangqualität auswirkt.
4. Was ist ABR, CBR, VBR?
ABR steht für Average Bit Rate, also die durchschnittliche Bitrate, die eine Mischung aus VBR und CBR ist: Die Bitrate in kbit/s wird vom Benutzer eingestellt und das Programm variiert sie und passt sie ständig an die vorgegebene Bitrate an.
*In einfachen Worten: Wenn Sie MP3-Sound speichern und VBR 128 Kbit/s auswählen, bedeutet dies, dass der Ton mit einer variablen Bitrate (falls erforderlich) codiert wird, die 128 Kbit/s nicht überschreitet. Bei Stille sind es etwa 16 Kbit/s.
CBR ist eine konstante Qualität von nicht mehr als dem angegebenen Wert, aber auch im Stillen wird es einen angegebenen Wert geben.
diese. Codierung CBR 320 kbps 1 Minute Ton und 1 Minute Stille, die endgültigen Dateien belegen den gleichen MB-Wert.
ABR – codiert mit einem konstanten angegebenen Wert (z. B. 128 KBit/s), aber bei Bedarf werden 128 KBit/s unterbrochen und ein höherer Wert verwendet.
*Aus Qualitätsgründen ist es besser, VBR mit einer Frequenz von 48 Hz zu verwenden, als CBR, ABR, VBR 44,1 Hz.
5. Mono. Stereo. Jeder scheint es zu wissen.
Den Rest schreibe ich später...

Die Bitrate wird als eines der Hauptmerkmale von Video- und Audioaufnahmen angegeben. Die meisten Benutzer sind daran gewöhnt, dass es die Qualität der heruntergeladenen Datei bestimmt. Doch was sind Bitraten und wie charakterisieren sie eigentlich Musikdateien und Videos? Schauen wir uns das genauer an.

Was sind Bitraten?

Bitrate ist ein Wert, der die Anzahl der Informationseinheiten (Megabit oder Kilobit) angibt, die in einer Sekunde Dateiwiedergabe enthalten sind. Dementsprechend wird sie in Megabit pro Sekunde (Mbps) oder Kilobit pro Sekunde (Kbps) gemessen. Ansonsten kann die Bitrate als Bandbreite beschrieben werden. Diese Eigenschaft ist wichtig für diejenigen, die Dateien konvertieren möchten, da eine höhere Bitrate bei gleicher Dauer zu einer größeren Datei führt. Neben der Größe verändert sich auch die Klangqualität. Die Verringerung der Größe bei abnehmender Bitrate wird als Komprimierung bezeichnet.

Eine übliche Musikdatei ist eine Audiodatei, die so stark komprimiert ist, dass bis zu 12 Stunden Musik auf eine Standard-CD passen. Gleichzeitig bleibt die Qualität dank psychoakustischer Kompression recht hoch: Töne mit Frequenzen und Lautstärken, die das menschliche Ohr nicht wahrnimmt, werden aus dem gesamten Spektrum entfernt. Ausgewählte Sounds werden in separaten Blöcken, sogenannten Frames, zusammengefasst. Frames haben die gleiche Tondauer und werden nach einem vorgegebenen Algorithmus komprimiert. Beim Abspielen von Musik wird das Signal aus den dekodierten Blöcken in einer bestimmten Reihenfolge neu erstellt.

Welche Komprimierung wird üblicherweise verwendet?

Die Audio-Bitrate beträgt meistens 256 Kbit/s. Bei diesem Wert wird die Audioaufnahme um etwa das Sechsfache komprimiert, sodass Sie sechsmal mehr Musik auf einer Disc aufnehmen können als vor der Komprimierung. Wenn die Bitrate auf 128 Kbit/s gesenkt wird, passt auf eine Disc 12-mal mehr Musik, aber die Klangqualität wird merklich schlechter. Musik, die in einer Qualität von 128 Kbit/s aufgenommen wurde, wird am häufigsten zum Anhören im Internet angeboten, da Ressourcenbesitzer beim Streben nach einer höheren Seitenladegeschwindigkeit keine Opfer bringen. Viele Benutzer bemerken, dass die Qualität alles andere als ideal ist.

Da nun klar ist, welche Bitraten es gibt, ist es an der Zeit, deren optimales Niveau zu bestimmen. Sowohl Amateure als auch Profis diskutieren endlos darüber, wie sich die Bitrate, wenn überhaupt, auf die Klangqualität auswirkt. Auf Musikalben wird in der Regel die Bitrate angegeben. Die gleiche Disc, aufgenommen mit 128 Kbit/s und 256 Kbit/s, wird doppelt so teuer sein.

Optimale Bitrate unter verschiedenen Hörbedingungen

Für viele Menschen stellt die 12-fache Komprimierung keinen Schaden dar, während andere behaupten, dass sie keine Musik mit einer Bitrate unter 320 Kbit/s hören können. Es ist paradox, aber beide haben Recht. Tatsache ist, dass die Qualität der Wiedergabe letztendlich nicht von den Wiedergabebedingungen und sogar von der Art der Musik abhängt.

Beispielsweise wird ein Lied auf einem Tonbandgerät abgespielt, das in einem Haushaltsauto installiert ist. In diesem Fall ist eine Qualität von 192 Kbit/s völlig ausreichend. Eine höhere Bitrate verbessert die Tonqualität, der Unterschied wird jedoch aufgrund des hohen Geräuschpegels während der Fahrt nicht spürbar sein. Wenn Musik auf einem Heimcomputer oder einem tragbaren Player abgespielt wird, sind mindestens 256 Kbit/s erforderlich. Wenn das Signal keinen Veränderungen unterliegt, an externe Geräte übertragen und über teure Importlautsprecher ausgegeben wird, sollte man nach Möglichkeit auf eine minimale Komprimierung zurückgreifen. Dies ist mit einer Bitrate von 320 Kbit/s möglich.

Optimale Bitrate für verschiedene Musikstile

Musik mit hoher Bitrate ist nicht immer erforderlich. Popmusik klingt bei einer Bitrate von 192–256 Kbit/s normalerweise recht gut. Es ist möglich, eine höhere Qualität einzustellen, aber das macht keinen Sinn: Popsongs halten nicht lange, daher sollte die Einsparung von Speicherplatz Priorität haben. Darüber hinaus ist auch die Qualität der Quellaufnahmen mittelmäßig, sodass eine Erhöhung der Bitrate möglicherweise keinen Einfluss auf die Qualität der abgespielten Datei hat. Zum Hören im Verkehr und auf informellen Partys reicht die durchschnittliche Qualität völlig aus.

Wenn es um klassische Musik, Werke legendärer Rockbands oder seltene Originalsongs geht, sollte die Qualität an erster Stelle stehen. Beim Kauf solcher Musik müssen Sie auf die auf der Disc-Verpackung angegebene Bitrate achten. Wenn das Lied aus dem Internet heruntergeladen wird, sollten diese Informationen auf der Download-Seite vorhanden sein. Darüber hinaus wird die Bitrate während der Wiedergabe im Player angezeigt.

Bitraten von Videodateien

Wir haben oben besprochen, was die Bitraten von Audioaufnahmen sind. Aber was ist die Videobitrate? Wenn man bedenkt, dass das Video als Abfolge von Tönen und Bildern abgespielt wird, ist die Definition der Bitrate ähnlich. Das Vorhandensein von Video macht die Datei zwar schwerer, aber letztendlich sind Bilder für den Prozessor dieselben Nullen und Einsen wie Töne. Das Prinzip der Verschlüsselung von Informationen ist für alle Dateitypen gleich.

In diesem Artikel werden wir über Audiokodierungseinstellungen sprechen, die sich auf die Klangqualität auswirken. Wenn Sie die Konvertierungseinstellungen verstehen, können Sie die am besten geeignete Audiokodierungsoption im Hinblick auf das Verhältnis von Dateigröße zu Klangqualität auswählen.

Was ist Bitrate?

Die Bitrate ist die Datenmenge pro Zeiteinheit, die zur Übertragung eines Audiostreams verwendet wird. Beispielsweise steht eine Bitrate von 128 kbps für 128 Kilobit pro Sekunde und bedeutet, dass 128.000 Bits verwendet werden, um eine Sekunde Audio zu kodieren (1 Byte = 8 Bits). Wenn wir diesen Wert in Kilobyte umrechnen, ergibt sich, dass eine Tonsekunde etwa 16 KB benötigt.

Je höher also die Bitrate eines Titels ist, desto mehr Speicherplatz nimmt er auf Ihrem Computer ein. Aber gleichzeitig ermöglicht Ihnen eine höhere Bitrate innerhalb desselben Formats, Ton mit höherer Qualität aufzunehmen. Wenn Sie beispielsweise eine Audio-CD in mp3 konvertieren, ist der Ton mit einer Bitrate von 256 kbps von viel höherer Qualität als mit einer Bitrate von 64 kbps.

Da der Speicherplatz inzwischen recht günstig geworden ist, empfehlen wir die Konvertierung in mp3 mit einer Bitrate von mindestens 192 kbps.

Außerdem wird zwischen konstanten und variablen Bitraten unterschieden.

Der Unterschied zwischen konstanter Bitrate (CBR) und variabler Bitrate (VBR)

Bei einer konstanten Bitrate werden alle Teile des Audios mit der gleichen Anzahl an Bits kodiert. Aber die Struktur des Klangs ist normalerweise anders und zum Beispiel erfordert die Kodierung von Stille deutlich weniger Bits als die Kodierung von sattem Klang. Die variable Bitrate passt im Gegensatz zur konstanten Bitrate die Kodierungsqualität automatisch an, abhängig von der Komplexität des Tons in bestimmten Intervallen. Das heißt, für Abschnitte, die aus Codierungssicht einfach sind, wird eine niedrigere Bitrate verwendet, und für Abschnitte, die komplex sind, wird ein höherer Wert verwendet. Durch die Verwendung einer variablen Bitrate können Sie eine höhere Klangqualität bei kleinerer Dateigröße erzielen.

Was ist die Abtastrate?

Dieses Konzept entsteht bei der Umwandlung eines analogen Signals in ein digitales und bezieht sich auf die Anzahl der Abtastungen (Signalpegelmessungen) pro Sekunde, die zur Umwandlung des Signals durchgeführt werden.

Für wie viele Kanäle ist verantwortlich?

Ein Kanal ist im Hinblick auf die Audiokodierung ein unabhängiger Audiostream. Mono – ein Stream, Stereo – zwei Streams. Um die Anzahl der Kanäle anzugeben, wird häufig die Abkürzung n.m verwendet, wobei n die Anzahl der vollwertigen Audiokanäle und m die Anzahl der Niederfrequenzkanäle ist (z. B. 5,1).

Vor- und Nachteile von MP3 128 kbps

Das Komprimieren von Audiodaten ist eine komplizierte Sache. Vorab lässt sich dazu nichts sagen... Das heute gängigste Format – MPEG Layer3 mit einem Stream von 128 kbit/s – bietet eine Qualität, die sich auf den ersten Blick nicht vom Original unterscheidet. Es wird leichtfertig als „CD-Qualität“ bezeichnet. Allerdings weiß fast jeder, dass viele Menschen angesichts einer solchen „CD-Qualität“ die Nase rümpfen. Was ist falsch? Warum reicht diese Qualität nicht aus? Eine sehr schwierige Frage. Ich selbst bin gegen eine 128-kbit-Komprimierung, da das Ergebnis manchmal dumm ist. Aber ich habe eine Reihe von 128-kbit-Aufnahmen, an denen ich praktisch nichts auszusetzen habe. Ob Stream 128 für die Kodierung dieses oder jenes Materials geeignet ist, lässt sich leider erst nach mehrmaligem Anhören des Ergebnisses feststellen. Es ist unmöglich, im Voraus etwas zu sagen – ich persönlich kenne keine Anzeichen, anhand derer wir den Erfolg des Ergebnisses im Voraus feststellen könnten. Für eine hochwertige Musikkodierung reicht jedoch oft Stream 128 vollkommen aus.

Für die 128-kbit/s-Kodierung verwenden Sie am besten Produkte von Fraunhofer - MP3 Producer 2.1 oder höher. Außer MP3enc 3.0 – es hat einen lästigen Fehler, der zu einer sehr schlechten Hochfrequenzkodierung führt. Versionen über 3.0 weisen diesen Nachteil nicht auf.

Zunächst ein paar allgemeine Worte. Die Wahrnehmung eines Klangbildes durch einen Menschen hängt wesentlich von der symmetrischen Übertragung zweier Kanäle (Stereo) ab. Unterschiedliche Verzerrungen in verschiedenen Kanälen sind viel schlimmer als bei denselben. Im Allgemeinen ist es ein großes und meist unterschätztes Problem bei der Tonaufnahme, sicherzustellen, dass die Klangeigenschaften in beiden Kanälen möglichst identisch sind, das Material aber mittlerweile unterschiedlich ist (ansonsten, was ist das für ein Stereo?). Wenn wir 64 kbit/s zum Kodieren von Mono verwenden können, reichen 64 kbit/s pro Kanal nicht aus, um Stereo im Modus mit nur zwei Kanälen zu kodieren – das Stereoergebnis wird viel falscher klingen als jeder Kanal einzeln. Die meisten Fraunhofer-Produkte beschränken Mono im Allgemeinen auf 64 kbps – und ich habe noch keine Monoaufnahme (saubere Aufnahme – kein Rauschen oder Verzerrung) gesehen, die eine höhere Bitrate erfordern würde. Aus irgendeinem Grund sind unsere Vorlieben für monophonen Klang viel schwächer als für stereophonen Klang – anscheinend nehmen wir ihn einfach nicht ernst :) – aus psychoakustischer Sicht handelt es sich einfach um den Klang, der von einem Lautsprecher ausgeht, und nicht um einen Versuch um eine Art Klanggemälde vollständig zu vermitteln.

Der Versuch, Stereosignale zu übertragen, stellt deutlich höhere Anforderungen – haben Sie schließlich schon einmal von einem psychoakustischen Modell gehört, das die Maskierung eines Kanals durch einen anderen berücksichtigt? Auch einige inverse, sagen wir, Effekte werden ignoriert – zum Beispiel ein bestimmter Stereoeffekt, der für beide Kanäle gleichzeitig ausgelegt ist. Ein separater linker Kanal maskiert seinen eigenen Teil des Effekts – wir werden ihn nicht hören. Aber das Vorhandensein des rechten Kanals – des zweiten Teils des Effekts – verändert unsere Wahrnehmung des linken Kanals: Wir erwarten unbewusst, den linken Teil des Effekts mehr zu hören, und diese Veränderung in unserer Psychoakustik muss ebenfalls berücksichtigt werden. Bei schwacher Komprimierung – 128 kbits pro Kanal (insgesamt 256 kbits) verschwinden diese Effekte, da jeder Kanal vollständig genug dargestellt wird, um die Notwendigkeit der Übertragungssymmetrie mit einem Spielraum abzudecken, aber für Streams von etwa 64 kbits pro Kanal ist dies ein großes Problem – Die Übertragung der subtilen Nuancen der gemeinsamen Wahrnehmung beider Kanäle erfordert eine genauere Übertragung, als dies derzeit in solchen Streams möglich ist.

Es war natürlich möglich, ein vollwertiges Akustikmodell für zwei Kanäle zu erstellen, aber die Industrie ging einen anderen Weg, der im Allgemeinen diesem gleichwertig, aber viel einfacher ist. Viele Algorithmen mit dem allgemeinen Namen Joint Stereo sind eine Teillösung für die oben beschriebenen Probleme. Die meisten Algorithmen beschränken sich auf die Auswahl eines zentralen Kanals und eines Differenzkanals – Mid/Side-Stereo. Der Center-Kanal trägt die Haupt-Audioinformationen und ist ein regulärer Monokanal, der aus zwei Originalkanälen gebildet wird, und der Differenzkanal enthält die restlichen Informationen, die es Ihnen ermöglichen, den ursprünglichen Stereoton wiederherzustellen. Dieser Vorgang selbst ist vollständig umkehrbar – es handelt sich lediglich um eine andere Art der Darstellung der beiden Kanäle, die beim Komprimieren von Stereoinformationen einfacher zu handhaben ist.

Als nächstes werden der Center- und der Differenzkanal normalerweise separat komprimiert, wobei man sich die Tatsache zunutze macht, dass der Differenzkanal in echter Musik relativ schlecht ist – beide Kanäle haben viele Gemeinsamkeiten. Das Kompressionsgleichgewicht zugunsten des Mittelkanals und des Differenzkanals wird im laufenden Betrieb ausgewählt, im Allgemeinen wird dem Mittelkanal jedoch ein viel größerer Durchfluss zugewiesen. Komplexe Algorithmen entscheiden, was uns im Moment vorzuziehen ist – ein korrekteres räumliches Bild oder die Qualität der Übertragung von Informationen, die beiden Kanälen gemeinsam sind, oder einfach eine Komprimierung ohne Mitten-/Seiten-Stereo – also im Zweikanalmodus.

Seltsamerweise ist die Stereokomprimierung der schwächste Punkt des Layer3-128-kbps-Komprimierungsergebnisses. Man kann die Macher des Formats nicht kritisieren – das ist immer noch das geringstmögliche Übel. Subtile Stereoinformationen werden fast nicht bewusst wahrgenommen (wenn man offensichtliche Dinge nicht berücksichtigt – die grobe Anordnung von Instrumenten im Raum, künstliche Effekte usw.), daher ist die Stereoqualität das Letzte, was ein Mensch bewertet. Üblicherweise hindert uns immer etwas daran, an diesen Punkt zu gelangen: Computerlautsprecher bringen beispielsweise viel schwerwiegendere Mängel mit sich, und es kommt einfach nicht zu solchen Feinheiten wie der falschen Übertragung räumlicher Informationen.

Sie sollten nicht glauben, dass dieser Mangel in der Computerakustik dadurch nicht wahrgenommen wird, dass die Lautsprecher in einem Abstand von 1 Meter an den Seiten des Monitors platziert sind, ohne dass eine ausreichende Stereobasis entsteht. Darum geht es gar nicht... Erstens, wenn es um solche Lautsprecher geht, dann sitzt man direkt davor – und das erzeugt den gleichen Effekt wie bei Lautsprechern in den Ecken des Raumes, und sogar noch größer: bei normaler Akustik und Bei guter Lautstärke werden Sie fast nie in der Lage sein, die genaue räumliche Lage von Geräuschen zu erkennen (es geht hier nicht um ein Klangbild, das Computerlautsprecher im Gegenteil nie aufbauen werden, sondern um die direkte, bewusste Wahrnehmung des Unterschieds zwischen Kanälen). Computerlautsprecher (im Standardgebrauch) oder Kopfhörer bieten ein viel klareres unmittelbares Stereoerlebnis als herkömmliche Musiklautsprecher.

Ehrlich gesagt brauchen wir für die direkte, informative und kognitive Wahrnehmung von Klang keine genauen Stereoinformationen. Es ist ziemlich schwierig, den Unterschied in diesem Aspekt zwischen dem Original und Layer3 128 kbps direkt zu erkennen, obwohl es möglich ist. Sie benötigen entweder viel Erfahrung oder eine Verstärkung der Wirkungsinteressen. Am einfachsten ist es, die Kanäle virtuell weiter zu verteilen, als es physikalisch möglich ist. Normalerweise wird dieser Effekt bei billigen Computergeräten mit der Schaltfläche „3D Sound“ aktiviert. Oder in Ghettoblaster, deren Lautsprecher nicht vom Gehäuse des Geräts getrennt sind und zu wenig Abstand haben, um schönen Stereoklang auf natürliche Weise wiederzugeben. Es kommt zu einem Übergang räumlicher Informationen in spezifische Audioinformationen beider Kanäle – der Unterschied zwischen den Kanälen nimmt zu.

Um den Unterschied besser hören zu können, habe ich einen stärkeren Effekt als üblich verwendet. Sehen Sie, wie es klingen sollte – nach der Kodierung bei 256 kbps mit einem Doppelkanal (256_channels_wide.mp3, 172 kB) und wie es nach der Kodierung bei 128 kbps mit Joint Stereo (128_channels_wide.mp3, 172 kB) klingt.

Rückzug. Bei beiden Dateien handelt es sich um 256-kbps-MP3s, die mit MP3 Producer 2.1 codiert wurden. Lassen Sie sich nicht verwirren: Erstens teste ich MP3 und zweitens veröffentliche ich die Ergebnisse des MP3-Tests in MP3 ;). Das war so: Zuerst habe ich ein Musikstück in 128 und 256 kodiert. Dann habe ich diese Dateien dekomprimiert, eine Verarbeitung angewendet (Stereo-Expander), sie in 256 komprimiert – nur um Platz zu sparen – und sie hier gepostet.

Übrigens wird Joint Stereo erst bei 256 kbps in MP3 Producer 2.1 ausgeschaltet und Dual-Kanäle eingeschaltet – zwei unabhängige Kanäle. Sogar 192 kbps in Producer 2.1 sind eine Art gemeinsames Stereo, da meine Beispiele sehr falsch in einen Stream mit weniger als 256 kbps komprimiert wurden. Dies ist der Hauptgrund dafür, dass die „volle“ Qualität bei 256 kbit/s beginnt – historisch gesehen ist jeder kleinere Stream in kommerziellen Standardprodukten von Fraunhofer (vor 1998) Joint-Stereo, was für eine völlig korrekte Übertragung auf jeden Fall inakzeptabel ist. Bei anderen (oder späteren) Produkten können Sie im Prinzip für jeden Stream beliebig zwischen gemeinsamem Stereo oder Zweikanal wählen.

Über die Ergebnisse

Im Original (was in diesem Fall genau 256 kbps entspricht) hörten wir Ton mit verstärktem Differenzkanal und abgeschwächtem Mittelkanal. Der Nachhall der Stimme war sehr deutlich zu hören, ebenso allerlei künstliche Nachhallungen und Echos im Allgemeinen – diese räumlichen Effekte gehen hauptsächlich auf den Differenzkanal. Konkret waren es in diesem Fall 33 % des Mittelkanals und 300 % der Differenz. Der absolute Effekt – 0 % des zentralen Kanals – wird bei Geräten wie Musikcentern mit einer Taste wie „Karaoke Vocal Fader“, „Voice Cancellation/Remove“ oder ähnlichem eingeschaltet, deren Zweck darin besteht, die Stimme aus dem Kanal zu entfernen Tonträger. Der Sinn der Operation besteht darin, dass die Stimme normalerweise nur auf dem zentralen Kanal aufgezeichnet wird – gleiche Präsenz im linken und rechten Kanal. Indem wir den Center-Kanal entfernen, entfernen wir die Stimme (und viele andere Dinge, daher ist diese Funktion im wirklichen Leben ziemlich nutzlos). Wenn Sie so etwas haben, können Sie damit Ihre MP3s selbst anhören – Sie erhalten einen lustigen Gelenk-Stereo-Detektor.

Anhand dieses Beispiels können wir bereits indirekt nachvollziehen, was wir verloren haben. Erstens waren alle räumlichen Effekte merklich schlechter zu hören – sie gingen einfach verloren. Aber zweitens ist Gurgeln das Ergebnis der Umwandlung räumlicher Informationen in Klang. Womit entsprach es im Raum? Nur ständig fast zufällig bewegte Klangkomponenten, ein bestimmtes „räumliches Rauschen“, das im ursprünglichen Tonträger nicht vorkam (es kann zumindest einem vollständigen Übergang räumlicher Informationen in Klang standhalten, ohne dass dies auftritt). Fremdeinwirkungen). Es ist bekannt, dass diese Art von Verzerrung oft direkt bei der Kodierung in niedrige Bitraten auftritt, ohne dass eine zusätzliche Verarbeitung erforderlich ist. Nur werden direkte Klangverzerrungen (die fast immer fehlen) bewusst und unmittelbar wahrgenommen, während stereophone Verzerrungen (die bei Joint Stereo immer in großen Mengen vorhanden sind) nur unbewusst und während des Hörvorgangs über einen längeren Zeitraum hinweg wahrgenommen werden.

Dies ist der Hauptgrund dafür, dass Layer3-128-kbps-Audio nicht als volle CD-Qualität angesehen wird. Tatsache ist, dass bereits die Umwandlung von Stereoton in Mono starke negative Auswirkungen hat – oft wird derselbe Ton in verschiedenen Kanälen mit einer leichten Verzögerung wiederholt, was beim Mischen einfach zu einem zeitlich unscharfen Klang führt. Mono-Audio aus Stereo-Audio klingt viel schlechter als die ursprüngliche Mono-Aufnahme. Der Differenzkanal bietet zusätzlich zum Center (gemischter Monokanal) eine vollständige umgekehrte Trennung in rechts und links, das teilweise Fehlen des Differenzkanals (unzureichende Kodierung desselben) führt jedoch nicht nur zu einem unzureichenden räumlichen Bild, sondern auch zu diesen Unannehmlichkeiten Auswirkungen des Mischens von Stereoton in einen Monokanal.

Wenn alle anderen Hindernisse beseitigt sind – die Ausstattung ist gut, die Klangfarbe und Dynamik unverändert (der Fluss reicht völlig aus, um den Center-Kanal zu kodieren) – wird es immer noch so bleiben. Aber es gibt Tonträger, die so aufgenommen sind, dass die negativen Auswirkungen der Komprimierung auf Basis von Mid/Side-Stereo nicht zum Tragen kommen – und dann ergibt 128 kbit/s die gleiche volle Qualität wie 256 kbit/s. Ein Sonderfall ist ein Tonträger, vielleicht reich an Stereoinformationen, aber arm an Klanginformationen – zum Beispiel ein langsames Klavierspiel. In diesem Fall wird zur Kodierung des Differenzkanals ein Stream zugewiesen, der völlig ausreicht, um genaue räumliche Informationen zu übertragen. Es gibt auch schwieriger zu erklärende Fälle – ein aktives Arrangement voller verschiedener Instrumente klingt mit 128 kbps trotzdem sehr gut – aber das kommt selten vor, vielleicht in einem von fünf bis zehn Fällen. Es kommt jedoch vor.

Eigentlich zum Klang. Es ist schwierig, direkte Fehler im Ton des Center-Kanals in Layer3 128 kbps zu erkennen. Das Fehlen der Übertragung von Frequenzen über 16 kHz (sie sind übrigens sehr selten, werden aber trotzdem übertragen) und eine gewisse Abnahme der Amplitude sehr hoher Frequenzen ist – streng genommen an sich – einfach Unsinn. In wenigen Minuten gewöhnt sich ein Mensch vollständig an solche Tonverzerrungen; dies kann einfach nicht als starker negativer Faktor angesehen werden. Ja, das sind Verzerrungen, aber für die Wahrnehmung von „voller Qualität“ sind sie alles andere als geringfügig. Seitens des zentralen, direkten Audiokanals sind Probleme anderer Art möglich – eine starke Einschränkung des verfügbaren Streams zur Kodierung dieses Kanals, einfach durch einen Zufall verursacht – sehr reichlich vorhandene räumliche Informationen, ein mit verschiedenen Klängen beladener Moment, häufig ineffektive kurze Blöcke und als Folge davon ein völlig aufgebrauchter Reserve-Stream-Puffer. Dies geschieht jedoch relativ selten, und selbst wenn eine solche Tatsache auftritt, macht sie sich in der Regel kontinuierlich in großen Fragmenten bemerkbar.

Es ist sehr schwierig, Mängel dieser Art so klar darzustellen, dass sie für jedermann erkennbar sind. Sie können von einer Person, die es gewohnt ist, mit Geräuschen umzugehen, auch ohne Verarbeitung leicht wahrgenommen werden, aber für einen gewöhnlichen, unkritischen Zuhörer mag es wie ein vom Original völlig ununterscheidbarer Klang und eine Art abstraktes Eintauchen in etwas erscheinen, das eigentlich nicht existiert .. Schauen Sie sich trotzdem das Beispiel an. Um es zu isolieren, mussten wir eine starke Verarbeitung anwenden – den Inhalt der mittleren und hohen Frequenzen nach der Dekodierung stark reduzieren. Indem wir die Frequenzen entfernen, die das Hören dieser Nuancen stören, stören wir natürlich die Funktion des Kodierungsmodells, aber das wird helfen, besser zu verstehen, was wir verlieren. Also – wie es klingen soll (256_bass.mp3, 172 kB) und was passiert nach der Dekodierung und Verarbeitung eines 128-kbps-Streams (128_bass.mp3, 172 kB). Beachten Sie einen spürbaren Verlust an Kontinuität und Glätte im Bassklang sowie einige andere Anomalien. Die Übertragung niedriger Frequenzen wurde in diesem Fall zugunsten höherer Frequenzen und räumlicher Informationen geopfert.

Es ist zu beachten, dass die Funktionsweise des akustischen Kompressionsmodells (bei sorgfältigem Studium und etwas Erfahrung im Umgang mit Ton) bei 256 kbit/s beobachtet werden kann, wenn man einen mehr oder weniger starken Equalizer verwendet. Wenn Sie dies tun und dann zuhören, werden Sie manchmal (ziemlich oft) unangenehme Effekte (Klingeln/Ggurgeln) bemerken. Noch wichtiger ist, dass der Klang nach einem solchen Eingriff einen unangenehmen, ungleichmäßigen Charakter hat, der sehr schwer sofort zu bemerken ist, aber nach längerem Hören spürbar wird. Der einzige Unterschied zwischen 128 und 256 besteht darin, dass diese Effekte in einem 128-kbit/s-Stream oft ohne Verarbeitung vorhanden sind. Sie sind auch schwer auf den ersten Blick zu erkennen, aber sie sind da – das Beispiel mit Bass gibt eine Vorstellung davon, wo man nach ihnen suchen muss. Bei hohen Streams (über 256 kbit/s) ist dies ohne Verarbeitung einfach nicht zu hören. Dieses Problem trifft nicht auf hohe Streams zu, aber es gibt etwas, das manchmal (sehr selten) verhindert, dass sogar Layer3 – 256 kbit/s als Original betrachtet wird – das sind Timing-Parameter (weitere Einzelheiten folgen später in einem separaten Artikel: siehe MPEG Layer3). - 256 / Link zu einem anderen Artikel/).

Es gibt Tonträger, die von diesem Problem nicht betroffen sind. Am einfachsten ist es, die Faktoren aufzulisten, die im Gegenteil zum Auftreten der oben beschriebenen Verzerrungen führen. Wenn keine davon erfüllt ist, besteht eine hohe Chance auf eine vollständig erfolgreiche Kodierung in Layer3 in diesem Aspekt – 128 kbps. Es kommt jedoch alles auf das konkrete Material an...

Zunächst einmal Lärm, sagen wir Hardware-Rauschen. Wenn der Tonträger merklich verrauscht ist, ist es höchst unerwünscht, ihn in kleine Streams zu kodieren, da ein zu großer Teil des Streams für die Kodierung unnötiger Informationen verwendet wird, was darüber hinaus einer sinnvollen Kodierung mit einem akustischen Modell nicht sehr zugänglich ist.

Nur Lärm – alle möglichen Nebengeräusche. Der monotone Lärm der Stadt, der Straße, des Restaurants usw., vor dem die Haupthandlung stattfindet. Diese Arten von Geräuschen liefern einen sehr reichhaltigen Informationsfluss, der codiert werden muss, und der Algorithmus wird gezwungen sein, etwas im Hauptmaterial zu opfern.
Unnatürlich starke Stereoeffekte. Dies bezieht sich eher auf den vorherigen Punkt, aber in jedem Fall geht ein zu großer Teil des Streams an den Differenzkanal und die Kodierung des zentralen Kanals wird stark verschlechtert.
Starke Phasenverzerrung, je nach Kanal unterschiedlich. Dies bezieht sich grundsätzlich eher auf die Unzulänglichkeiten der derzeit weit verbreiteten Verschlüsselungsalgorithmen als auf den Standard, aber dennoch. Die wildesten Verzerrungen beginnen mit dem völligen Zusammenbruch des gesamten Prozesses. In den meisten Fällen entstehen solche Verzerrungen des Originaltonträgers durch die Aufnahme mit Kassettentechnik und die anschließende Digitalisierung, insbesondere bei der Wiedergabe auf preiswerten Tonbandgeräten mit minderwertiger Rückseite. Die Köpfe sind schief, das Band läuft schief und die Kanäle sind relativ zueinander leicht verzögert.
Es ist einfach eine zu arbeitsreiche Platte. Grob gesagt spielt ein großes Symphonieorchester auf einmal :). Normalerweise ist das Ergebnis aufgrund der Komprimierung mit 128 kbit/s etwas sehr Skizzenhaftes – Kammermusik, Blechbläser, Schlagzeug, Solist. Es findet sich natürlich nicht nur in den Klassikern.

Der andere Pol ist das, was sich normalerweise gut komprimieren lässt:

Ein Soloinstrument mit relativ einfachem Klang – Gitarre, Klavier. Die Geige zum Beispiel hat ein sehr volles Spektrum und klingt meist nicht sehr gut. Das Stück selbst hängt tatsächlich von der Geige des Geigers ab. Auch mehrere Instrumente werden in der Regel recht gut komprimiert – Barden oder KSP zum Beispiel (Instrument + Stimme).
Hochwertige moderne Musik. Damit ist nicht die musikalische Qualität gemeint, sondern die Klangqualität – Mischung, Anordnung der Instrumente, das kategorische Fehlen komplexer globaler Effekte, dekorativer Klänge und im Allgemeinen von allem Überflüssigen. Beispielsweise fällt jeglicher moderner Pop problemlos in diese Kategorie, ebenso etwas Rock und im Allgemeinen ziemlich viel von allem.
Aggressive „E-Gitarren“-Musik. Nun, um ein Beispiel zu nennen: die frühen Metallica (und auch die modernen Metallica im Allgemeinen). [Denken Sie daran, es geht hier nicht um Musikstile! nur ein Beispiel.]

Es ist erwähnenswert, dass die Layer3-Komprimierung nahezu unbeeindruckt von Parametern wie dem Vorhandensein/Fehlen hoher Frequenzen, Bässen, dumpfer/klingender Färbung usw. ist. Es besteht eine Abhängigkeit, aber sie ist so schwach, dass sie ignoriert werden kann.

Leider (oder zum Glück?) kommt es auf die Person selbst an. Viele Menschen hören ohne Vorbereitung und vorherige Auswahl den Unterschied zwischen Streams mit etwa 128 kbit/s und dem Original, während viele synthetische Extrembeispiele nicht einmal als Unterschiede wahrnehmen. Erstere müssen von nichts überzeugt werden, letztere jedoch nicht durch solche Beispiele... Man könnte einfach sagen, dass es für einige einen Unterschied gibt und für andere keinen Unterschied, wenn da nicht eines wäre: in der Beim Musikhören wird unsere Wahrnehmung mit der Zeit immer besser. Was gestern wie eine gute Qualität schien, scheint morgen nicht mehr so zu sein – das passiert immer. Und wenn es (zumindest meiner Meinung nach) ziemlich sinnlos ist, mit 320 kbit/s im Vergleich zu 256 kbit/s zu komprimieren – der Gewinn ist nicht mehr sehr wichtig, obwohl verständlich, dann ist es immer noch das Speichern von Musik mit mindestens 256 kbit/s es lohnt sich.

Haben Sie sich jemals gefragt, was genau beim Komprimieren von verlustfrei auf MP3 mit 128 kbps oder 320 kbps verloren geht?
Ich habe es überprüft und das Ergebnis schien interessant zu sein. Zunächst empfehle ich Ihnen, an einer Umfrage teilzunehmen, um selbst herauszufinden, ob Sie überhaupt einen Unterschied wahrnehmen. Wenn Sie nicht sicher sind, was Sie hören, oder sicher sind, dass Sie nichts hören, dann mache ich Sie auf eine einfache und elegante Idee aufmerksam: Sie müssen zwei Schallwellen mit Ihrer Stirn aufnehmen und drücken, von denen eine in Gegenphase sein wird. bzw. beim Mischen zweier Tracks ist überwiegend das zu hören, was nicht ausgelöscht wird. Ich verspreche noch keine interessanten Grafiken, aber Sie können auf Ihrem System selbst hören, welche Sounds bei der Komprimierung von FLAC zu MP3 128\320 kbps verloren gegangen sind, Archiv mit Beispielen am Ende des Artikels.

Umfrage

Sie müssen 12 Titel zu je 30 Sekunden herunterladen und anhören. Geben Sie dann für jeden der 4 Songs eine von 3 Optionen an (128 kbps, 320 kbps oder verlustfrei).
Die Umfrage ist anonym, aber Sie können einen eindeutigen Hash angeben und ihn mir mitteilen oder als letzten Ausweg Ihre Meinung hier veröffentlichen, aber achten Sie darauf, einen Spoiler zu verwenden. Die Umfrage dauert bis zum 25. Februar, danach werde ich den Schlüssel und die Statistiken veröffentlichen.
Dateien auf Yandex Disk, Spiegelung auf Dropbox (~80 MB).

Ausgangsdaten

The Black Keys – Everstanding Light (flac, 44100 Hz, 24-Bit, 1613 kbps), erhältlich unter Youtube.
Ludovico Einaudi – Drop (flac, 96000 Hz, 24-Bit, 2354 kbps), verfügbar auf Yandex Music.
CC Coletti – Rock and Roll (Flac, 192000 Hz, 24-Bit, 4845 kbps), erhältlich unter Youtube.
Annihilator – Ultra-motion (flac, 44100 Hz, 16-bit, 1022 kbps), verfügbar unter Youtube.

MP3-Konvertierungsoptionen

44,1 kHz, Stereo, 128 kbps oder 320 kbps

Beschreibung des Experiments

Die Quelldateien werden in Stücke von jeweils 10 Sekunden geschnitten, jedes Stück wird in WAV exportiert. Nach dem Importieren der resultierenden Titel werden am Anfang jedes Titels 2 Sekunden Stille und ein zweites Tonsignal hinzugefügt und dann in mp3 konvertiert. Nach dem Import von MP3-Dateien stellt sich heraus, dass die resultierende Datei im Vergleich zum Original „vorangegangen“ ist. Das ist kein Fehler, es ist . Wir synchronisieren in Bezug auf ein bestimmtes Tonsignal vom Original (ich habe mehrere Werte für jede MP3-Datei ausprobiert, die ich anschließend zum besten Ergebnis verfeinert habe), entfernen das Tonsignal, verstummen und exportieren die resultierenden Titel in WAV. Jetzt müssen Sie nur noch die Spuren umkehren, um multidirektionale Spitzen zu erhalten, und diese mit dem Original mischen.

Ergebnis

Ich werde Amerika nicht entdecken... Ja, es gibt einen Unterschied. Ja, insbesondere wenn es auf 128 kbps komprimiert ist. Ja, es kommt auf die Musik an. Ja, noch mehr vom Audiopfad.
Sie können Ihre eigene Schlussfolgerung ziehen und den Unterschied hören, indem Sie die Dateien herunterladen

Es könnte nützlich sein zu lesen: