Tutorial: Sprachbearbeitung für Podcasts, Videos & Co

Du produzierst selbst Podcasts, Videos oder anderen Content und möchtest klingen wie professionelle Sprecher/innen? Dann findest du hier Profi-Tipps, die deine Sprachaufnahmen garantiert auf das nächste Level bringen.
Dank günstiger Mikrofone und Software ist es mittlerweile jedem möglich, eigenen Content wie Podcasts, Youtube-Videos und Hörspiele zu produzieren. Und sicherlich hast du beim Konsumieren verschiedener Formate immer wieder festgestellt, dass die Audioqualität oftmals ausbaufähig ist – es knackt, rauscht und schmatzt. Vor allem auf Kopfhörern ist das unangenehm.
Durch professionelle Audioqualität kann man sich von der Masse abheben und gleichzeitig die Wertigkeit der eigenen Inhalte steigern. Mit etwas Basiswissen und ein paar Tricks und Kniffen lassen sich schon hochwertige Ergebnisse erzielen. Was das in der Praxis bedeutet, sehen wir uns jetzt in diesem Tutorial zur Sprachbearbeitung für Podcasts, Videos & Co an.

Die Sprachaufnahme als Grundstein
Den Grundstein einer jeden Produktion legt die Aufnahme. Günstige Mikros unter 100 Euro liefern bereits einen radiotauglichen Klang. Es gibt einerseits die traditionellen XLR-Mikrofone, die über ein zusätzliches Audio-Interface mit deinem Rechner verbunden werden. Andererseits gibt es mittlerweile USB-Mikrofone, die ein integriertes Audio-Interface haben und direkt via USB an den PC angesteckt werden können.
Der Vorteil von XLR-Mikrofonen und einem externen Audio-Interface ist die Flexibilität. Je nach Interface können nämlich mehrere Mikrofone oder auch Instrumente angesteckt werden, was Aufnahmen mit Co-Hosts, Gästen, etc. einfacher macht. Der Nachteil ist, dass dieses Setup mehr Platz benötigt und insgesamt kostspieliger ist als ein USB-Mikro.
Die Vorteile von USB-Mikrofonen ist die Platzeinsparung und die einfache Handhabung. Einfach einstecken und los geht’s. Viele Modelle bieten auch integrierte Gain-Reger zum Pegeln, sodass diesbezüglich keine Nachteile gegenüber der XLR-Lösung entstehen.
Schwierig kann es werden, wenn man mehrere Sprecher/innen aufnehmen möchte. Ein Computer kann in der Regel nur ein aktives Audiogerät verarbeiten. Ein zweites USB-Mikro kann also nicht einfach angesteckt werden und läuft dann. Daher ist es wichtig, sich vorher zu überlegen, ob man nur allein einspricht oder mit anderen.
Empfehlungen: XLR-Mikrofone unter 100 Euro
- Audio-Technica AT2020: 88 Euro
- Rode Podmic: 95 Euro
- SE Electronics X1A: 94 Euro
Empfehlungen: Audio-Interfaces mit
2 Mikrofoneingängen
- Arturia Minifuse 2 black: 128 Euro
- Focusrite Scarlett 2i2 (4. Gen.): 185 Euro
- Universal Audio Volt 2: 155 Euro

Empfehlungen: USB-Mikrofone unter 100 Euro
- AKG Lyra: 69 Euro
- Rode NT-USB Mini: 96 Euro
- Mackie EM-Chromium: 79 Euro
Weitere Accessoires fürs Recording
Zusätzlich zum Mikro und gegebenenfalls Audio-Interface empfiehlt sich ein Poppschutz, der Plosivlaute (p, t, k, …) entschärft. Ein Stativ oder Schwenkarm, der an einem Tisch befestigt werden kann, inklusive Spinne ist ebenfalls von Vorteil. Halte das Mikro auf keinen Fall in der Hand, ansonsten läufst du Gefahr, dir Griffgeräusche und Pegeländerungen durch verschiedene Abstände einzuhandeln.
In vielen Fällen bieten Hersteller Bundles mit Mikro, Stativ und Poppschutz zu günstigen Preisen an. Manchmal sogar inklusive Audio-Interface. Eine Recherche lohnt sich.

Raumakustik
Ein nicht zu unterschätzendes Thema bei Aufnahmen von Podcasts und Sprache ist die Raumakustik. Reflexionen von Wänden, Decke und Boden können zu schlechter Klangqualität und Sprachverständlichkeit führen. Daher sollte dein Raum möglichst „trocken“, sprich Reflexionsarm, sein.
>>> Sounddesign mit Delays: So baust du kreative Effekte <<<
Im Optimalfall kannst du Absorber aufhängen, die Reflexionen minimieren. Ansonsten können aber auch Vorhänge, Kissen oder dergleichen eine Verbesserung bewirken. Wenn du überhaupt keine Möglichkeit einer Schallabsorption hast, versuche, nicht direkt gegen eine Wand, sondern in den Raum zu sprechen. So gehen zumindest ein paar der Reflexionen verloren.
Es gibt Mikro-/Desktop-Absorber, die direkt hinter dem Mikrofon platziert werden können und die Sprachqualität schon etwas verbessern. Beispiele sind der t.akustik Desktop Absorber 120 (139 Euro) und der SE Electronics RF-X Reflexion Filter (92 Euro).
Professionelle Sprachbearbeitung
Bevor wir uns gleich der Bearbeitung von Sprachaufnahmen widmen, werfen wir noch einen Blick auf die verwendete Software.
Vorab sei gesagt, dass diese Tools meinem persönlichen Workflow entsprechen und mir am besten liegen. Das bedeutet natürlich nicht, dass dies der einzige Weg ist. Wer kein Budget hat, kann auch kostenlose Tools nutzen. Hierfür kann ich die Plug-ins von Bertom Audio empfehlen.
>>> Noiseworks Audio Gainaim Pro Test: Vocal-Editing einfach gemacht <<<
Eine DAW ist selbstverständlich Voraussetzung, daher werde ich nur auf zusätzliche Plug-ins eingehen. Es spielt keine Rolle, ob du Pro Tools, FL Studio, Ableton Live, Audacity oder eine andere Workstation nutzt.

iZotope RX
Mein Werkzeug der Wahl für die Bearbeitung von Podcasts und anderen Sprachaufnahmen ist iZotope RX*. Das Plug-in für Audio-Restauration ist eine Suite mit verschiedenen Tools. Für den Anfang reicht die Elements-Version. Sie enthält De-click, De-clip, De-hum, De-reverb, Repair Assistant und Voice De-noise. Mit diesen Tools lassen sich alle Kernprobleme von Sprachaufnahmen in den Griff kriegen. Insbesondere der De-clicker ist für mich zu einem unverzichtbaren Werkzeug geworden.
Mehr brauchts tatsächlich nicht 🙂
Störgeräusche entfernen, Sprachverständlichkeit erhöhen
Für den weiteren Verlauf dieses Tutorials gehen wir davon aus, dass du zu diesem Zeitpunkt verzerrungs- und rauschfreie sowie bereits geschnittene Aufnahmen vorliegen hast.
>>> GEFÄLLT DIR WAS DU LIEST? DANN HILF DABEI, SOUNDCHILLS AM LAUFEN ZU HALTEN. <<<
Höre dein editiertes Projekt in einer für dich angenehm lauten Lautstärke ab, am besten über Kopfhörer. Es kann etwas Hörtraining benötigen, bis du dich insbesondere auf Mundgeräusche sensibilisiert hast. Das sind ganz natürliche Geräusche, die beim Reden entstehen und von unserem Gehirn automatisch gefiltert werden. Dazu zählen zum Beispiel Schmatzer und Klacker. Und diese eliminieren wir nun im ersten Schritt.
Anmerkung: Zur besseren Übersicht sind die verschiedenen Eingriffe in Schritte gegliedert und zeigen nur den jeweiligen Arbeitsschritt für dieses spezielle Problem. Das bedeutet nicht, dass du deine Produktion X-mal für jeden Schritt einzeln durchhören musst. Mit etwas Übung wirst du schnell lernen, auf all diese Dinge gleichzeitig zu achten.
Schmatzer, Lippenlaute, Mundgeräusche
Der De-clicker ist ein mächtiges Tool, mit dem sich oftmals Störgeräusche sogar mitten in Buchstaben auf natürliche Art eliminieren lassen. Für den universellen Einsatz habe ich mit den folgenden Einstellungen die besten Erfahrungen gemacht:

Damit bekommt man die „gängigen“ Mundgeräusche in der Regel gut in den Griff, ohne zu sehr einzugreifen. Denn bei zu hoher Klickreduktion weicht die Sprache auf. Sie klingt dann unnatürlich und aus „k“ wird gerne mal ein „g“ (z.B. Kunst -> Gunst).
Markiere und De-clicke immer nur gezielt den betroffenen Bereich. So vermeidest du, versehentlich Artefakte auf sauberer Sprache zu erzeugen.
Selbstverständlich ist das von Sprecher/in zu Sprecher/in unterschiedlich, sodass du etwas herumprobieren musst, um die passende Einstellung zu finden. In unserem Fall haben sich eine Sensitivity von 5 und ein Frequency Skew von 3,2 bewährt.
So klingt die Aufnahme unbearbeitet:
Für Demonstrationszwecke kannst du dir hier nur die Geräusche anhören, die vom De-clicker herausgefiltert wurden (Lautstärke für diesen Zweck von mir manuell angehoben):
Und hier das Ergebnis:
Vergiss nicht, bei Schnitten immer (Cross)Fades zu setzen, um artefaktfreie
Übergänge zu schaffen.
Klicks entschärfen

Dir ist sicherlich aufgefallen, dass im oberen Hörbeispiel auch nach der Bearbeitung noch ein Plopp im Wort „Modus“ zu hören ist. Trotz verschiedener De-clicker-Einstellungen und manuellem „nachmalen“ der Wellenform konnte ich diesen nicht eliminieren. Auch das kommt hin und wieder mal vor. Dann muss man entweder damit leben oder einen Retake aufnehmen.
Beim anderen Beispiel hat es aber gut geklappt (Klick im Wort „auf“):
Das Ergebnis nach dem De-clicking:
Plosiv- und Zischlaute
Wie eingangs erwähnt, sind auch Plosivlaute potenzielle Störfaktoren. Sprich: Buchstaben wie „t“ und „p“ werden zu druckvoll ausgesprochen und klingen hereingeplatzt.
Auch das bekommt man mit dem iZotope RX De-clicker ganz gut in den Griff. Alternativ dazu kannst du es aber auch mit einem EQ und einem schmalbandigen Eingriff versuchen.

Und so klingts nach dem Editing:

Zischlaute wie „s“ und „z“ sind weitere Kandidaten, auf die du ein Ohr haben solltest. Sie können gerne mal etwas scharf beziehungsweise schneidend klingen. Hierfür greife ich in der Regel zu einem De-esser. Als Beispiel für dieses Tutorial habe ich aber einen EQ eingesetzt, den jede DAW als Stock-Plug-in zur Verfügung stellt.
Aber Vorsicht: Zu viel De-essing klingt nach lispeln!
Das Ergebnis:
Versuche bei scharfen Zischlauten schon bei der Aufnahme, das Mikro einen Mü höher zu stellen. Das hilft oft, die Laute abzumildern und spart dir im Nachhinein Arbeit.
De-reverb: Raumanteil mindern
Wie eingangs erwähnt, kann eine schlechte Raumakustik die Sprachverständlichkeit mindern. Dem lässt sich mit dem De-reverb, der ebenfalls ab der Elements-Version von iZotope RX enthalten ist, entgegenwirken. Anhand von vier Bändern und weiteren Einstellungsmöglichkeiten wie Artefact Smoothing lässt sich die Hallfahne gut in den Griff bekommen. Das Dry-Signal kann sogar bei Bedarf geboostet werden, was ich für dieses Tutorial auch angewandt habe.

Die Learn-Funktion erleichtert die Arbeit und findet automatisch passende Einstellungen. Und das funktioniert tatsächlich recht gut. Ich nutze Learn meistens, um schnell einen Ausgangspunkt zu bekommen und mache anschließend das Feintuning händisch.
Hier das Ausgangsmaterial:
Und hier nach dem Einsatz von De-reverb:
Genau wie bei De-click kann man sich auch nur die herausgefilterten Signalanteile ausspielen lassen. Und das klingt wie folgt:
Pro-Tipp: Harte Sprachansätze anblenden
Eine zusätzliche Möglichkeit, um Sprachaufnahmen rund und angenehm klingen zu lassen, ist das Anblenden und Absenken von harten Sprachansätzen. Buchstaben wie „k“ und „h“ sind hierfür heiße Kandidaten. Aber auch bei Satzanfängen besteht die Gefahr, dass Sprecher/innen etwas zu druckvoll einsteigen. Ein händisches Gain-Staging des entsprechenden Buchstabens oder Wortes bewirkt manchmal schon Wunder.
Für dieses Beispiel habe ich beide Techniken angewandt:
Und hier wieder das Resultat:
Atmer und „Ähms“ behalten?
Ob du Atmer und „Ähms“ behältst, ist Geschmacksache und dir überlassen. Das sind beides durchaus natürliche Dinge, die beim Sprechen eben vorkommen. Bei Atmern empfiehlt es sich, diese eventuell händisch etwas abzusenken, damit sie nicht zu laut beziehungsweise störend sind. Bei „Ähms“ würde ich nach Gefühl gehen. Ein paar drin zu lassen stört vermutlich niemanden. Werden es doch zu viel, dann schneide einfach ein paar heraus.

Sprache mischen und mastern
Nachdem du deine Sprachaufnahmen für deinen Podcast, dein Video oder anderen Content gesäubert und editiert hast, fehlt nur noch das Mixing und Mastering. Wie auch für den De-clicker gibt es dafür kein Pauschalrezept. Ein paar Tipps haben sich aber im Allgemeinen bewährt:
Stock-Kompressoren, -EQs und -Limiter von DAWs reichen für diese Aufgabe aus.
Equing:
- Entferne unnötige Tieftonanteile und Trittschall mit einem Low-Cut-Filter bei ca. 60 Hz
- Hebe den Bereich um 180 Hz an, um einen fetten, warmen Klang zu bekommen
- Anhebungen bei ca. 1,5 kHz erhöhen die Sprachverständlichkeit
- Dezente Shelf-Boosts ab etwa 12 kHz können die Sprache luftiger klingen lassen
>>> Audio-Kompressoren: Was sie sind, welche es gibt & was sie tun <<<
Kompression und Limiting:
- Wähle eine Ratio von 3:1 oder 4:1
- Setze eine kurze Attack
- Setze eine kurze bis mittlere Release
- Die Gain-Reduction bei lauten Passagen sollte nicht mehr als ca. 9 dB betragen
- Limitiere deine gesamte Produktion mit einer schnellen Attack und schnellen bis mittleren Release
- Für das Ceiling beim Limiting empfehle ich -1,5 dB (True Peak)

Abschluss zur Sprachbearbeitung
Mit diesen Tipps und Tricks für die Sprachbearbeitung von Podcasts, Videos, Voice-Overs und Co. bringst du deine Produktion auf ein hochwertiges und professionelles Level, das deinen Hörern ein rundes Klangerlebnis beschert. Lasse dich nicht entmutigen, wenn dir die ersten Versuche etwas schwer fallen. Mit der Zeit kommt die Erfahrung und das Gehör für diese Materie.
Wenn du dir anfangs unsicher bist, nutze die integrierten Helfer, wie den Repair Assistant von iZotope RX*, oder ein Sprachbearbeitungs-Plug-in wie VEA von Native Instruments*. Versuche aber, durch eigenes Editing an deren Ergebnisse heranzukommen und taste dich so langsam vor.
Falls du Fragen hast oder eigene Erfahrungen, die sich bewährt haben, teilen möchtest, freue ich mich von dir zu hören. Lasse unten einfach einen Kommentar da oder schreibe mir via E-Mail oder Instagram 🙂
Fotos: Screenshots, pexels.com, Hersteller
Ein Gedanke zu “Tutorial: Sprachbearbeitung für Podcasts, Videos & Co”