VoiceRestore: Flow-Matching Transformers for Speech Recording Quality Restoration

VoiceRestore is a novel approach to speech recording quality restoration using flow-matching transformers. It addresses a wide range of degradations including reverberation, noise, compression artifacts, and low sampling rates.

Repo: Github Repository with inference code and pre-trained model

Key Features

Unified model for diverse speech recording restoration tasks
Leverages conditional flow matching and classifier-free guidance
State-of-the-art performance across multiple degradation types
Strong generalization to unseen degradation combinations

Audio Restoration Demo

VoiceRestore uses BigVGAN2 24khz pre-trained checkpoint to generate audio from spectrograms
Generation was done with 32 flow steps and cfg of 1.0

Full Degradation

Degraded Audio

Mel-log spectrogram of fully degraded audio

Restored Audio

Mel-log spectrogram of restored fully degraded audio

Distortion

Degraded Audio

Mel-log spectrogram of fully degraded audio

Restored Audio

Mel-log spectrogram of restored fully degraded audio

Reverb Effect

Degraded Audio

Mel-log spectrogram of reverb-affected audio

Restored Audio

Mel-log spectrogram of restored reverb-affected audio

16kHz Noisy Sample

Degraded Audio

Mel-log spectrogram of 16kHz degraded audio

Restored Audio

Mel-log spectrogram of restored 16kHz audio

Resemble-Enhance Comparison

Resemble-Enhance is used with default settings provided in the github repository.

Full Degradation

Original Degraded

Mel-log spectrogram of fully degraded audio

Resemble-Enhance

Mel-log spectrogram of Resemble-Enhance restored fully degraded audio

VoiceRestore

Mel-log spectrogram of VoiceRestore restored fully degraded audio

Combinations - Reverb, Distortion, Random Cut

Original Degraded

Mel-log spectrogram of fully degraded audio

Resemble-Enhance

Mel-log spectrogram of Resemble-Enhance restored fully degraded audio

VoiceRestore

Mel-log spectrogram of VoiceRestore restored fully degraded audio

CMGAN Comparison

CMGAN is used with default settings provided in the github repository.

Full Degradation

Original Degraded

Mel-log spectrogram of fully degraded audio

CMGAN Restored

Mel-log spectrogram of CMGAN restored fully degraded audio

VoiceRestore

Mel-log spectrogram of VoiceRestore restored fully degraded audio

16kHz Sample

Original Degraded

Mel-log spectrogram of 16kHz degraded audio

CMGAN Restored

Mel-log spectrogram of CMGAN restored 16kHz audio

VoiceRestore

Mel-log spectrogram of VoiceRestore restored 16kHz audio

Reverb Effect

Original Degraded

Mel-log spectrogram of reverb-affected audio

CMGAN Restored

Mel-log spectrogram of CMGAN restored reverb-affected audio

VoiceRestore

Mel-log spectrogram of VoiceRestore restored reverb-affected audio

Related Links

VoiceRestore GitHub Repository VoiceRestore Paper Preprint E2TTS Paper E2TTS Implementation by Lucidrains SGMSE+ Paper CMGAN Paper