MSST( Music-Source-Separation-Training )音频分离软件

Q: 2. 使用MSST遇到问题应该找谁?

官方提供了详细的帮助文档 https://r1kc63iz15l.feishu.cn/wiki/F7Q8wl8WUifskekzJdrcQpn4nje ，也可以到github提问

Q: 3. msst支持50系列显卡吗？

支持，看文档有详细说明 https://r1kc63iz15l.feishu.cn/docx/X9fHdcLlToi74yx0lykcPB1Nncf?302from=wiki





主要内容

页面内容:

使用MSST在线服务
msst模型介绍
本地安装
本地使用
常见问题

使用msst在线服务

把msst部署到本地需要花费不少时间，对电脑有要求。为方便用户使用，我们把msst做出saas，服务部署到云端，推荐用户使用msst的在线服务，我们做了很多工作：

📶 测试了各种场景	各种音频视频格式及音乐风格
🧑🏻‍🤝‍🧑🏻 支持平台	Windows
🎼 测试哪些渠道	各短视频平台及常见的公开音乐源
⏱️ 时间	1 周
🎶 声音质量	高质量并清晰
✅ 处理速度	比uvr5更快
🏅 文件保存	文件保存云端，不容易丢失

你也许想知道:

在线音频编辑文字转语音

分离模型介绍

推荐模型：伴奏分离模型melband_roformer_instvox_duality_v2.ckpt，这个模型的人声和背景音效果都不错，提取人声模型big_beta5e.ckpt，去除和声模型dereverb_echo_mbr_fused_0.5_v2_0.25_big_0.25_super.ckpt，分离和声模型model_mel_band_roformer_karaoke_aufr33_viperx_sdr_10.1956.ckpt，降噪模型denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt，修复声音模型Apollo_LQ_MP3_restoration.ckpt，分离嘈杂人声mel_band_roformer_crowd_aufr33_viperx_sdr_8.7144.ckpt，分离男女合唱bs_roformer_male_female_by_aufr33_sdr_7.2889.ckpt，提取吉他声提取贝斯声提取钢琴声提取鼓声模型HTDemucs4_6stems.th，去特效音model_bandit_plus_dnr_sdr_11.47.chpt

msst 是一款免费开源的音频分离项目，能够从基础音频中移除词干和其他对象，是目前最优秀的人声伴奏分离工具之一。国内用户访问：https://gitee.com/zhyqieqie/Music-Source-Separation-Training.git，github地址：https://github.com/ZFTurbo/Music-Source-Separation-Training.git

✅ 模型类别

multi_stem_models：多音轨分离模型
single_stem_models：单音轨分离模型，通常只提取两个stem，目标音轨和剩余音频
vocal_models：针对于人声和伴奏分离的模型

第三方MSST模型分享

Huggingface国外网站（需要魔法），打不开的可以把网站中的huggingface.co改成hf-mirror.com，其余部分不变，使用国内镜像站。
非官方MSST模型不做单独介绍，想了解这个模型可以做什么，可以通过模型名字了解或者下载下来使用。如果一个模型仓库中有多个模型，一般可以根据模型名字，以及模型上传时间，择优选取
deton24的Google文档，里面包含了最新音频分离相关的消息。包括最新模型分享，最新UVR消息，最新改动等。想要第一时间获取最新消息的，可以关注此处的文档

MSST模型指标解释

SDR（源失真比）: SDR是衡量预测源（估计值）与参考源匹配程度的指标。它通过参考信号的能量与误差（参考信号与估计值之间的差异）的能量比来计算。返回的结果是以分贝（dB）为单位的 SDR 值。值越高表示性能越好。
SI-SDR（尺度不变源失真比）: SI-SDR 是 SDR 指标的一种变体，它对于估计值相对于参考信号的尺度变化是无关的（即忽略响度振幅变化）。其计算方法是先将估计值按比例调整以匹配参考信号，然后再计算 SDR。值越高表示性能越好。
Bleedless & fullness：参考信号和估计信号之间的“溢出”（bleed）和“饱满度”（fullness）度量。“溢出”指标衡量估计信号在多大程度上溢出到参考信号中，而“饱满度”指标则衡量估计信号在多大程度上保持其相对于参考信号的独特性。简单理解就是分离的完整性。这两个值越高表示完整性越好，说明分离特定乐器时，饱满程度越好。举个例子，例如分离人声伴奏，对于人声来说，溢出的越少（即bleedless指标越高），饱满度越高（即fullness指标越高），说明人声在伴奏中的残留越少，分离的越完整。

本地安装（webUI）

vocalremover main interface

😊 安装条件

有英伟达显卡
(不需要)魔法上网
磁盘空间>30G

✅ 官方链接：

MSST原始下载地址：https://github.com/ZFTurbo/Music-Source-Separation-Training
MSST webUI开源项目地址:https://github.com/SUC-DriverOld/MSST-WebUI
MSST webUI开源项目文档:https://r1kc63iz15l.feishu.cn/wiki/JSp3wk7zuinvIXkIqSUcCXY1nKc

下载与安装：

用户可以下载发布（https://github.com/SUC-DriverOld/MSST-WebUI/releases/tag/1.7.0 ）下载MSST软件。
安装过程中，用户需要配置FFmpeg和CUDA环境变量，以确保软件能够正常运行。

操作步骤：

1、选择模型类型。
2、选择模型：根据需求选择你需要使用的模型。
3、输出格式：可以选择wav，flac，mp3格式输出。
4、选择输出音轨：不同的模型对应不同的输出音轨，按需勾选就行，支持多选。
5、- 使用CPU：MSST推理不建议使用CPU。据我测试，4分钟的音频，CPU（AMD Ryzen 7 6800H 12核）推理需要花费约30-40分钟。
6、- 输入音频：上传一个或多个需要分离的音频，可以点击上传也可以拖拽上传。

本地使用

😊 提取音乐的关键配置

batch_size：一次要处理的批次数，越大占用越多显存。默认一般为1，如果仍然有空余显存，可以适当增大此值以加快速度。此值建议根据自己的电脑显存来调节到一个合适的值，如果专用显存吃满了，开始占用共享显存，会导致推理速度明显变慢。对于MSST来说，增大此值几乎不会影响推理速度。可以直接设置成1。
num_overlap：窗口重叠长度，也可理解为每帧推理的次数。数值越小推理速度越快，但会牺牲效果。数值越大推理越慢但是效果更好。如果要平衡速度和质量，可以设置为4。如果嫌处理速度太慢，可以设置成2，牺牲部分质量（几乎听不出）来显著提升推理速度。此参数会影响推理速度和质量，但几乎不会影响显存占用。
chunksize：音频切片大小，增大此值可以提高分离效果，但会增加处理时间和显存占用。每个模型的默认值都不一样。目前大部分的MSST模型支持的音频采样率都是44.1khz，而chunksize=采样率\times 切片秒数。
启用TTA：启用“测试时间增强”，勾选后处理时间乘以三，能“略微”提高质量（但是基本听不出来）。基本没必要勾选。

总结

本文汇总了 MSST 使用过程的一些关键信息。一些设置需要反复使用才能体会出来。

我们强烈建议非专业用户使用 深度音频的在线分离音频。

在线音频分离从音频视频中提取伴奏

免下载支持手机/Windows/Mac

常见问题

在了解了上述高质量的人声去除器之后，这里还有一些其他相关的问题和答案供您学习

1. 我为何不继续使用UVR5？

你当然可以继续使用UVR5，但UVR5官方的稳定版已经停更将近一年（测试版一直在更新，也在逐渐支持新模型）。这个问题是非常不好回答的一个问题。就好比你问我烧饭应该用铁锅还是不锈钢锅。用什么不重要，关键是你烧的菜是什么，也就是指你用什么模型。软件只是一个壳子，真正起作用的，是加载的模型。不存在绝对的优劣差别！不用刻意去贬低，或者去吹捧某一款软件。