AI歌手并不满足于只成为“AI孙燕姿”

华语乐坛，满眼都充满了孙燕姿。

在各个音乐平台上，以“AI孙燕姿”为歌手的歌单和播客越来越多，即使孙燕姿本人亲自回应，也无法阻止这一趋势。

“我想说的是，你跟一个每几分钟就推出一张新专辑的人还有什么好争的......我还是能分辨出区别的，它没有情绪，没有音调和呼吸(或任何你能想到的术语)的变化。很抱歉，我怀疑这只是一个非常短期内的回应。”

歌手们担心，人类真的不可能战胜AI吗？在“被取代”恐惧的背后，更多问题落在版权层面。第三方是否有权未经许可复制歌手本人的声音？“孙燕姿”们将如何重新掌控自己的声音？

近日，一款AI歌手音乐创作软件“网易云音乐·X工作室”悄然上线。该软件内置了12位高度拟人化、声音各异的AI歌手，其中包括声音酷似王菲的AI若溪（代号F970）。网友们不禁好奇若曦是否与王菲有关系？AI歌手的训练数据从哪里来？

这个问题是向该软件的制作者之一向小冰提出的。

小冰对于国内AI歌手的研究历史可以追溯到2014年，当时小冰还是微软小冰团队，他们发布了一款名为“少女小冰”的聊天机器人。随着技术的发展，小冰的功能也逐渐扩展，其中就包括AI在音乐领域的应用。2017年，小冰推出了AI歌手实验版，已经具备一定的音乐创作和演唱能力。

更清醒的听众可能会坚持认为，AI孙燕姿只是人们理解AIGC的又一个好玩的作品，歌迷不会真正放弃自己心爱的歌手，而完全把注意力集中在一个毫无生气的代替版本。人们对AI孙燕姿的讨论最终可能会变成：AI在音乐创作上能延伸到什么程度？

这个讨论其实已经开始了。

“M435”“虚拟歌手软件，其实对我们来说是有用的，不管是付费的还是免费的，我们都会接触它，因为它在日常创作过程中经常用到。”

孙玉镜的回答让人有些意外。作为幻想动漫音乐创始人兼艺术总监，他带领团队负责《罗小黑战记》的全部配乐制作。《罗小黑战记》是国产2D动画中的质量之作，但由于制作非常辛苦，所以更新总是很慢，关注更新的粉丝甚至开玩笑说要好好泡枸杞养生为本动画做准备。

用心与纠结也落实在动画配乐中。为了达到更加理想的创作效果，孙玉镜的创作过程中融入了很多AI元素，比如“M435”。

“比如我们做了一首歌，以摇滚为例，我们自己的制作人写旋律，我们可能用自己的声音来唱。但是制作人可能在乐理和制作上非常专业。但如果我们唱，效果可能会差一些，但还是需要我们自己唱，这样编曲的工作就会顺利很多。

“后来我们就用M435——一个带有摇滚腔调的AI歌手来唱歌，然后我们就能很快判断出旋律和歌词是不是我们想要的。”

“M435”还有另一个名字——AI歌手崔璨。

当然他不是崔健（虽然这个名字让人浮想联翩），但显然，“AI歌手”背后的意义远不止“准确的发音和音色”。

“M435”脱胎于人工智能小冰框架，内置于上述AI歌手音乐创作软件XStudio中。创作者输入歌词和音乐，3秒内即可生成专业歌手级AI演唱干声。

崔璨与软件中的其他11位AI歌手组成了第一个虚拟歌手厂牌WOWAIDO！首次亮相。第一张迷你专辑《WOWAIDO!ⅠGravity》将于6月15日在网易云音乐上线。不到24小时，歌曲《给你》的评论就达到了999条。歌手是AI何畅（代号F11）和AI徐梦甜（代号F801）。拥有百万抖音粉丝的AI夏语冰、AI陈水若也出现在会员名单中。

永远在线的歌手

我们一直从观众的角度来看待AI歌手的井喷。但事实上，对于音乐创作者来说，XStudio出品的不同风格的歌手填补了音乐创作的空白，而且这些歌手始终稳定可靠。

XStudio的AI歌手团队拟人化程度高、声音风格多样，可适应流行、民谣、民族、电子、摇滚等多种流派，其中也包括致力于儿童音乐的李召洋所寻找的童声。

毕业于四川音乐学院的李召洋，除了是教师之外，也是一名儿童音乐制作人。然而，儿童音乐产业的发展远不如成人音乐成熟。他总觉得家长的要求较高，但适合儿童的音乐却很难找到——而且即使找到了，也很难要求一个几岁的孩子按要求稳定地唱一首歌。

他开始在AI歌手中寻找这样的声音。少女小冰（代号F002）的声音是他在同类产品中能找到的最接近孩子声音的。

这是他喜欢使用XStudio的一个关键原因。他曾用少女小冰的声音出版了作品《笠翁对韵》，该作品获得第五届声委会音乐奖最佳儿童音乐专辑提名。

孙玉镜从AI歌手何畅那里了解到XStudio。何畅是XStudio最成熟的AI歌手。曾与马伯骞、卞子严、小柯等音乐人合作演唱冬奥会致敬歌曲《唯你无他》等。

“无论对玩家好，还是对从业者好，还是对制作人好，如果一个AI歌手有成熟的作品，做得好，他就会想，我可以用这个AI歌手，只要我用心调，我就能做到。然后每个人肯定都会喜欢使用它。”

在孙玉镜眼中，人工智能歌手和人类歌手一样，每个人或“人”都有自己的特点。他们优势互补，能够在不同的创作阶段帮助自己。“AI歌手24小时在线，状态恒定，在填词、编曲的初始阶段，可以随时帮助创作者调整和完善，至少能看到80%的成品。在录音阶段在创作的最后，由于人与人之间的互动交流更加直接，人类歌手可以根据我的演示快速调整某个细节的解读。”

XStudio也确实给了使用者很大的创作自由。

内置小冰歌唱模型、一致性自然语音、流式渲染歌唱合成、视觉神经网络渲染等技术。创作者可以通过调整参数来实现AI歌手的滑音、变调、颤音、发声、节奏、音色、力度等变化，细腻地演绎出作品的效果。这意味着，在标准音色和演唱风格的基础上，使用者可以将其打磨成更具个人风格或更符合自己想法的AI歌手。

此外，XStudio的另一个优质能力是它支持合并AI音轨数量高达30首，这意味着每个音乐家可以拥有一个“30人”的合唱团。

消除版权疑虑

音乐创作者最头疼的就是版权问题，而XStudio的AI歌手没有版权风险。

有网友将自己的AI音乐作品放到了网上。使用的声音原型是小冰的AI歌手若曦。经过更细致的调音，AI歌手的声音与王菲非常相似。它唱起了第一首《红豆》。

AI孙燕姿之后，或许会有更多歌手变成AI化。理论上来说，只要你有一个你想要训练的音调的音频数据集——比如两个小时的王菲唱片或者采访声源——然后根据这个音频数据集来训练模型，然后使用训练好的模型模型推断并替换另一首歌中的声线——比如刀郎的《情人》，你终于可以听到王菲版本的《情人》了。

这是一个比较繁琐的过程，并且伴随着巨大的版权风险。

北京大成律师事务所高级合伙人肖飒接受采访时表示，翻唱歌曲合法化需要得到权利人的许可。肖飒指出，一首歌曲的制作往往涉及多个权利人，其版权制度也相对复杂。具体可以包括歌曲作曲者的版权、歌曲演唱者作为表演者的权利、相关公司作为音像制品制作者的权利。

“理想情况下，需要获得上述所有权利人的许可，否则其掩盖行为极有可能侵犯上述主体的相应权利，从而需要承担侵权责任。甚至人工智能的掩盖也受到此类规则的限制。”

创作者训练了一位知名歌手的声音来演唱一首新歌。这首歌开始流行。是创作者的功劳，还是人工智能或那位著名歌手的功劳？创作者要面对的是音乐行业复杂的权利人体系，而著名歌手本身要面对的是无法控制自己声音的使用场景和潜在的收入机会。这是一直存在的著名歌手人工智能化背后的通病。

这一问题的解决迫切需要音乐平台作为中间环节进入舞台。后者本身已经包含了音乐产业从创作者到歌手的完整流程。这也是本次XStudio更新的重点。

这或许是“AI孙燕姿”合法化的第一步。小冰公司透露，有真人歌手主动授权公司“克隆”自己的声音，以保持巅峰状态。歌手可以决定使用AI语音并获得相关收益。经过个人训练和调优后，AI语音将有机会取得更好的表现。当市场上“正版”的声音越来越多，良币驱逐劣币，或许可以解决“孙燕姿们”的问题，也可以给音乐创作者更多的选择。

官方还表示，小冰一直倡导AI技术的安全发展。该软件包含高安全性和隐私保护策略。所有AI歌手均经过严格的数据训练，所有创作均可追溯。希望这能为人工智能创作的未来提供健康发展的参考。

或许我们可以从音乐合成器的历史中找到一些对AI歌手的信心。

合成器是一种电声乐器，其工作原理是产生电信号，通过放大器驱动扬声器发出声音。这使得它能够模拟真实乐器的声音，例如钢琴、鼓甚至弦乐。另一方面，合成器还可以被调谐以形成逼真的环境样本声音，甚至是现实中找不到的声音。

20世纪60年代，合成器开始受到流行音乐的关注。20世纪80年代雅马哈推出的数字合成器DX7以及20世纪90年代随着电脑的普及进一步兴起的软件合成器逐渐巩固了合成器在音乐制作中的作用，甚至形成了围绕合成器的Synthwave这样的音乐流派。

与其将AI歌手置于真实歌手的对立面，不如将AI歌手视为一个不断进化的合成器。

在音乐制作的过程中，合成器的能力已经从最初的真实乐器的还原发展到了各种环境声音的还原，比如潮水上涨、昆虫等。相比之下，变幻莫测的人声才是合成器的终极命题。两者都正在经历一个从被质疑到被普遍接受的过程。

合法化的“AI孙燕姿”最终将助力未来的音乐创作。