作者 | 李沁予 编辑 | 范志辉
本世纪的音乐人“鬼故事”——你的音乐作品,正在悄悄成为AI的“养料”。
最近,全球音乐产业掀起了一场创作者的集体自查潮。媒体记者Alex Reisner将自己持续进行的AI Watchdog调查扩展至音乐领域,公开了四个在AI开发社区流通的大型音乐数据集,并上线了可搜索数据库。

一夜之间,从行业协会、格莱美获奖歌手到独立音乐人,一场全行业自查迅速席卷全球音乐圈。
谁都没想到,一个小小的搜索框,彻底点燃了一场围绕AI训练授权、数据来源和创作者报酬的争论,也让藏在产业链深处的创作者困境与荒诞现实集体显形。

戳破AI公司的糊涂账
AI Watchdog最早于2025年上线,是媒体发起的一项调查性报道项目,专门用于追踪和公开AI训练数据背后的版权来源。其初衷是筛查用于AI训练的图书、学术论文与视频素材,如今正式将监测范围拓展至音乐领域。
本次收录的数据集包含两个超大型曲库LAION-DISCO-12M和Sleeping-DISCO-9M,曲目规模分别高达1200万首与900万首,另有两个中小型曲库Spotify Tracks Dataset和Free Music Archive Dataset,各自收录录音作品均超10万首。
也就是说,四个数据集累计超过2100万首,在AI开发社区中秘密流通。

不过,AI Watchdog也强调了两点:其一,四个库并没有穷尽所有训练来源;其二,某首作品出现在数据集中,并不必然等于它最终被某个模型实际用来训练。但即便如此,也足以说明:在创作者不知情的情况下,大量音乐作品已经进入AI开发者可以随意获取和调用的候选原料池。
据介绍,这4份数据库涵盖众多流行巨星的热门作品,包括Bad Bunny、Nirvana、Taylor Swift、Billie Eilish、Pearl Jam、Beatles,同时收纳了大量爵士名家作品与古典乐曲目。
其中,体量最大的LAION-DISCO-12M由德国非营利机构LAION于2024年11月发布,知名图像生成模型Stable Diffusion的训练数据集同样出自该机构。
官方声明中,该数据集仅限于学术研究,严禁商业落地或直接用于成品制作。然而,“仅供研究”的限定,在现实中面临法律裁量的模糊地带与开源社区的扩散惯性,数据集一经发布,其后续流向与使用意图便不再受原始发布者的掌控。

另一套超大型曲库Sleeping-DISCO-9M则以YouTube音乐内容和Genius歌词为核心来源,开发者借助cloudscraper绕过Cloudflare对Genius页面的抓取限制,再将歌词、元数据与YouTube链接进行匹配。相比普通音乐资料库,它属于面向生成式音乐模型的预训练数据集,可用于文生音乐、音乐数据标注、歌声合成等任务。
相比之下,Spotify Tracks Dataset的问题则集中在来源透明度上。媒体将其描述为一批从Spotify扒下来的曲目集合,由开源社区Hugging Face上一名身份不明的AI开发者上传。
Spotify方面明确表示,这一数据集与官方无关。也就是说,它虽然规模不及前两个超大型曲库,但由于直接牵涉音乐流媒体平台的内容、抓取方式和上传者身份不透明,反而更容易引发版权与平台规则层面的质疑。
四者之中,相对更合规、也更容易追溯来源的,是Free Music Archive Dataset。该数据集由瑞士洛桑联邦理工学院EPFL于2016年整理,来源于Free Music Archive,收录超过10万首录音作品。

FMA官方显示,其中大部分内容采用Creative Commons(知识共享)授权,提供30秒版本与完整版本,因此长期被音乐信息检索、音乐分类和音频研究领域用作基准数据集。
目前能够明确的是,Google和Stability AI都曾在模型说明中确认使用过Free Music Archive Dataset中的部分数据,但至于其他数据集究竟被哪些AI公司训练过、用到了什么程度、是否进入了商业模型管线,外界仍是一笔糊涂账。

艺人掀起自查潮
AI Watchdog真正改变的,正是这笔糊涂账的可见性。
现在,音乐人只要通过AI Watchdog输入关键词,就有几率得到一个令人不适的结果。
消息一出,海外音乐圈炸锅了。
澳大利亚知名乐队Savage Garden主唱Darren Hayes在社交平台写道,过去30年他所创作或演绎的每一首作品,都被AI软件窃取了。澳大利亚版权协会APRA AMCOS主席Dean Ormston也表明,AI公司正在窃取Midnight Oil、Sia、Crowded House、Lorde等艺术家的作品。

格莱美获奖歌手SZA直接在社交平台附上截图,配文只有一句话:“刚查了,AI拿我238首歌训练过。我确定有些根本没发过。”紧接着她又写道:“如果你是个音乐人还支持这破事,你恶心透了,没什么可说的。”
随后,SZA直接把矛盾推向了文化剥削问题。她直接点名国际顶尖制作人Diplo,称其持有AI音乐公司Suno的股权,正积极试图用最优秀的黑人创作者和制作人来训练它。
她写道:“我们占美国人口的13%,却用声音和视角影响着整个世界。我还没听过一首白人AI写的歌呢……我们在立法、医疗、创意上都没有保护,最好偷的就是我们。”
不过,随后Diplo也做出了澄清,称自己并未持有Suno股份,他自己的超过500首歌曲也被AI应用用于训练。他留下一句意味深长的话:“反派不是技术,技术只是技术。”有报道称,Diplo其实是另一家AI初创公司Aaru的投资者。

紧接着,美国知名音乐制作人Kenneth Blume同样没有留情。他在X上直接@Suno写道:“无法想象有人每天上班却在剥夺无数音乐人的作品”,并称这种行为“是在以工作之名,消解艺术家的梦想”。
独立音乐圈这边的反应,简直可以用“一怒之下站起来,两眼一黑又坐下”来形容。
曾以复古音乐作品圈粉无数的音乐人DJ Sabrina the Teenage DJ发现自己的22首歌出现在数据集后,在Bluesky上写道:“那些说我音乐听起来像AI垃圾的人,有没有想过是因为Suno用了包含我22首歌的数据集?”

Titus Andronicus的主唱则用一种黑色幽默回应:“他们拿了我一张没人听过的专辑里的冷门歌……祝你好运,哥们。”甚至Reddit上,大量草根独立音乐人都开始自查。“发现了我自己的歌,而我根本不出名!”一位Reddit用户写道。

这正是最荒诞无力的地方。
之于头部艺人,AI训练或许意味着商业价值被未经许可地调用;对中腰音乐人而言,它甚至像是一种迟来的承认:作品终于被看见了,只不过看见它的不是听众,而是爬虫。并且,创作者的主体性还被倒置了。印象中,真正的创作者似乎很少主动模仿AI,反而是AI先吞下了创作者,然后市场转过头再用AI的标准去审判创作者。
目前,版权方的实际损失很难精准核算,此前国际作者作曲者协会联合会(CISAC)委托PMP战略咨询公司开展专项调研,曾给出了量化预估数据。
报告测算,到2028年,AI音乐预计将占据音乐流媒体平台收入的20%,以及音乐资料库(Music Libraries)收入的60%;生成式AI将瓜分音乐人24%的营收;2023至2028年间,创作者累计收入损失可达100亿欧元(约合105亿美元),2028年年均损失将达到40亿欧元。
因此,这场风波真正刺痛人的,是问题正在变得具体,也变得更难被含糊带过。甚至,可以变成更尖锐的追问:谁授权了?谁获利了?如果一首歌已经成为AI能力的一部分,创作者为什么仍被排除在收益分配之外?

比版权更值钱的东西出现了?
当下,远比单纯维权复杂的新秩序,正在浮出水面。
之前,作品的价值往往发生在发行之后。当AI兴起,作品的价值可能在进入训练池的那一刻就已经被炼化了。
音乐行业逐渐明白,AI公司要的,可能是比版权更值钱的东西。
据Global Info Research的数据,2025年全球AI训练数据集市场规模约为18.47亿美元,预计到2032年将增长至114.58亿美元,年复合增长率达29.7%。另有研究机构估算,该市场到2034年可能攀升至231.8亿美元。
不同机构的口径虽有差异,但指向同一个结论:数据正成为AI时代最昂贵的筹码。这种转变,也正在把AI公司和音乐产业从正面对峙,推向一场更现实精细的谈判。

媒体报道称,目前Suno与Udio两大AI音乐公司至少卷入12起版权官司。从2024年起,美国唱片业协会RIAA代表三大唱片,以大规模版权侵权为由正式起诉Suno与Udio,指控二者未经授权复制录制音乐作品,用于训练AI模型。
一年多之后,战局开始复杂。环球音乐、华纳音乐逐步从诉讼转向版权授权合作,试图把AI训练纳入可控的许可框架;索尼音乐则仍坚持对两家公司持续诉讼,更像是产业开始重新计算自己的筹码。

现阶段,Suno还在法庭应诉,并试图阻止环球音乐与索尼音乐获取其与华纳音乐和解协议的条款细节。与此同时,德国著作权集体管理协会GEMA、丹麦版权组织Koda也相继对Suno发起诉讼。
另一边,Udio则已经接连拿下多方的版权授权。今年1月,Udio签约独立厂牌联盟Merlin;4月,又完成与Kobalt的合作签约。
也就是说,AI音乐公司正在一边应诉,一边补票;在被指控未经许可使用音乐训练模型的同时,一边又开始重新接入版权体系。
更有意思的是,新的授权合作并没有自动解决创作者的利益分配问题。今年6月,美国音乐家联合会AFM还将环球音乐、华纳音乐告上法庭,指控两大厂牌未经艺人许可,擅自将旗下乐手的录音版权授权给Suno与Udio,而相关艺人没有获得报酬与署名。

可以看到,现在的问题已经从维权诉讼,逐渐转向定价和制度设计。
在训练数据成为一门正经生意之前,行业也不得不开始发明新的账本,以持续分享AI创造的新价值。
比如“训练版税”(Training Royalty)就正在被讨论为一个独立于传统表演权和机械复制权的新权利类别。去年,瑞典音乐作品著作权集体管理组织STIM向AI公司发放音乐作品许可,其中框架已经部分实现了这一思路。
按照其框架,AI公司如果想合法使用受版权保护的音乐作品进行训练模型,需要先取得许可;被纳入许可的作品,必须来自明确同意参与的词曲作者和版权商。今年6月起,STIM进一步引入AI专项权利类别,强调作品不会自动进入AI许可,创作者需要按作品主动同意。
更关键的是,STIM把补偿拆成了几个环节:作品被用于模型训练时,权利人可以获得训练阶段的许可收入;AI服务上线并产生订阅等收入时,权利人可以继续分享收益;如果AI生成音乐进一步被分发、使用并产生收入,也可能触发后续分配。

同时,产业界与学术界也在讨论更细致的AI版税模型。
去年10月,索尼AI研究人员主导发布的论文《Attribution-by-design》提出,要区分training-time attribution(训练时归因)和inference-time attribution(推理/生成时归因),并建立可验证的来源追踪和版税分配机制。
另一篇由伊利诺伊大学厄巴纳香槟分校(UIUC)等机构的研究人员发布的论文《Computational Copyright》则更早提出,可以借鉴Spotify、YouTube等平台的分账逻辑,用数据归因技术来判断AI生成音乐受哪些训练作品影响,并据此设计AI音乐生成平台的收入分享模型。
此外,围绕艺术风格、创作特征和人格属性展开的“类风格权”概念,也已经开始在立法、市场和平台治理中浮现。
今年6月,美国国会议员提出法案《CREATOR Act》(创作者权利保障法案),面向视觉艺术家,试图让创作者在AI未经许可、为商业目的模仿其独特视觉风格时,有权阻止并索赔。官方明确承认,现行版权法只保护具体作品,却不保护创作者的风格;而风格恰恰是AI时代最容易被复制、也最难被定价的东西,该法案正是想填补这一空白。

尽管CREATOR Act当前仅覆盖视觉领域,且尚处立法初期,但它为音乐行业创作者的焦虑,第一次提供了可对照的解决方案的轮廓。
这也是为什么,未来的核心战场未必只在早看腻了的版权大战和法庭对峙里。真正的交锋,正在被前移到更早且更隐蔽的地方发生:训练、生成、归因和分配,新规则正在这些细节里一点点长出来。
新事物似乎又一次把产业逼到了重新立约的前夜,AI音乐的争议,也变成了一场关于未来产业分配规则的重新开盘。
而AI时代真正需要重写的,不只是版权法,更是音乐产业的新账本。
*本文图源网络,如侵权联系删改
排版 | vision


免责声明:以上数据来源于天眼查等平台,相关内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。如有侵权请联系0531-85193563。

本文来源:澎湃新闻