论坛:2025年7月26日-28日
展览:2025年7月26日-29日
地点:世博中心、世博展览馆、徐汇西岸等
清亮的原声吉他扫弦配上律动感强劲的鼓组,满满青春的活力扑面而来;朗朗上口的歌词由极具穿透力的高亢女声传递。日前发布的本次大会英文主题曲《AI For Good》悠扬大气而又不失动感,一经公布就立即收获了广大好评,但不少细心的听众发现这首歌的词曲演唱均是“空白”。没错,这首“抓耳”歌曲从作词、作曲到人声演唱全流程均是由国内自主研发的音乐大模型(“音潮”音乐大模型)独立全栈完成。作品以“科技向善”为核心,通过音乐语言传递AI与人类共生的未来愿景。

“音潮”音乐大模型是由国内新锐的大模型公司自由量级全链路自研。该模型采用行业领先的AR+NAR架构,拥有强大的多模态表征能力和创新的重建模型。前者能够捕捉全局动态变化并进行高保真重建。后者则深入学习了音乐信号与其他信息的结构性差异,对信号中的音乐特征独立建模,建立复合评价维度,克服了传统方案在处理时所遇到的音乐细节丢失难题。这也让“音潮”音乐大模型生成具有丰富编曲层次、工业级制作听感的高质量音乐。
同时,为了让生成的效果从“平面”走向“沉浸”,团队还专门研发了能直接对双声道信号进行联合建模的Diffusion Transformer(DiT)。该模型的核心在于其独特的注意力机制,能有效捕捉并同步左右声道间的相位、强度差异与时间延迟。因此,生成的音频不再是单声道的简单复制,而是拥有了真实、自然的宽度和深度,为听者构建出可信的声场空间。
正是这些黑科技,带来了这首《AI For Good》的惊人效果,也证明了中国的音乐大模型已具备驾驭国际盛会艺术表达的成熟度。
(来源:世界人工智能大会)




