时代财经APP
时代财经APP

立即扫码下载

随时获取最新资讯

时代财经微信

立即扫码关注

随时获取最新资讯

时代财经APP

企业第一财经读本

时代财经APP

AI音乐应用竞相迸发,国产AI音乐三巨头角逐争锋

作者:方旬 2024-12-04 09:00

谁能让普通用户体验音乐创作的乐趣,让专业音乐人不再被灵感枯竭所限,谁就能在AI音乐领域“遥遥领先”。

当前,国产AI应用进入“深水区”,新技术、新团队、新应用不断涌现,谁都想成为下一个“ChatGPT”。

随着大模型在各个领域的深入应用,更多复杂且多样化的使用场景逐步变为现实,一些细分领域逐渐展现出成熟态势,人工智能与音乐的结合是其中代表,AI音乐正在成为音乐产业发展的新趋势,对推动音乐产业的创新和高质量发展发挥着关键作用。

“未来比拼的可能是谁更能掌握好人工智能技术,去创造符合自己个性、独一无二的特征。”中国音乐家协会主席、香港中文大学(深圳)音乐学院创院院长叶小钢在近期活动上表示。AI技术不光重塑了音乐创作过程,同时也改变了音乐的消费模式,随着算法、算力的不断进步,AI能够创作出更加符合市场需求和多样化的音乐。

事实上,AI音乐生成应用也在加速布局,根据《2024中国音乐产业发展总报告》披露的数据测算,基于AIGC技术的音乐生成工具在国内市场应用率已达到35%,为数字音乐市场贡献超过150亿元的新增产值。随着市场的日益成熟,各家厂商不仅在技术上进行创新,还在商业模式、版权合作以及用户体验等方面进行着全方位的较量,以期在未来的音乐市场中占据有利位置,而围绕海内外厂商的竞逐赛也在悄然展开。

中国厂商弯道超车

去年年底,国外AI音乐生成工具“Suno ”的发布号称为音乐领域带来新革命。

11 月 20 日,Suno宣布推出 v4 版本,此次更新在音质、歌词精准度以及歌曲结构方面带来了显著提升。Suno每一次的升级,都给AI音乐带来新的风向标。

然而将视线放回国内,各大厂商的表现同样亮眼。昆仑万维在4月17日自主研发的“天工”大模型一周年之际,迭代发布了“天工3.0”并带来全新的“天工SkyMusic”音乐生成平台,同时开启免费邀测活动。比起彼时“Suno V3”版本的文生曲功能,“天工SkyMusic”拥有更加亮眼的参考音乐生成和方言音乐生成能力。据介绍,用户可上传自有参考音乐,或选择“天工SkyMusic”资料库中现有的参考音乐,从而生成风格、唱腔类似的歌曲,进一步降低音乐大模型的使用门槛,让不熟悉乐理知识的用户也能轻松玩转,同时该产品还支持粤语、成都话、北京话等众多方言,能更好适应中国音乐市场。

与此同时,字节跳动旗下的智能AI助手“豆包”也在8月份上线音乐生成功能,相比“Suno”,“豆包”的音乐生成功能在中文歌曲创作方面表现更出色,提供灵感创作和自定义创作选项,用户可以轻松生成歌词和旋律,并选择不同的音乐风格和情感表达。

海内外厂商在音乐生成领域你追我赶,但单一的“文生曲”功能在AI音乐生成应用中各有千秋难分胜负,也满足不了广大音乐爱好者需求,各家厂商在应用场景和功能上寻找突破口。

在“图生曲”“视频生曲”的赛道上,Suno这次走得稍微落后些。今年10月,Suno 推出了一个新功能 Suno Scenes,它允许用户通过上传照片和视频作为提示词,生成与之相匹配的30S音乐该版本。SunoScenes利用多模态AI技术,通过深度学习和自然语言处理理解图像情绪、主题和细节,自动生成匹配画面主题的音乐。

然而这次,SunoScenes的出现已非行业首创,在国内有一家厂商更早在音乐生成多模态领域进行深入研究和开发,成为AI音乐领域一匹“黑马”。

早在7月份,国内厂商趣丸科技在2024年第二十一届中国国际数码互动娱乐展览会(ChinaJoy)上发布了全球首个多模态音乐生成大模型“天谱乐”,该模型比起SunoScenes早了3个月。

趣丸科技厚积薄发,开局便是“王炸”,“天谱乐”依托多模态AI技术,不仅支持文本生曲,还首创图片生曲、视频生曲功能,生成的歌曲自带人声唱词,效果上更是达到专业发行水准。据介绍,“天谱乐”大模型集成图片理解算法、旋律生成算法、视频理解算法、配器识别算法等领先技术,多模态理解与生成能力比肩国际先进水平。

“天谱乐”的发布标志着中国厂商在AIGC音乐领域开始占据领先优势。从文生曲到图片/视频生曲,“天谱乐”“豆包”“天工”三家国内AI音乐巨头引领一众中国厂商实现弯道超车。

国产AI音乐应用呈“三足鼎立”态势

在功能和应用层面,比起文本生曲,图片/视频生曲更为复杂,其不仅需要进行大量的计算,还需要处理视觉和听觉信息的同步。生成音乐时,算法必须理解图像或视频中的视觉内容,并将其转换为相应的音频信号。这涉及到图像识别、场景理解以及音频生成等多个复杂步骤。此外,为了确保生成的音乐与视觉内容匹配,算法还需要具备一定的创意和审美能力,以产生和谐且富有表现力的音乐作品。

进入“天谱乐”平台界面,“天谱乐”在首页通过demo展现视频生曲的功能,在一段demo视频中,展示一对情侣在落日下拥吻的场景,而生成的歌曲除了能描述出视频主体情侣的情绪,还能加以环境描写渲染气氛,并围绕情侣的动作变化和情绪的升温在歌词和音调上做相应的变化,实现更复杂专业的编曲,并且有主歌副歌之分。

趣丸科技表示,团队通过自研多模态大模型、画面情绪理解模型与音乐大模型等领先技术,让模型不仅可以根据视频画面的明暗、色彩、情绪的细微变化逐帧识别和理解,也可以理解音乐的和弦、旋律、歌词、演唱风格等复杂特征,最终生成高契合度的视频配乐。

另一方面,作为AI音乐生成的重点课题——人声技术方面,天谱乐所生成的人声效果已经非常接近真实人类的发音。无论是发音的清晰度还是语句的停顿,天谱乐产生的声音几乎与真人无异,避免了传统AI音乐中常见的机械式电子音。这得益于天谱乐大模型在长序列音乐语义建模和高质量音频空间建模方面的重大突破,使它能够高度复原音乐音频在高维空间的连续信号表征,从而在音乐性和音质上实现了显著的提升。

今年9月,天谱乐夺得第三届琶洲算法大赛全球总冠军,从全球36个国家、超6000多支队伍中脱颖而出。这一成绩足以证明其模型能力的领先,然而这仅仅是天谱乐其中一个“法宝”,其技术创新的背后更需要足够专业的音乐领域能力作为支撑。

为了开发出更全面的音乐生成软件,趣丸科技在团队建设方面做了周密的规划。趣丸科技副总裁贾朔在接受媒体采访中介绍到,与典型的大模型研发团队不同,天谱乐团队大部分都是有很强的技术和音乐背景的复合型人才,因此更有能力去辨别一个好的音乐结构、好的音乐作品应该长什么样子,然后通过技术创造出更有音乐审美与应用价值的产品。

而对于商业场景应用领域,趣丸科技也有自己的见解。与很多大模型产品不同,天谱乐大模型的商业落地路径清晰,且已经初显成效。趣丸科技旗下拥有TT语音、唱鸭等多款头部兴趣社交产品,以及在泛娱乐领域长期积累的上下游产业链优势,这些都为天谱乐大模型提供了更加天然、广泛的应用场景。”据介绍,目前已有4600万人注册使用唱鸭APP或天谱乐官网,累计创作近1000万首AI歌曲。

随着技术的不断创新迭代,其他国内厂商目前也正在往多模态AI技术方面探索,昆仑万维表示后续将逐步迭代和添加多模态的情感理解与表达能力,腾讯音乐推出了启明星AI音色魔法师,显著提升了音乐制作的生产力,为音乐创作者带来了更多的可能性和便利。网易天音也宣布为用户提供了免费制作4到5分钟专属AI歌曲的服务,越来越多的厂商涌向AIGC音乐领域。

从国外Suno横空出世,到国内厂商快速紧跟,当前国产AI音乐正逐步形成以昆仑万维“天工SkyMusic”、字节跳动“豆包”、以及趣丸科技“天谱乐”为首的“三足鼎立”局面。三家巨头在持续发力,其他音乐平台也正在追赶。

但无论如何,AI应用的创新始终需要围绕给使用者带来更便捷、更丰富的场景应用能力,李彦宏在11月2024百度世界大会上也表示,随着大模型技术和能力指数级跃迁,人人都是开发者,创作者。对于AIGC音乐赛道来说同样如此,谁能让普通用户体验音乐创作的乐趣,让专业音乐人不再被灵感枯竭所限,谁就能在AI音乐领域“遥遥领先”。

文章来源:时代财经APP 编辑:时代财经