《科创板日报》1月28日讯(修改 宋子乔) 在生成式AI模型的赛道上,谷歌正一路“狂飙”。继文字生成AI模型Wordcraft、视频生成东西Imagen Video之后,谷歌将生成式AI的使用场景扩展到了音乐圈。
当地时间1月27日,谷歌发布了新的AI模型——MusicLM,该模型能够从文本乃至图画中生成高保真音乐,也便是说能够把一段文字、一幅画转化为歌曲,且曲风多样。
谷歌在相关论文中展现了很多事例,如输入字幕“雷鬼和电子舞曲的交融,带有空阔的、超凡脱俗的声响,引发迷失在太空中的体会,音乐的规划旨在引发一种惊讶和敬畏的感觉,一起又合适跳舞”,MusicLM便生成了30秒的电子音乐。
又如以国际名画《跨过阿尔卑斯山圣伯纳关隘的拿破仑》为“题”,MusicLM生成的音乐严肃高雅,将冬日的凌厉肃杀和英雄主义颜色体现地酣畅淋漓。写实油画之外,《舞蹈》《呼吁》《格尔尼卡》《星空》等抽象派画作均可为题。
MusicLM乃至能够来个音乐串烧,在故事形式下将不同风格的曲子稠浊在一起。即使要求生成5分钟时长的音乐,MusicLM也不在话下。
别的,MusicLM具有强壮的辅佐功用,能够规则详细的乐器、地址、门户、时代、音乐家演奏水相等,对生成的音乐质量进行调整,然后让一段曲子幻化出多个版别。
MusicLM并非第一个生成歌曲的AI模型,同类型产品包含Riffusion、Dance Diffusion等,谷歌自己也发布过AudioML,时下最抢手的谈天机器人“ChatGPT”的研制者OpenAI则推出过Jukebox。
MusicLM有何独到之处?
它其实是一个分层的序列到序列(Sequence-to-Sequence)模型。依据人工智能科学家Keunwoo Choi的说法,MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型,可谓集大成者。
其间,AudioLM模型可视作MusicLM的前身,MusicLM便是利用了AudioLM的多阶段自回归建模作为生成条件,能够经过文本描绘,以24kHz的频率生成音乐,并在几分钟内坚持这个频率。
相较而言,MusicLM的练习数据更多。研讨团队引入了首个专门为文本-音乐生成使命评价数据MusicCaps来处理使命缺少评价数据的问题。MusicCaps由专业人士共建,包括5500个音乐-文本对。
基于此,谷歌用280000小时的音乐数据集练习出了MusicLM。
谷歌的试验标明,MusicLM在音频质量和对文本描绘的恪守方面都优于曾经的模型。
不过,MusicLM也有着一切生成式AI一起的危险——技能不完善、资料侵权、品德争议等。
关于技能问题,比方说当要求MusicLM生成人声时,技能上可行,但作用欠安,歌词杂乱无章、含义不明的状况时有发生。MusicLM也会“偷闲”——起生成的音乐中,约有1%直接从练习集的歌曲中仿制。
别的,由AI系统生成的音乐究竟是不是原创著作?能够遭到版权维护吗?能不能和“人工音乐”同台竞技?相关争议一直未有共同见地。
这些都是谷歌没有对外发布MusicLM的原因。“咱们供认该模型有盗用构思内容的潜在危险,咱们着重,需要在未来展开更多作业来应对这些与音乐生成相关的危险。”谷歌发布的论文写道。
DeepSeek引发了商场对AI医疗的重视度,而华为和瑞金医院正式发布AI病理大模型,为职业再添一把火。
2月18日,记者从华为官方了解到,在当天的2025医疗人工智能与精准医治展开论坛上,瑞金医院与华为一起发布了“瑞智病理大模型”。
业内人士指出,AI突破性展开推进医学医治从传统经历医学跨过至精准医学。跟着AI在病理确诊范畴运用加深,有望显着进步病理切片确诊功率和准确性,为临床医治供给更精准的决议计划支撑。
来历:证券时报DeepSeek引发了商场对AI医疗的重视度,而华为和瑞金医院正式发布AI病理大模型,为职业再添一把火。2月18日,记者从华为官方了解到,在当天的2025医疗人工智能与精准医治展开论坛上...