国产aaaa级全身裸体精油片_337p人体粉嫩久久久红粉影视_一区中文字幕在线观看_国产亚洲精品一区二区_欧美裸体男粗大1609_午夜亚洲激情电影av_黄色小说入口_日本精品久久久久中文字幕_少妇思春三a级_亚洲视频自拍偷拍

首頁 > 行業(yè)資訊 > 科學家開發(fā)多模態(tài)音樂理解和生成大模型,兼具理解和創(chuàng)作音樂能力

科學家開發(fā)多模態(tài)音樂理解和生成大模型,兼具理解和創(chuàng)作音樂能力

時間:2024-04-17 來源: 瀏覽:

科學家開發(fā)多模態(tài)音樂理解和生成大模型,兼具理解和創(chuàng)作音樂能力

原創(chuàng) 路雨晴 DeepTech深科技
DeepTech深科技

deeptechchina

DeepTech 是一家專注新興科技的資源賦能與服務機構,以科學、技術、人才為核心,通過科技數(shù)據(jù)與咨詢、出版與影響力、科創(chuàng)資本實驗室三大業(yè)務板塊,推動科學與技術的創(chuàng)新進程。DeepTech 同時是《麻省理工科技評論》中國區(qū)獨家運營方。

“同行們認為我們用大模型把音樂理解和生成結合在一起的想法比較新穎,論文也是多模態(tài)大模型領域的先期工作之一。
并且,除了大模型本身,我們提出的針對模型訓練的數(shù)據(jù)集制作流程和整理的數(shù)據(jù)集,對學術界也具有較大價值?!彬v訊 ARC Lab 劉山松 研究員表示。
圖丨劉山松(來源: 劉山松 )
近期,他所在的騰訊 ARC Lab 團隊與新加坡國立大學 Sun Chenshuo 助理教授課題組聯(lián)合開發(fā)了一種多模態(tài)音樂理解與生成大模型 M 2 Ugen ,能夠滿足用戶對音樂理解和生成的需求,填補了多模態(tài)大模型在音樂領域的空白。
具體來說,該模型不僅可以理解音樂,還能在此基礎上生成音樂。
前者指的是不但能對輸入的音樂文件進行描述性的注解,而且可以回答用戶與輸入音樂文件相關的問題,比如音樂中包含哪些樂器等。
后者指的是不僅可以根據(jù)用戶指令生成音樂,比如生成一段吉他彈奏的音樂,還能根據(jù)用戶輸入的圖像或視頻生成音樂。
圖丨通過 M 2 Ugen  大模型進行多模態(tài)音樂理解和生成(來源: arXiv
近日,相關論文以《M 2 Ugen :借助大型語言模型的力量進行多模態(tài)音樂理解和生成》( M2Ugen: Multi-modal Music Understanding and Generation with the Power of Large Language Models )為題在預印本平臺 arXiv  上發(fā)表[1]。
劉山松 和新加坡國立大學阿廷·薩克克爾·侯賽因( Atin Sakkeer Hussain )是第一作者, 劉山松 和 Sun Chenshuo 、騰訊 ARC Lab 單瀛 擔任共同通訊作者。
圖丨相關論文(來源: arXiv
當前,大語言模型領域正在蓬勃發(fā)展。該領域的從業(yè)者或利用它強大的推理能力,理解文本、圖像等模態(tài);或通過它理解人類意圖,并生成圖像、音樂等用戶需要的內容。
然而,過去大多數(shù)基于大語言模型的研究仍然側重于理解層面,只有少量將理解和生成結合起來的相關研究。
但具體到實際應用場景,用戶對于理解和生成的需求往往是交織存在的。
例如,每到年末,許多員工都需要制作年終總結 PPT。如果想借助大語言模型完成這項工作,那么它不僅要具有理解能力,以便用戶從中獲得符合用戶想法的 PPT 模版風格,還要擁有生成文字和插圖的能力。
因此,理解和生成能力有必要被融合到同一款模型中。
就該成果而言,該團隊為何選擇將音樂作為研究的切入點?
據(jù) 劉山松 介紹,他在讀博期間就從事音頻研究,對音樂有著較為濃厚的興趣。工作以后又發(fā)現(xiàn)許多用戶都有配樂的實際需求。
“比如,視頻制作者要想快速積累粉絲,就要制作出一個爆款視頻引流。其中,選擇合適的配樂非常重要。
不過,音樂對藝術鑒賞水平有一定要求,那些普通用戶在選擇時往往面臨困難。此時就需要有一個能夠幫助他們選擇合適配樂,并提高創(chuàng)作效率的小助手?!? 劉山松 表示。
另外,值得一提的是,該成果也是該課題組在前序研究 MU-LLaMA[2]基礎上的延續(xù)。據(jù)了解,后者主要集中于單一的音樂理解任務,而 M 2 Ugen  則是在音樂理解的基礎上,增加由多模態(tài)信息引導的音樂生成能力,讓模型不僅僅可以理解音樂,也能夠創(chuàng)作音樂。
“我們在 2023 年 9 月完成 MU-LLaMA 的投稿后,就開始了對 M 2 Ugen  的研究?!? 劉山松 表示。
在調研和確定研究現(xiàn)狀和研究目標之后,研究人員先選用 MERT、ViT 和 ViViT 這三個特征處理器,來分別處理音樂、圖像和視頻輸入。
接著,將編碼器的輸出引入所選用的 LLaMA2 開源大模型,讓其能夠理解、處理多模態(tài)的輸入,進而為下游任務做決策。
然后,再將理解和生成任務巧妙地結合在同一個大模型中。
最后,通過探索 AudioLDM 2 和 MusicGen 兩款模型的使用,讓模型得以具備生成音樂的能力。
在完成模型架構設計的基礎上,他們搜集了目前市場上可以找到的所有開放版權音樂,并利用 MU-LLaMA 和一些視覺基礎模型來生成文本/圖像/視頻到音樂的多模態(tài)數(shù)據(jù)集,從而助力 M 2 Ugen  模型的訓練。
需要說明的是,擁有更多優(yōu)質的開放數(shù)據(jù),是發(fā)展生成式 AI 的關鍵。
“如果未來我們能夠與更多專業(yè)機構合作,得到更多高質量的音樂訓練數(shù)據(jù),并解決版權和標注數(shù)據(jù)質量的問題,就能完成對該模型性能和表現(xiàn)的更進一步迭代?!? Sun Chenshuo 表示。
在后續(xù)研究中,他們將繼續(xù)迭代優(yōu)化模型性能,提升模型泛化性,以更好地適應國內用戶的需求。

參考資料:

1.S., Liu, A., Hussain.et al. M 2 Ugen : Multi-modal Music Understanding and Generation with the Power of Large Language Models.  arXiv :2311.11255. https://doi.org/10.48550/ arXiv .2311.11255

2. S., Liu, A., Hussain.et al. Music Understanding LLaMA:Advancing Text-To-Music Generation with Question Answering And Captioning.  arXiv :2308.11276v1. https://arxiv.org/abs/2308.11276

運營/排版:何晨龍

01/  科學家制備2英寸二硫化鉬單晶薄膜,開關比接近10的9次方,推動亞納米芯片走向實際應用
02/  科學家研發(fā)鋰離子導體,結合機器學習與結構預測,為下一代固態(tài)電解質提供新可能性
03/  科學家打造綠氫制備新方法,每千瓦僅使用0.04克釕,所產(chǎn)綠氫單位價格逼近煤制氫價格
04/  科學家造出新型可降解離子彈性體,室溫愈合效率大于99%,可用于數(shù)字光處理三維打印
05/  獨家專訪ASML CTO:不相信摩爾定律會終結,公司下一個大戰(zhàn)略將是超數(shù)值孔徑光刻機

下一條:返回列表
版權:如無特殊注明,文章轉載自網(wǎng)絡,侵權請聯(lián)系cnmhg168#163.com刪除!文件均為網(wǎng)友上傳,僅供研究和學習使用,務必24小時內刪除。
相關推薦