国产aaaa级全身裸体精油片_337p人体粉嫩久久久红粉影视_一区中文字幕在线观看_国产亚洲精品一区二区_欧美裸体男粗大1609_午夜亚洲激情电影av_黄色小说入口_日本精品久久久久中文字幕_少妇思春三a级_亚洲视频自拍偷拍

首頁 > 行業(yè)資訊 > 科學家打造多模態(tài)開源模型,7B和1.3B小模型均開源,可部署于手機等終端

科學家打造多模態(tài)開源模型,7B和1.3B小模型均開源,可部署于手機等終端

時間:2024-04-18 來源: 瀏覽:

科學家打造多模態(tài)開源模型,7B和1.3B小模型均開源,可部署于手機等終端

DeepTech深科技
DeepTech深科技

deeptechchina

DeepTech 是一家專注新興科技的資源賦能與服務機構(gòu),以科學、技術、人才為核心,通過科技數(shù)據(jù)與咨詢、出版與影響力、科創(chuàng)資本實驗室三大業(yè)務板塊,推動科學與技術的創(chuàng)新進程。DeepTech 同時是《麻省理工科技評論》中國區(qū)獨家運營方。

在最近一項研究中,DeepSeek-AI 團隊針對多模態(tài)大模型展開了深入探索。選擇這一研究方向,背后有著多重考量。

最初,該團隊圍繞是否聚焦于多模態(tài)生成、多模態(tài)理解、或是兩者的統(tǒng)一框架進行了廣泛討論。
基于對通用人工智能(AGI,General Artificial Intelligence)的追求——這一點也一直是他們的研究主線和研究理想,最終其決定致力于深化對于開放世界的理解。

(來源: arXiv
他們相信這不僅是實現(xiàn)先進多模態(tài)生產(chǎn)的前提,長期來看也可以對多模態(tài)生成進行賦能。
比如,Sora 就使用了多模態(tài)模型對訓練數(shù)據(jù)進行了大量的標注,這也證明長遠來看“理解與生成”一定是相互補充、相互促進的關系。
此外,他們選擇先從增強大語言模型的更多模態(tài)處理能力入手,也是鑒于該團隊在語言理解領域積累的深厚經(jīng)驗。
這一決策同樣受到了科技界廣泛關注的趨勢影響——即強化大模型的多模態(tài)能力,包括強化對于文本和圖像的理解。
這一方向被認為是未來發(fā)展的關鍵,能夠極大地拓展大模型在現(xiàn)實世界的應用范圍,比如為視障人士提供輔助,或在機器人技術和日常生活自動化等領域的應用。
然而,目前市場上表現(xiàn)出色的多模態(tài)大模型大多為閉源(如 OpenAI 的 GPT4V、 Google 的 Gemini),這限制了多模態(tài)大模型在更廣泛領域的應用和發(fā)展。
而目前大部分開源多模態(tài)模型目前主要還是集中在學術領域,且對預訓練模型的深入探索較少。
鑒于此,他們認為開發(fā)一個面向?qū)嶋H應用場景的開源多模態(tài)模型,不僅對科技社區(qū)有重大意義,也將極大地促進多模態(tài)大模型在更多跨領域的發(fā)展。
研究中,該團隊首先從一個 10 億參數(shù)的小模型開始,逐步擴展到幾十億參數(shù)規(guī)模的模型,一步一步地走完了整個多模態(tài)預訓練流程。
過程中他們從數(shù)據(jù)、模型架構(gòu)與訓練策略上協(xié)同推進,最終把相關發(fā)現(xiàn)形成科技報告并開放給所有人,也開源了最終的預訓練模型與微調(diào)模型。
值得一提的是,本次成果與 蘋果 公司最近發(fā)布的多模態(tài)模型 MM1 有著很多相似之處。
多模態(tài)大模型的應用前景極其廣闊,如果把當前的大語言模型(LLM,Large Language Model)視為一個初期的智能體,那么多模態(tài)就是通過擴展其感知能力,讓這個智能體能夠更全面地與現(xiàn)實世界互動。
來源: arXiv
目前,該團隊主要關注視覺模態(tài)和語言模態(tài),但未來計劃將其擴展到包括音頻和嗅覺在內(nèi)的更多模態(tài),使之成為一個真正能夠與世界連接的智能體。
從應用角度來看,這種多模態(tài)智能體的潛力幾乎是無限的。它們可以成為每個人的超級助理,承擔人類能夠想象到的所有工作。
在初期階段可以作為輔助工具,后續(xù)將逐漸發(fā)展到徹底將人類從繁重勞動中解脫出來。
這種智能體不僅能夠理解并壓縮人類社會的知識,還能與現(xiàn)實世界進行直接交互,這意味著它們的應用場景非常廣泛,包括但不限于自動化助手、教育、醫(yī)療、創(chuàng)造性工作、日常家務等領域。
長期來看,這些多模態(tài)大模型的發(fā)展?jié)摿赡軐⑦h超人類當前的想象。
預計它們將成為人類社會不可或缺的一部分,幫助人們更有效地利用資源和提高生活質(zhì)量,同時也能為人類打開一扇窗口,讓我們以全新的方式理解世界。
據(jù)介紹,該團隊從 2023 年中開始著手本次項目。最近半年到一年間,整個行業(yè)在多模態(tài)方向上取得了飛速進展。
科技社區(qū)的活動非常熱烈,開源和閉源的模型都變得越來越強大,幾乎每個月都有相關模型發(fā)布,對于他們這些從業(yè)者來說是一種鞭策。
同時,相比于架構(gòu)比較成熟的大語言模型而言,多模態(tài)模型的架構(gòu)并未擁有一個非常確定的結(jié)構(gòu)。

來源: arXiv
各個模塊之間的選擇都有值得探索的地方,這些不確定性讓他們更多是感到十分興奮,也讓他們覺得還有更多的機會。
慶幸的是即便在這種情況下,該團隊也得到了不錯的算力支持和數(shù)據(jù)工程支持。
這讓他們能夠快速迭代,進行更全面的數(shù)據(jù)采集、更好的數(shù)據(jù)清理,并能夠優(yōu)化語言-多模態(tài)數(shù)據(jù)集的配比,以及探索更好的模型結(jié)構(gòu)和訓練策略。
此外,除了開源 7B 模型之外,該團隊同樣也開源了 1.3B 的小模型。
研究人員表示:“DeepSeek-VL 1.3B 小模型的性能同樣強悍,在部分指標上超越了 7B 模型?!?/span>
這些小模型可以滿足算力缺乏型開發(fā)者使用,也更方便在手機等移動終端上部署。
日前,相關論文以《DeepSeek-VL:面向真實世界的視覺語言理解》( DeepSeek-VL:Towards Real-World Vision-Language Understanding )為題發(fā)在  arXiv [1],Haoyu Lu、Wen Liu、Bo Zhang 是共同一作。
圖 | 相關論文(來源: arXiv
不過,多模態(tài)框架目前還沒有明確的定型,當前的這套 Vision Encoder + Projector + LLM 是不是最終的答案還值得商榷。
研究人員表示:“DeepSeek-VL 是我們在多模態(tài)上的第一個起始工作,后續(xù)的工作一定是更有趣、更有意義、且更長遠的。”

參考資料:

1.https://arxiv.org/pdf/2403.05525.pdf

2.https://github.com/deepseek-ai/DeepSeek-VL/tree/main

3.https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B

運營/排版:何晨龍

01/  科學家解決飛秒激光成絲抖動難題,生成高強度超連續(xù)光源,可用于高精度的光學測量
02/  科學家制備2英寸二硫化鉬單晶薄膜,開關比接近10的9次方,推動亞納米芯片走向?qū)嶋H應用
03/  科學家研發(fā)鋰離子導體,結(jié)合機器學習與結(jié)構(gòu)預測,為下一代固態(tài)電解質(zhì)提供新可能性
04/  科學家打造綠氫制備新方法,每千瓦僅使用0.04克釕,所產(chǎn)綠氫單位價格逼近煤制氫價格
05/  科學家造出新型可降解離子彈性體,室溫愈合效率大于99%,可用于數(shù)字光處理三維打印

下一條:返回列表
版權(quán):如無特殊注明,文章轉(zhuǎn)載自網(wǎng)絡,侵權(quán)請聯(lián)系cnmhg168#163.com刪除!文件均為網(wǎng)友上傳,僅供研究和學習使用,務必24小時內(nèi)刪除。
相關推薦