首頁 > 行業(yè)資訊 > 科學家打造多模態(tài)開源模型，7B和1.3B小模型均開源，可部署于手機等終端

科學家打造多模態(tài)開源模型，7B和1.3B小模型均開源，可部署于手機等終端

時間：2024-04-18 來源：瀏覽：

科學家打造多模態(tài)開源模型，7B和1.3B小模型均開源，可部署于手機等終端

DeepTech深科技

DeepTech深科技

微信號 deeptechchina

功能介紹 DeepTech 是一家專注新興科技的資源賦能與服務機構(gòu)，以科學、技術、人才為核心，通過科技數(shù)據(jù)與咨詢、出版與影響力、科創(chuàng)資本實驗室三大業(yè)務板塊，推動科學與技術的創(chuàng)新進程。DeepTech 同時是《麻省理工科技評論》中國區(qū)獨家運營方。

在最近一項研究中，DeepSeek-AI 團隊針對多模態(tài)大模型展開了深入探索。選擇這一研究方向，背后有著多重考量。

最初，該團隊圍繞是否聚焦于多模態(tài)生成、多模態(tài)理解、或是兩者的統(tǒng)一框架進行了廣泛討論。

基于對通用人工智能（AGI，General Artificial Intelligence）的追求——這一點也一直是他們的研究主線和研究理想，最終其決定致力于深化對于開放世界的理解。

（來源： arXiv ）

他們相信這不僅是實現(xiàn)先進多模態(tài)生產(chǎn)的前提，長期來看也可以對多模態(tài)生成進行賦能。

比如，Sora 就使用了多模態(tài)模型對訓練數(shù)據(jù)進行了大量的標注，這也證明長遠來看“理解與生成”一定是相互補充、相互促進的關系。

此外，他們選擇先從增強大語言模型的更多模態(tài)處理能力入手，也是鑒于該團隊在語言理解領域積累的深厚經(jīng)驗。

這一決策同樣受到了科技界廣泛關注的趨勢影響——即強化大模型的多模態(tài)能力，包括強化對于文本和圖像的理解。

這一方向被認為是未來發(fā)展的關鍵，能夠極大地拓展大模型在現(xiàn)實世界的應用范圍，比如為視障人士提供輔助，或在機器人技術和日常生活自動化等領域的應用。

然而，目前市場上表現(xiàn)出色的多模態(tài)大模型大多為閉源（如 OpenAI 的 GPT4V、 Google 的 Gemini），這限制了多模態(tài)大模型在更廣泛領域的應用和發(fā)展。

而目前大部分開源多模態(tài)模型目前主要還是集中在學術領域，且對預訓練模型的深入探索較少。

鑒于此，他們認為開發(fā)一個面向?qū)嶋H應用場景的開源多模態(tài)模型，不僅對科技社區(qū)有重大意義，也將極大地促進多模態(tài)大模型在更多跨領域的發(fā)展。

研究中，該團隊首先從一個 10 億參數(shù)的小模型開始，逐步擴展到幾十億參數(shù)規(guī)模的模型，一步一步地走完了整個多模態(tài)預訓練流程。

過程中他們從數(shù)據(jù)、模型架構(gòu)與訓練策略上協(xié)同推進，最終把相關發(fā)現(xiàn)形成科技報告并開放給所有人，也開源了最終的預訓練模型與微調(diào)模型。

值得一提的是，本次成果與蘋果公司最近發(fā)布的多模態(tài)模型 MM1 有著很多相似之處。

多模態(tài)大模型的應用前景極其廣闊，如果把當前的大語言模型（LLM，Large Language Model）視為一個初期的智能體，那么多模態(tài)就是通過擴展其感知能力，讓這個智能體能夠更全面地與現(xiàn)實世界互動。

（來源： arXiv ）

目前，該團隊主要關注視覺模態(tài)和語言模態(tài)，但未來計劃將其擴展到包括音頻和嗅覺在內(nèi)的更多模態(tài)，使之成為一個真正能夠與世界連接的智能體。

從應用角度來看，這種多模態(tài)智能體的潛力幾乎是無限的。它們可以成為每個人的超級助理，承擔人類能夠想象到的所有工作。

在初期階段可以作為輔助工具，后續(xù)將逐漸發(fā)展到徹底將人類從繁重勞動中解脫出來。

這種智能體不僅能夠理解并壓縮人類社會的知識，還能與現(xiàn)實世界進行直接交互，這意味著它們的應用場景非常廣泛，包括但不限于自動化助手、教育、醫(yī)療、創(chuàng)造性工作、日常家務等領域。

長期來看，這些多模態(tài)大模型的發(fā)展?jié)摿赡軐⑦h超人類當前的想象。

預計它們將成為人類社會不可或缺的一部分，幫助人們更有效地利用資源和提高生活質(zhì)量，同時也能為人類打開一扇窗口，讓我們以全新的方式理解世界。

據(jù)介紹，該團隊從 2023 年中開始著手本次項目。最近半年到一年間，整個行業(yè)在多模態(tài)方向上取得了飛速進展。

科技社區(qū)的活動非常熱烈，開源和閉源的模型都變得越來越強大，幾乎每個月都有相關模型發(fā)布，對于他們這些從業(yè)者來說是一種鞭策。

同時，相比于架構(gòu)比較成熟的大語言模型而言，多模態(tài)模型的架構(gòu)并未擁有一個非常確定的結(jié)構(gòu)。

（來源： arXiv ）

各個模塊之間的選擇都有值得探索的地方，這些不確定性讓他們更多是感到十分興奮，也讓他們覺得還有更多的機會。

慶幸的是即便在這種情況下，該團隊也得到了不錯的算力支持和數(shù)據(jù)工程支持。

這讓他們能夠快速迭代，進行更全面的數(shù)據(jù)采集、更好的數(shù)據(jù)清理，并能夠優(yōu)化語言-多模態(tài)數(shù)據(jù)集的配比，以及探索更好的模型結(jié)構(gòu)和訓練策略。

此外，除了開源 7B 模型之外，該團隊同樣也開源了 1.3B 的小模型。

研究人員表示：“DeepSeek-VL 1.3B 小模型的性能同樣強悍，在部分指標上超越了 7B 模型?！?/span>

這些小模型可以滿足算力缺乏型開發(fā)者使用，也更方便在手機等移動終端上部署。

日前，相關論文以《DeepSeek-VL：面向真實世界的視覺語言理解》（ DeepSeek-VL：Towards Real-World Vision-Language Understanding ）為題發(fā)在 arXiv [1]，Haoyu Lu、Wen Liu、Bo Zhang 是共同一作。