国产aaaa级全身裸体精油片_337p人体粉嫩久久久红粉影视_一区中文字幕在线观看_国产亚洲精品一区二区_欧美裸体男粗大1609_午夜亚洲激情电影av_黄色小说入口_日本精品久久久久中文字幕_少妇思春三a级_亚洲视频自拍偷拍

首頁 > 行業(yè)資訊 > 科學家建立新評價基準Tapilot-Crossing,助力評估大模型數(shù)據(jù)分析能力

科學家建立新評價基準Tapilot-Crossing,助力評估大模型數(shù)據(jù)分析能力

時間:2024-04-16 來源: 瀏覽:

科學家建立新評價基準Tapilot-Crossing,助力評估大模型數(shù)據(jù)分析能力

DeepTech深科技
DeepTech深科技

deeptechchina

DeepTech 是一家專注新興科技的資源賦能與服務機構,以科學、技術、人才為核心,通過科技數(shù)據(jù)與咨詢、出版與影響力、科創(chuàng)資本實驗室三大業(yè)務板塊,推動科學與技術的創(chuàng)新進程。DeepTech 同時是《麻省理工科技評論》中國區(qū)獨家運營方。

在大數(shù)據(jù)時代,自動數(shù)據(jù)分析已經(jīng)成為跨技術背景人員不可或缺的工具。

以 GPT-4 為代表的大型語言模型,它們已經(jīng)能夠理解自然語言查詢,并能生成相應的代碼或分析,讓自動數(shù)據(jù)分析變得更加接近現(xiàn)實。

例如,Devin 的成功,激發(fā)了人們對基于大語言模型的自動數(shù)據(jù)分析的廣泛興趣。

現(xiàn)有的數(shù)據(jù)集例如 Text2Analysis 和 BIRD-SQL,已經(jīng)在一定程度上衡量了大型語言模型在處理復雜數(shù)據(jù)科學或數(shù)據(jù)分析任務時的能力。

但是,實際中的數(shù)據(jù)分析常常涉及到復雜多輪的人機交互。這是因為人類的查詢往往包含模糊性。

例如,“請列出三個值得注意的對手”中的“值得注意”,就具有多重解釋。

此外,有效的數(shù)據(jù)分析不僅需要生成正確的代碼或答案,還要求模型能夠根據(jù)用戶反饋進行調整,并提供針對結果的深入理解,以便為決策過程提供支持。

鑒于交互性在數(shù)據(jù)分析中的重要性,香港大學博士生 Li Jinyang 和所在團隊,啟動了建立交互式數(shù)據(jù)分析代理的研究項目。

圖 | Li Jinyang(來源:Li Jinyang)

研究中,課題組充分觀察了用戶使用 ChatGPT 的歷史數(shù)據(jù),總結出了 6 個比較關鍵的智能體行為。

在將觀察結果轉化為研究性問題之后,則要創(chuàng)建支持本次研究的數(shù)據(jù)集。此時,他們發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)集無法滿足研究需求,因此開始自主構建數(shù)據(jù)集。

雖然這類數(shù)據(jù)的生成成本較低、人力需求不高,但是評測方法的開發(fā)卻需要他們逐一校驗,因為數(shù)據(jù)分析的結果并不僅僅依賴于執(zhí)行的一致性。

例如,在生成分類器的問題上,即便參考代碼的執(zhí)行結果和預測代碼的結果不一致,但是根據(jù)常識只要預測代碼沒有問題、甚至表現(xiàn)更好,就應該認定為成功。

因此,他們幾乎為每一個問題都設計了獨立的評測代碼,以確保避免假陰性的發(fā)生。

同時,他們還從模型的角度出發(fā)來思考問題,思考為什么模型犯這樣的錯誤,以及該怎樣避免。

此外,他們也探索了到底使用哪些方法,能讓模型更加關注對于當前問題有價值的歷史信息,以便最大程度地滿足用戶預期。

研究中,他們使用各種大型語言模型來執(zhí)行本次任務,每一個大型語言模型在解決復雜問題時,都展現(xiàn)出了獨特的個性或習慣。

尤其是 GPT-4-Turbo,該團隊發(fā)現(xiàn)它呈現(xiàn)出一種“表現(xiàn)型”人格,這一點在多種測試設置中都得到了體現(xiàn)。

例如,在代碼生成任務中,GPT-4-Turbo 傾向于產(chǎn)生較長的代碼段,有時甚至會創(chuàng)造性地自定義函數(shù),然后再調用代碼,顯示出一種“炫技”的傾向。

在私有(Private)場景下,GPT-4-Turbo 會更加頻繁地、略帶逞能地使用用戶定義的函數(shù)。

最有趣的例子出現(xiàn)在行為(Action)模式之下,當模型需要針對模糊條件,向用戶提出澄清問題時,例如面對“在所有賬戶中,有好的信用歷史的有多少?”這樣的問題時,其他模型可能只會簡單詢問“什么是好的信用歷史?”

而 GPT-4-Turbo 則會更進一步提出假設性的問題:“好的信用歷史是指他們的信用列包含‘良好信用’,對嗎?”

這表明 GPT-4-Turbo 在提問之前會進行主動思考和假設,這種做法雖然能夠顯示出它的智能和“炫技”,但也有其風險。

假如假設是錯誤的,用戶的回答是否定的,就會讓 GPT-4-Turbo 錯失理解真正模糊條件的機會。

這種“性格”特點雖然在處理復雜任務時,可能會引入錯誤,比如過度調用用戶提供的代碼從而導致執(zhí)行失敗,或者基于錯誤假設來澄清請求,但也會提升人機交互的體驗感。

研究人員逐漸意識到,為了提高人機交互的效率和可靠性,用戶需要適應甚至模仿模型的這些特性。

這種相互適應和學習的過程不僅提高了交互質量,也加深了人們對于智能體“性格”、以及對于交互影響的理解,從而讓模型能夠產(chǎn)生更加符合預期的結果。

整體來看,缺乏交互式數(shù)據(jù)分析的基準——是本次研究面臨的最大問題之一。為了解決這一問題,他們以“斯坦福小鎮(zhèn)”項目為啟發(fā),創(chuàng)建了“DECISION COMPANY”。

“DECISION COMPANY”是數(shù)據(jù)分析領域的首個多代理沙盒環(huán)境,包含客戶、數(shù)據(jù)科學家、管理員和 AI ChatBot 智能體,通過此研究人員可以模擬數(shù)據(jù)科學家與  ChatBot  智能體的交互。

基于這一環(huán)境,他們開發(fā)了 Tapilot-Crossing 基準,它涵蓋了從常規(guī)代碼生成到處理模糊問題、私有代碼庫集成等多種模式,可以全面評估模型的交互式數(shù)據(jù)分析能力。

這一基準不僅包括代碼生成任務,還設計了多選題任務,要求模型在代碼執(zhí)行后對結果進行理解、歸納和推理,提供有價值的觀點。

盡管 Tapilot-Crossing 已經(jīng)是規(guī)模較大、且較為全面的測試集,其構建成本也低于 100 美元,顯示了利用虛擬多智能體容器生成復雜、高質量數(shù)據(jù)集的潛力。

但是研究人員的實驗顯示,即使配備有效工具和推理的 GPT-4-32k 模型,在該基準上的表現(xiàn)仍然較差(< 30%),這揭示了大型語言模型在交互式場景下的限制。

實驗中他們發(fā)現(xiàn),這些模型很少反思此前成功的交互信息。當面對類似問題或相關條件,模型要么是依然不停地提問,要么是忽略這些問題和條件。

因此,課題組提出了動態(tài)可遷移的交互反思策略(AIR),以改善模型的交互性能。

在交互過程中,模型可以從成功歷史案例中學習。由此可見,AIR 策略能夠顯著提高模型對于用戶指令的理解和執(zhí)行效果。

總的來說,相比已有的數(shù)據(jù)科學或數(shù)據(jù)分析的學術數(shù)據(jù)集,本次數(shù)據(jù)集有效縮減了學術研究與實際應用之間的差距。

本次數(shù)據(jù)集不僅涵蓋了用戶的明確問題,還包含了模糊問題、用戶自定義函數(shù)等場景,也包括了對于數(shù)據(jù)分析智能體交互行為的綜合評估。

此外,本次數(shù)據(jù)集還能整合現(xiàn)實場景中的多目標用戶指令特點,在平均每輪代碼長度上達到了新高,更加貼近實際的數(shù)據(jù)分析代碼生成任務。

研究中,課題組通過提出 CSE(Creative Self-Efficacy scale,創(chuàng)意自我效能量表)指標,探索了一種經(jīng)濟高效、且能更好反映長代碼生成能力的新型評估方法,為長代碼生成和評估開辟了新途徑。

這就好比高考數(shù)學的壓軸大題,即使有的學生最后結果錯了,但是一些步驟做對了,也會給很多分。

研究中,該團隊還引入了一種經(jīng)濟、高效的 benchmark 生成方法,旨在實現(xiàn)人力與成本投入最小化的同時,還能保證數(shù)據(jù)質量。

這種方法可以有效避免數(shù)據(jù)污染問題,為智能體表現(xiàn)評估提供保障。

同時,研究人員提出的 AIR 策略,其原理在于通過一種簡單有效的反思機制,改善用戶在使用智能交互系統(tǒng)時重復闡述需求等問題。

該策略通過分析上一輪的交互經(jīng)驗、以及學習用戶的偏好,無需額外訓練或搜索示例庫,即可優(yōu)化交互體驗。

這一策略有望在推理相關的交互式智能系統(tǒng)中得到廣泛應用。

日前,相關論文以《Tapilot-Crossing:針對交互式數(shù)據(jù)分析代理的法學碩士的基準測試和發(fā)展》( Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents )為題發(fā)在 arXiv [1],Li Jinyang 是第一作者。

圖 | 相關論文(來源: arXiv

下一步,研究人員打算引入更多的數(shù)據(jù)分析語言。目前,本次研究主要集中在給予表格的數(shù)據(jù)分析和 Python 語言上。

但是,他們發(fā)現(xiàn)關系型數(shù)據(jù)庫和 SQL,在數(shù)據(jù)分析中占有不可忽視的重要位置。因此,很有必要將這些元素納入研究范圍。

此外,他們還計劃針對長代碼生成的評價方法加以改進。課題組意識到在當前的評價體系下,即使兩段代碼的執(zhí)行結果相同,它們的實際性能仍然可能存在差異。

因此,其希望開發(fā)更加精細化、更加經(jīng)濟的軟性評價標準,以便更好地區(qū)分代碼的實際表現(xiàn)和潛在價值,從而確保面對在表面上相同的結果時,也能準確反映代碼的真實能力。

參考資料:
1.https://arxiv.org/abs/2403.05307
排版:希幔
01/  科學家打造綠氫制備新方法,每千瓦僅使用0.04克釕,所產(chǎn)綠氫單位價格逼近煤制氫價格
02/  科學家造出新型可降解離子彈性體,室溫愈合效率大于99%,可用于數(shù)字光處理三維打印
03/  獨家專訪ASML CTO:不相信摩爾定律會終結,公司下一個大戰(zhàn)略將是超數(shù)值孔徑光刻機
04/  科學家為材料設計打造深度學習框架,無需先驗知識,實現(xiàn)熱輻射器的材料選擇和參數(shù)優(yōu)化
05/  科學家制備納米片超晶格,縱向厚度僅2.5nm且結構穩(wěn)定均一,讓LED可直接發(fā)射強線性偏振光

下一條:返回列表
版權:如無特殊注明,文章轉載自網(wǎng)絡,侵權請聯(lián)系cnmhg168#163.com刪除!文件均為網(wǎng)友上傳,僅供研究和學習使用,務必24小時內刪除。
相關推薦