首頁 > 行業(yè)資訊 > 科學家建立新評價基準Tapilot-Crossing，助力評估大模型數(shù)據(jù)分析能力

科學家建立新評價基準Tapilot-Crossing，助力評估大模型數(shù)據(jù)分析能力

時間：2024-04-16 來源：瀏覽：

科學家建立新評價基準Tapilot-Crossing，助力評估大模型數(shù)據(jù)分析能力

DeepTech深科技

DeepTech深科技

微信號 deeptechchina

功能介紹 DeepTech 是一家專注新興科技的資源賦能與服務機構，以科學、技術、人才為核心，通過科技數(shù)據(jù)與咨詢、出版與影響力、科創(chuàng)資本實驗室三大業(yè)務板塊，推動科學與技術的創(chuàng)新進程。DeepTech 同時是《麻省理工科技評論》中國區(qū)獨家運營方。

在大數(shù)據(jù)時代，自動數(shù)據(jù)分析已經(jīng)成為跨技術背景人員不可或缺的工具。

以 GPT-4 為代表的大型語言模型，它們已經(jīng)能夠理解自然語言查詢，并能生成相應的代碼或分析，讓自動數(shù)據(jù)分析變得更加接近現(xiàn)實。

例如，Devin 的成功，激發(fā)了人們對基于大語言模型的自動數(shù)據(jù)分析的廣泛興趣。

現(xiàn)有的數(shù)據(jù)集例如 Text2Analysis 和 BIRD-SQL，已經(jīng)在一定程度上衡量了大型語言模型在處理復雜數(shù)據(jù)科學或數(shù)據(jù)分析任務時的能力。

但是，實際中的數(shù)據(jù)分析常常涉及到復雜多輪的人機交互。這是因為人類的查詢往往包含模糊性。

例如，“請列出三個值得注意的對手”中的“值得注意”，就具有多重解釋。

此外，有效的數(shù)據(jù)分析不僅需要生成正確的代碼或答案，還要求模型能夠根據(jù)用戶反饋進行調整，并提供針對結果的深入理解，以便為決策過程提供支持。

鑒于交互性在數(shù)據(jù)分析中的重要性，香港大學博士生 Li Jinyang 和所在團隊，啟動了建立交互式數(shù)據(jù)分析代理的研究項目。

圖 | Li Jinyang（來源：Li Jinyang）

研究中，課題組充分觀察了用戶使用 ChatGPT 的歷史數(shù)據(jù)，總結出了 6 個比較關鍵的智能體行為。

在將觀察結果轉化為研究性問題之后，則要創(chuàng)建支持本次研究的數(shù)據(jù)集。此時，他們發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)集無法滿足研究需求，因此開始自主構建數(shù)據(jù)集。

雖然這類數(shù)據(jù)的生成成本較低、人力需求不高，但是評測方法的開發(fā)卻需要他們逐一校驗，因為數(shù)據(jù)分析的結果并不僅僅依賴于執(zhí)行的一致性。

例如，在生成分類器的問題上，即便參考代碼的執(zhí)行結果和預測代碼的結果不一致，但是根據(jù)常識只要預測代碼沒有問題、甚至表現(xiàn)更好，就應該認定為成功。

因此，他們幾乎為每一個問題都設計了獨立的評測代碼，以確保避免假陰性的發(fā)生。

同時，他們還從模型的角度出發(fā)來思考問題，思考為什么模型犯這樣的錯誤，以及該怎樣避免。

此外，他們也探索了到底使用哪些方法，能讓模型更加關注對于當前問題有價值的歷史信息，以便最大程度地滿足用戶預期。

研究中，他們使用各種大型語言模型來執(zhí)行本次任務，每一個大型語言模型在解決復雜問題時，都展現(xiàn)出了獨特的個性或習慣。

尤其是 GPT-4-Turbo，該團隊發(fā)現(xiàn)它呈現(xiàn)出一種“表現(xiàn)型”人格，這一點在多種測試設置中都得到了體現(xiàn)。

例如，在代碼生成任務中，GPT-4-Turbo 傾向于產(chǎn)生較長的代碼段，有時甚至會創(chuàng)造性地自定義函數(shù)，然后再調用代碼，顯示出一種“炫技”的傾向。

在私有（Private）場景下，GPT-4-Turbo 會更加頻繁地、略帶逞能地使用用戶定義的函數(shù)。

最有趣的例子出現(xiàn)在行為（Action）模式之下，當模型需要針對模糊條件，向用戶提出澄清問題時，例如面對“在所有賬戶中，有好的信用歷史的有多少？”這樣的問題時，其他模型可能只會簡單詢問“什么是好的信用歷史？”

而 GPT-4-Turbo 則會更進一步提出假設性的問題：“好的信用歷史是指他們的信用列包含‘良好信用’，對嗎？”

這表明 GPT-4-Turbo 在提問之前會進行主動思考和假設，這種做法雖然能夠顯示出它的智能和“炫技”，但也有其風險。

假如假設是錯誤的，用戶的回答是否定的，就會讓 GPT-4-Turbo 錯失理解真正模糊條件的機會。

這種“性格”特點雖然在處理復雜任務時，可能會引入錯誤，比如過度調用用戶提供的代碼從而導致執(zhí)行失敗，或者基于錯誤假設來澄清請求，但也會提升人機交互的體驗感。

研究人員逐漸意識到，為了提高人機交互的效率和可靠性，用戶需要適應甚至模仿模型的這些特性。

這種相互適應和學習的過程不僅提高了交互質量，也加深了人們對于智能體“性格”、以及對于交互影響的理解，從而讓模型能夠產(chǎn)生更加符合預期的結果。

整體來看，缺乏交互式數(shù)據(jù)分析的基準——是本次研究面臨的最大問題之一。為了解決這一問題，他們以“斯坦福小鎮(zhèn)”項目為啟發(fā)，創(chuàng)建了“DECISION COMPANY”。

“DECISION COMPANY”是數(shù)據(jù)分析領域的首個多代理沙盒環(huán)境，包含客戶、數(shù)據(jù)科學家、管理員和 AI ChatBot 智能體，通過此研究人員可以模擬數(shù)據(jù)科學家與 ChatBot 智能體的交互。

基于這一環(huán)境，他們開發(fā)了 Tapilot-Crossing 基準，它涵蓋了從常規(guī)代碼生成到處理模糊問題、私有代碼庫集成等多種模式，可以全面評估模型的交互式數(shù)據(jù)分析能力。

這一基準不僅包括代碼生成任務，還設計了多選題任務，要求模型在代碼執(zhí)行后對結果進行理解、歸納和推理，提供有價值的觀點。

盡管 Tapilot-Crossing 已經(jīng)是規(guī)模較大、且較為全面的測試集，其構建成本也低于 100 美元，顯示了利用虛擬多智能體容器生成復雜、高質量數(shù)據(jù)集的潛力。

但是研究人員的實驗顯示，即使配備有效工具和推理的 GPT-4-32k 模型，在該基準上的表現(xiàn)仍然較差（< 30%），這揭示了大型語言模型在交互式場景下的限制。

實驗中他們發(fā)現(xiàn)，這些模型很少反思此前成功的交互信息。當面對類似問題或相關條件，模型要么是依然不停地提問，要么是忽略這些問題和條件。

因此，課題組提出了動態(tài)可遷移的交互反思策略（AIR），以改善模型的交互性能。

在交互過程中，模型可以從成功歷史案例中學習。由此可見，AIR 策略能夠顯著提高模型對于用戶指令的理解和執(zhí)行效果。

總的來說，相比已有的數(shù)據(jù)科學或數(shù)據(jù)分析的學術數(shù)據(jù)集，本次數(shù)據(jù)集有效縮減了學術研究與實際應用之間的差距。

本次數(shù)據(jù)集不僅涵蓋了用戶的明確問題，還包含了模糊問題、用戶自定義函數(shù)等場景，也包括了對于數(shù)據(jù)分析智能體交互行為的綜合評估。

此外，本次數(shù)據(jù)集還能整合現(xiàn)實場景中的多目標用戶指令特點，在平均每輪代碼長度上達到了新高，更加貼近實際的數(shù)據(jù)分析代碼生成任務。

研究中，課題組通過提出 CSE（Creative Self-Efficacy scale，創(chuàng)意自我效能量表）指標，探索了一種經(jīng)濟高效、且能更好反映長代碼生成能力的新型評估方法，為長代碼生成和評估開辟了新途徑。

這就好比高考數(shù)學的壓軸大題，即使有的學生最后結果錯了，但是一些步驟做對了，也會給很多分。

研究中，該團隊還引入了一種經(jīng)濟、高效的 benchmark 生成方法，旨在實現(xiàn)人力與成本投入最小化的同時，還能保證數(shù)據(jù)質量。

這種方法可以有效避免數(shù)據(jù)污染問題，為智能體表現(xiàn)評估提供保障。

同時，研究人員提出的 AIR 策略，其原理在于通過一種簡單有效的反思機制，改善用戶在使用智能交互系統(tǒng)時重復闡述需求等問題。

該策略通過分析上一輪的交互經(jīng)驗、以及學習用戶的偏好，無需額外訓練或搜索示例庫，即可優(yōu)化交互體驗。

這一策略有望在推理相關的交互式智能系統(tǒng)中得到廣泛應用。

日前，相關論文以《Tapilot-Crossing：針對交互式數(shù)據(jù)分析代理的法學碩士的基準測試和發(fā)展》（ Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents ）為題發(fā)在 arXiv [1]，Li Jinyang 是第一作者。

圖 | 相關論文（來源： arXiv ）

下一步，研究人員打算引入更多的數(shù)據(jù)分析語言。目前，本次研究主要集中在給予表格的數(shù)據(jù)分析和 Python 語言上。

但是，他們發(fā)現(xiàn)關系型數(shù)據(jù)庫和 SQL，在數(shù)據(jù)分析中占有不可忽視的重要位置。因此，很有必要將這些元素納入研究范圍。

此外，他們還計劃針對長代碼生成的評價方法加以改進。課題組意識到在當前的評價體系下，即使兩段代碼的執(zhí)行結果相同，它們的實際性能仍然可能存在差異。

因此，其希望開發(fā)更加精細化、更加經(jīng)濟的軟性評價標準，以便更好地區(qū)分代碼的實際表現(xiàn)和潛在價值，從而確保面對在表面上相同的結果時，也能準確反映代碼的真實能力。

參考資料：

1.https://arxiv.org/abs/2403.05307

排版：希幔

01/ 科學家打造綠氫制備新方法，每千瓦僅使用0.04克釕，所產(chǎn)綠氫單位價格逼近煤制氫價格

02/ 科學家造出新型可降解離子彈性體，室溫愈合效率大于99%，可用于數(shù)字光處理三維打印

03/ 獨家專訪ASML CTO：不相信摩爾定律會終結，公司下一個大戰(zhàn)略將是超數(shù)值孔徑光刻機

04/ 科學家為材料設計打造深度學習框架，無需先驗知識，實現(xiàn)熱輻射器的材料選擇和參數(shù)優(yōu)化

05/ 科學家制備納米片超晶格，縱向厚度僅2.5nm且結構穩(wěn)定均一，讓LED可直接發(fā)射強線性偏振光

上一條：科學家證明非常規(guī)反鐵磁體的存在，未來或可用于自旋電子學等領域

下一條：返回列表

版權：如無特殊注明，文章轉載自網(wǎng)絡，侵權請聯(lián)系cnmhg168#163.com刪除！文件均為網(wǎng)友上傳，僅供研究和學習使用，務必24小時內刪除。

国产aaaa级全身裸体精油片_337p人体粉嫩久久久红粉影视_一区中文字幕在线观看_国产亚洲精品一区二区_欧美裸体男粗大1609_午夜亚洲激情电影av_黄色小说入口_日本精品久久久久中文字幕_少妇思春三a级_亚洲视频自拍偷拍

科學家建立新評價基準Tapilot-Crossing，助力評估大模型數(shù)據(jù)分析能力

科學家建立新評價基準Tapilot-Crossing，助力評估大模型數(shù)據(jù)分析能力

微信公眾號

小編微信

国产aaaa级全身裸体精油片_337p人体粉嫩久久久红粉影视_一区中文字幕在线观看_国产亚洲精品一区二区_欧美裸体男粗大1609_午夜亚洲激情电影av_黄色小说入口_日本精品久久久久中文字幕_少妇思春三a级_亚洲视频自拍偷拍

科學家建立新評價基準Tapilot-Crossing，助力評估大模型數(shù)據(jù)分析能力

科學家建立新評價基準Tapilot-Crossing，助力評估大模型數(shù)據(jù)分析能力