科學家建立新評價基準Tapilot-Crossing,助力評估大模型數(shù)據(jù)分析能力
科學家建立新評價基準Tapilot-Crossing,助力評估大模型數(shù)據(jù)分析能力
deeptechchina
DeepTech 是一家專注新興科技的資源賦能與服務機構,以科學、技術、人才為核心,通過科技數(shù)據(jù)與咨詢、出版與影響力、科創(chuàng)資本實驗室三大業(yè)務板塊,推動科學與技術的創(chuàng)新進程。DeepTech 同時是《麻省理工科技評論》中國區(qū)獨家運營方。
在大數(shù)據(jù)時代,自動數(shù)據(jù)分析已經(jīng)成為跨技術背景人員不可或缺的工具。
以 GPT-4 為代表的大型語言模型,它們已經(jīng)能夠理解自然語言查詢,并能生成相應的代碼或分析,讓自動數(shù)據(jù)分析變得更加接近現(xiàn)實。
例如,Devin 的成功,激發(fā)了人們對基于大語言模型的自動數(shù)據(jù)分析的廣泛興趣。
現(xiàn)有的數(shù)據(jù)集例如 Text2Analysis 和 BIRD-SQL,已經(jīng)在一定程度上衡量了大型語言模型在處理復雜數(shù)據(jù)科學或數(shù)據(jù)分析任務時的能力。
但是,實際中的數(shù)據(jù)分析常常涉及到復雜多輪的人機交互。這是因為人類的查詢往往包含模糊性。
例如,“請列出三個值得注意的對手”中的“值得注意”,就具有多重解釋。
此外,有效的數(shù)據(jù)分析不僅需要生成正確的代碼或答案,還要求模型能夠根據(jù)用戶反饋進行調整,并提供針對結果的深入理解,以便為決策過程提供支持。
鑒于交互性在數(shù)據(jù)分析中的重要性,香港大學博士生 Li Jinyang 和所在團隊,啟動了建立交互式數(shù)據(jù)分析代理的研究項目。
圖 | Li Jinyang(來源:Li Jinyang)
研究中,課題組充分觀察了用戶使用 ChatGPT 的歷史數(shù)據(jù),總結出了 6 個比較關鍵的智能體行為。
在將觀察結果轉化為研究性問題之后,則要創(chuàng)建支持本次研究的數(shù)據(jù)集。此時,他們發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)集無法滿足研究需求,因此開始自主構建數(shù)據(jù)集。
雖然這類數(shù)據(jù)的生成成本較低、人力需求不高,但是評測方法的開發(fā)卻需要他們逐一校驗,因為數(shù)據(jù)分析的結果并不僅僅依賴于執(zhí)行的一致性。
例如,在生成分類器的問題上,即便參考代碼的執(zhí)行結果和預測代碼的結果不一致,但是根據(jù)常識只要預測代碼沒有問題、甚至表現(xiàn)更好,就應該認定為成功。
因此,他們幾乎為每一個問題都設計了獨立的評測代碼,以確保避免假陰性的發(fā)生。
同時,他們還從模型的角度出發(fā)來思考問題,思考為什么模型犯這樣的錯誤,以及該怎樣避免。
此外,他們也探索了到底使用哪些方法,能讓模型更加關注對于當前問題有價值的歷史信息,以便最大程度地滿足用戶預期。
研究中,他們使用各種大型語言模型來執(zhí)行本次任務,每一個大型語言模型在解決復雜問題時,都展現(xiàn)出了獨特的個性或習慣。
尤其是 GPT-4-Turbo,該團隊發(fā)現(xiàn)它呈現(xiàn)出一種“表現(xiàn)型”人格,這一點在多種測試設置中都得到了體現(xiàn)。
例如,在代碼生成任務中,GPT-4-Turbo 傾向于產(chǎn)生較長的代碼段,有時甚至會創(chuàng)造性地自定義函數(shù),然后再調用代碼,顯示出一種“炫技”的傾向。
在私有(Private)場景下,GPT-4-Turbo 會更加頻繁地、略帶逞能地使用用戶定義的函數(shù)。
最有趣的例子出現(xiàn)在行為(Action)模式之下,當模型需要針對模糊條件,向用戶提出澄清問題時,例如面對“在所有賬戶中,有好的信用歷史的有多少?”這樣的問題時,其他模型可能只會簡單詢問“什么是好的信用歷史?”
而 GPT-4-Turbo 則會更進一步提出假設性的問題:“好的信用歷史是指他們的信用列包含‘良好信用’,對嗎?”
這表明 GPT-4-Turbo 在提問之前會進行主動思考和假設,這種做法雖然能夠顯示出它的智能和“炫技”,但也有其風險。
假如假設是錯誤的,用戶的回答是否定的,就會讓 GPT-4-Turbo 錯失理解真正模糊條件的機會。
這種“性格”特點雖然在處理復雜任務時,可能會引入錯誤,比如過度調用用戶提供的代碼從而導致執(zhí)行失敗,或者基于錯誤假設來澄清請求,但也會提升人機交互的體驗感。
研究人員逐漸意識到,為了提高人機交互的效率和可靠性,用戶需要適應甚至模仿模型的這些特性。
這種相互適應和學習的過程不僅提高了交互質量,也加深了人們對于智能體“性格”、以及對于交互影響的理解,從而讓模型能夠產(chǎn)生更加符合預期的結果。
整體來看,缺乏交互式數(shù)據(jù)分析的基準——是本次研究面臨的最大問題之一。為了解決這一問題,他們以“斯坦福小鎮(zhèn)”項目為啟發(fā),創(chuàng)建了“DECISION COMPANY”。
“DECISION COMPANY”是數(shù)據(jù)分析領域的首個多代理沙盒環(huán)境,包含客戶、數(shù)據(jù)科學家、管理員和 AI ChatBot 智能體,通過此研究人員可以模擬數(shù)據(jù)科學家與
ChatBot
智能體的交互。
基于這一環(huán)境,他們開發(fā)了 Tapilot-Crossing 基準,它涵蓋了從常規(guī)代碼生成到處理模糊問題、私有代碼庫集成等多種模式,可以全面評估模型的交互式數(shù)據(jù)分析能力。
這一基準不僅包括代碼生成任務,還設計了多選題任務,要求模型在代碼執(zhí)行后對結果進行理解、歸納和推理,提供有價值的觀點。
盡管 Tapilot-Crossing 已經(jīng)是規(guī)模較大、且較為全面的測試集,其構建成本也低于 100 美元,顯示了利用虛擬多智能體容器生成復雜、高質量數(shù)據(jù)集的潛力。
但是研究人員的實驗顯示,即使配備有效工具和推理的 GPT-4-32k 模型,在該基準上的表現(xiàn)仍然較差(< 30%),這揭示了大型語言模型在交互式場景下的限制。
實驗中他們發(fā)現(xiàn),這些模型很少反思此前成功的交互信息。當面對類似問題或相關條件,模型要么是依然不停地提問,要么是忽略這些問題和條件。
因此,課題組提出了動態(tài)可遷移的交互反思策略(AIR),以改善模型的交互性能。
在交互過程中,模型可以從成功歷史案例中學習。由此可見,AIR 策略能夠顯著提高模型對于用戶指令的理解和執(zhí)行效果。
總的來說,相比已有的數(shù)據(jù)科學或數(shù)據(jù)分析的學術數(shù)據(jù)集,本次數(shù)據(jù)集有效縮減了學術研究與實際應用之間的差距。
本次數(shù)據(jù)集不僅涵蓋了用戶的明確問題,還包含了模糊問題、用戶自定義函數(shù)等場景,也包括了對于數(shù)據(jù)分析智能體交互行為的綜合評估。
此外,本次數(shù)據(jù)集還能整合現(xiàn)實場景中的多目標用戶指令特點,在平均每輪代碼長度上達到了新高,更加貼近實際的數(shù)據(jù)分析代碼生成任務。
研究中,課題組通過提出 CSE(Creative Self-Efficacy scale,創(chuàng)意自我效能量表)指標,探索了一種經(jīng)濟高效、且能更好反映長代碼生成能力的新型評估方法,為長代碼生成和評估開辟了新途徑。
這就好比高考數(shù)學的壓軸大題,即使有的學生最后結果錯了,但是一些步驟做對了,也會給很多分。
研究中,該團隊還引入了一種經(jīng)濟、高效的 benchmark 生成方法,旨在實現(xiàn)人力與成本投入最小化的同時,還能保證數(shù)據(jù)質量。
這種方法可以有效避免數(shù)據(jù)污染問題,為智能體表現(xiàn)評估提供保障。
同時,研究人員提出的 AIR 策略,其原理在于通過一種簡單有效的反思機制,改善用戶在使用智能交互系統(tǒng)時重復闡述需求等問題。
該策略通過分析上一輪的交互經(jīng)驗、以及學習用戶的偏好,無需額外訓練或搜索示例庫,即可優(yōu)化交互體驗。
這一策略有望在推理相關的交互式智能系統(tǒng)中得到廣泛應用。
日前,相關論文以《Tapilot-Crossing:針對交互式數(shù)據(jù)分析代理的法學碩士的基準測試和發(fā)展》(
Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents
)為題發(fā)在
arXiv
[1],Li Jinyang 是第一作者。
圖 | 相關論文(來源:
arXiv
)
下一步,研究人員打算引入更多的數(shù)據(jù)分析語言。目前,本次研究主要集中在給予表格的數(shù)據(jù)分析和 Python 語言上。
但是,他們發(fā)現(xiàn)關系型數(shù)據(jù)庫和 SQL,在數(shù)據(jù)分析中占有不可忽視的重要位置。因此,很有必要將這些元素納入研究范圍。
此外,他們還計劃針對長代碼生成的評價方法加以改進。課題組意識到在當前的評價體系下,即使兩段代碼的執(zhí)行結果相同,它們的實際性能仍然可能存在差異。
因此,其希望開發(fā)更加精細化、更加經(jīng)濟的軟性評價標準,以便更好地區(qū)分代碼的實際表現(xiàn)和潛在價值,從而確保面對在表面上相同的結果時,也能準確反映代碼的真實能力。
-
2023年血糖新標準公布,不是3.9-6.1,快來看看你的血糖正常嗎? 2023-02-07
-
2023年各省最新電價一覽!8省中午執(zhí)行谷段電價! 2023-01-03
-
PPT導出高分辨率圖片的四種方法 2022-09-22
-
2023年最新!國家電網(wǎng)27家省級電力公司負責人大盤點 2023-03-14
-
全國消防救援總隊主官及簡歷(2023.2) 2023-02-10
-
盤點 l 中國石油大慶油田現(xiàn)任領導班子 2023-02-28
-
我們的前輩!歷屆全國工程勘察設計大師完整名單! 2022-11-18
-
關于某送變電公司“4·22”人身死亡事故的快報 2022-04-26
