首頁 > 行業(yè)資訊 > 關(guān)于 LLM Pre-training（預(yù)訓(xùn)練），你所應(yīng)該了解的【大模型行業(yè)應(yīng)用入門系列】

關(guān)于 LLM Pre-training（預(yù)訓(xùn)練），你所應(yīng)該了解的【大模型行業(yè)應(yīng)用入門系列】

時間：2024-04-20 來源：瀏覽：

關(guān)于 LLM Pre-training（預(yù)訓(xùn)練），你所應(yīng)該了解的【大模型行業(yè)應(yīng)用入門系列】

原創(chuàng) twt社區(qū) twt企業(yè)IT社區(qū)

twt企業(yè)IT社區(qū)

微信號 talkwithtrend

功能介紹 talkwithtrend.com社區(qū)（即twt社區(qū)）官方公眾號，持續(xù)發(fā)布優(yōu)秀社區(qū)原創(chuàng)內(nèi)容。內(nèi)容深度服務(wù)企業(yè)內(nèi)各方向的架構(gòu)師、運維主管、開發(fā)和運維工程師等IT專業(yè)崗位人群，讓您時刻和國內(nèi)企業(yè)IT同行保持信息同步。

【大模型行業(yè)應(yīng)用入門系列】 NO.6

【摘要】 本文介紹了Pre-training（預(yù)訓(xùn)練）的定義、基本步驟與預(yù)訓(xùn)練的價值和意義，為讀者進一步了解微調(diào)技術(shù)打下基礎(chǔ)。

【作者】 李杰， 專注于Java虛擬機技術(shù)、云原生技術(shù)領(lǐng)域的探索與研究。

*本文是【大模型行業(yè)應(yīng)用入門系列】系列的第6篇文章。下篇預(yù)告：一文讀懂LLM Fine Tuning（微調(diào)），歡迎關(guān)注。了解本系列和閱讀其他系列文章請看文末。

在開發(fā)生成式人工智能應(yīng)用程序時，選擇合適的模型是一個關(guān)鍵的決策步驟。通常有兩種可選方案：利用現(xiàn)有的預(yù)訓(xùn)練模型或者從頭開始訓(xùn)練全新的模型。但在大多數(shù)實際場景下，研究人員和工程師都 更傾向于從現(xiàn)有的基礎(chǔ)模型出發(fā)，而不是自頭構(gòu)建一個全新的模型。

這主要是出于以下幾方面考慮：

1.現(xiàn)有的預(yù)訓(xùn)練模型通常經(jīng)過了大規(guī)模數(shù)據(jù)集的訓(xùn)練，已經(jīng)學(xué)習(xí)到了許多有價值的通用特征和知識表示。利用這些模型作為起點，可以大大縮短開發(fā)周期，并獲得不錯的初始性能。相比之下，從頭開始訓(xùn)練一個全新模型需要投入大量的時間和計算資源，且最終性能也存在不確定性。

2.業(yè)界已經(jīng)有許多優(yōu)質(zhì)的開源預(yù)訓(xùn)練模型可供選擇，比如 Hugging Face 和 PyTorch 提供的模型中心。這些平臺不僅擁有豐富的模型庫，還為每個模型都配備了詳細(xì)的 " 模型卡 ” ，包括模型的具體用途、訓(xùn)練方法、局限性等關(guān)鍵信息，為開發(fā)者提供了很好的參考依據(jù)。

3.此外，基于現(xiàn)有預(yù)訓(xùn)練模型可以進行微調(diào)和定制化，能夠讓開發(fā)者將更多精力集中在應(yīng)用創(chuàng)新和優(yōu)化上，而不必過多地關(guān)注底層模型的訓(xùn)練和調(diào)試等工作，從而提高開發(fā)效率和最終應(yīng)用的性能。

一. 什么是LLM訓(xùn)練？

LLM Training 是指大型語言模型（LLM）的訓(xùn)練過程。作為一種采用超大規(guī)模數(shù)據(jù)進行預(yù)訓(xùn)練的深度學(xué)習(xí)模型，LLM 訓(xùn)練目標(biāo)是培養(yǎng)出一個能夠理解和生成自然語言文本的模型。在這個過程中，LLM 通過處理海量文本數(shù)據(jù)來學(xué)習(xí)語言的規(guī)律、語義和上下文關(guān)系等訓(xùn)練方式，可以獲得豐富的語言知識和智能，從而使得能夠自動理解和生成人類語言。

通常而言，這種訓(xùn)練過程通常需要大量的計算資源和時間，以便模型能夠充分地學(xué)習(xí)語言的各個方面。LLM Training 的結(jié)果是一個高度智能和適應(yīng)性強的語言模型，可以應(yīng)用于各種自然語言處理任務(wù)，如機器翻譯、文本生成、對話系統(tǒng)等不同場景領(lǐng)域以支撐業(yè)務(wù)發(fā)展。

二. 什么是Pre-training（預(yù)訓(xùn)練）？

Pre-training（預(yù)訓(xùn)練）是深度學(xué)習(xí)領(lǐng)域中一個非常重要的概念。以無監(jiān)督的方式在大規(guī)模文本數(shù)據(jù)上預(yù)先訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，讓模型學(xué)習(xí)到通用的語言理解能力和知識表示。這個預(yù)訓(xùn)練階段目標(biāo)是讓語言模型具備基礎(chǔ)語言能力的關(guān)鍵步驟。

預(yù)訓(xùn)練的主要優(yōu)勢在于，允許模型利用之前在大數(shù)據(jù)集上學(xué)習(xí)到的經(jīng)驗知識，而不是完全從頭開始。這種遷移學(xué)習(xí)的方式大大提高了模型在新任務(wù)上的學(xué)習(xí)效率和性能。就像人類可以利用之前的經(jīng)驗來快速掌握新事物一樣，預(yù)訓(xùn)練過的模型也能夠更有效地解決新的問題，從而獲益于之前的廣泛訓(xùn)練。

然而，盡管預(yù)訓(xùn)練模型具備相當(dāng)廣泛的核心知識和能力，但通常還缺乏專業(yè)性和針對性。比如一個通用的語言模型可以勝任各種基礎(chǔ)的語言理解和生成任務(wù)，但如果要達到會話技能、專業(yè)文本生成等更高層次的熟練程度，還需要進一步的專門訓(xùn)練和微調(diào)。

因此，在實際應(yīng)用場景中，預(yù)訓(xùn)練通常只是開發(fā)AI系統(tǒng)的初始步驟。后續(xù)還需要根據(jù)具體需求，采用監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)等方法對預(yù)訓(xùn)練模型進行進一步的微調(diào)和專項訓(xùn)練，以獲得滿足特定任務(wù)要求的專業(yè)水平。只有通過這樣的多階段學(xué)習(xí)過程，語言模型才能最終達到人類水平的對話技能、內(nèi)容創(chuàng)作等能力。

三. 關(guān)于LLM Pre-training（預(yù)訓(xùn)練）的定義

通常來講，預(yù)訓(xùn)練的LLM目前尚不適合在高度專業(yè)化的領(lǐng)域使用，因為它們?nèi)狈@些領(lǐng)域的深入背景知識。在這種情況下，我們需要使用監(jiān)督微調(diào)（SFT）和人類反饋強化學(xué)習(xí)（RLHF）來構(gòu)建適合于特定領(lǐng)域的預(yù)訓(xùn)練模型，以滿足特定的場景需求。

要克服這一問題，通常需要采用監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)和人類反饋強化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)等技術(shù)手段，在現(xiàn)有預(yù)訓(xùn)練模型的基礎(chǔ)上，進一步使用小規(guī)模的專業(yè)領(lǐng)域數(shù)據(jù)和人類反饋進行定制化培訓(xùn)，使其能夠勝任特定的高專業(yè)化任務(wù)。

圖：高水平的LLM 預(yù)訓(xùn)練

Fine-Tuning （微調(diào) ）是一個監(jiān)督學(xué)習(xí)過程，它只需要相對較小的標(biāo)記數(shù)據(jù)集。使用已經(jīng)預(yù)先訓(xùn)練的模型可以利用這樣的小型數(shù)據(jù)集進行額外訓(xùn)練。換句話說，如果我們選擇從頭開始訓(xùn)練一個未經(jīng)預(yù)訓(xùn)練的深度學(xué)習(xí)模型，我們將需要收集大量數(shù)據(jù)集來訓(xùn)練它以實現(xiàn)所期望的任務(wù)。由于預(yù)訓(xùn)練模型已經(jīng)具有初始知識，因此在較小的數(shù)據(jù)集上進行微調(diào)變得更加容易。

相比之下，從頭開始為特定用例訓(xùn)練非預(yù)訓(xùn)練的深度學(xué)習(xí)模型需要更多的數(shù)據(jù)、訓(xùn)練時間和資源。因此，LLM預(yù)訓(xùn)練提供了一種更快速且更具成本效益的方法來提高模型性能。

四. LLM Pre-training（預(yù)訓(xùn)練）基本步驟

在機器學(xué)習(xí)的預(yù)訓(xùn)練階段，模型通過以一種專注的方式預(yù)測文本中的下一個單詞來進行學(xué)習(xí)，這被稱為模型的預(yù)訓(xùn)練目標(biāo)。然而，經(jīng)過預(yù)訓(xùn)練的模型目前還無法理解提供給它的說明或問題，因此需要進行監(jiān)督微調(diào)（SFT）和人類反饋強化學(xué)習(xí)（RLHF）步驟，以使其適應(yīng)現(xiàn)實世界的人工智能應(yīng)用，例如作為聊天機器人。正如前面提到的，預(yù)訓(xùn)練可以幫助以更低的成本和更快的速度完成這些步驟。以下是實施這些步驟的詳細(xì)步驟：

1．Data Collection（數(shù)據(jù)采集）

在LLM Pre-training 活動中，Data Collection指的是收集用于LLM預(yù)訓(xùn)練的數(shù)據(jù)的過程。在LLM預(yù)訓(xùn)練中，需要大量的無標(biāo)簽文本數(shù)據(jù)來訓(xùn)練模型以學(xué)習(xí)語言的潛在結(jié)構(gòu)和規(guī)律。LLM預(yù)訓(xùn)練數(shù)據(jù)的收集通常涉及數(shù)據(jù)源選擇、數(shù)據(jù)獲取、數(shù)據(jù)規(guī)模及類型等，數(shù)據(jù)的多樣性有助于模型學(xué)習(xí)廣泛的語言模式和概念。

通過LLM Pre-training Data Collection，可以獲取大規(guī)模的無標(biāo)簽文本數(shù)據(jù)，為后續(xù)的LLM預(yù)訓(xùn)練提供足夠的訓(xùn)練樣本。這使得模型能夠從大量的數(shù)據(jù)中學(xué)習(xí)語言的統(tǒng)計規(guī)律、語義表示和上下文理解，為各種自然語言處理任務(wù)提供了更好的基礎(chǔ)。

2．Datasets Cleaning（數(shù)據(jù)集清洗）

LLM Pre-training Cleaning指的是在LLM預(yù)訓(xùn)練過程中對數(shù)據(jù)進行清洗和處理的步驟。由于預(yù)訓(xùn)練數(shù)據(jù)可能包含噪音、錯誤或不需要的內(nèi)容，進行數(shù)據(jù)清洗是確保數(shù)據(jù)質(zhì)量和模型性能的關(guān)鍵步驟。

LLM Pre-training Cleaning的主要目標(biāo)是去除數(shù)據(jù)中的噪音和不必要的信息，以準(zhǔn)備干凈、一致和可靠的數(shù)據(jù)供模型進行預(yù)訓(xùn)練。

通過LLM Pre-training Cleaning，可以獲得干凈、一致且高質(zhì)量的數(shù)據(jù)集，有助于提高模型的預(yù)訓(xùn)練效果和泛化能力。清洗后的數(shù)據(jù)可以更好地捕捉語言的統(tǒng)計規(guī)律和語義表示，為模型提供更準(zhǔn)確和可靠的語言知識。

3．Tokenization（標(biāo)簽化）

LLM Pre-training Tokenization是指在LLM預(yù)訓(xùn)練過程中對文本進行分詞的過程。分詞構(gòu)成連續(xù)的文本序列劃分為單個的標(biāo)記（tokens）或子詞（subwords）的過程，該模型能夠理解和處理文本數(shù)據(jù)。

LLM預(yù)訓(xùn)練使用多種分詞方法，包括BPE、WordPiece、SentencePiece等。這些方法通過將詞匯單元劃分為更小的子詞單元，以處理詞匯中的復(fù)雜性和多樣性。這樣做的好處是可以更很好地處理未登錄詞（詞匯外）和罕見詞匯，同時減少模型需要處理的標(biāo)記數(shù)量。

在LLM預(yù)訓(xùn)練中，文本被分解為一系列的標(biāo)記或子詞，每個標(biāo)記或子詞都被賦予一個唯一的標(biāo)識符。這些標(biāo)記成為模型輸入的基本單位，模型根據(jù)這些標(biāo)記來學(xué)習(xí)文本的結(jié)構(gòu)和語義。

LLM Pre-training Tokenization的目的是將文本數(shù)據(jù)轉(zhuǎn)換為模型能夠理解和處理的輸入形式，以便進行后續(xù)的預(yù)訓(xùn)練過程。通過合適的分詞方法，能夠更好地捕捉文本的語義信息，并提高模型在各種語言和任務(wù)上的泛化能力。

4．Architecture Selection（架構(gòu)選型）

LLM Pre-training Architecture Selection指的是在LLM預(yù)訓(xùn)練中選擇適當(dāng)?shù)哪Ｐ图軜?gòu)的過程。LLM預(yù)訓(xùn)練階段涉及選擇和設(shè)計適合于大規(guī)模文本數(shù)據(jù)的模型架構(gòu)，以便模型能夠?qū)W習(xí)語言的統(tǒng)計規(guī)律和語義表示。

在LLM預(yù)訓(xùn)練中，有多種不同的架構(gòu)選擇可供考慮。這些架構(gòu)可以基于循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）、自注意力機制（self-attention mechanism）或它們的組合。不同的架構(gòu)在建模長期依賴關(guān)系、捕獲上下文信息和處理輸入序列的方式上可能有所不同。

通常而言，在實際的業(yè)務(wù)場景中，選擇適當(dāng)?shù)腖LM預(yù)訓(xùn)練架構(gòu)需要考慮多個因素，包括模型的計算效率、內(nèi)存需求、訓(xùn)練速度和性能表現(xiàn)。此外，還需要考慮模型的規(guī)模和參數(shù)數(shù)量，以便在給定的計算資源和數(shù)據(jù)集大小下進行有效的訓(xùn)練。

5．Process Operations（活動實施）

LLM Pre-training P rocess Operations是指在LLM預(yù)訓(xùn)練過程中進行的各種操作和技術(shù)。這些操作和技術(shù)旨在優(yōu)化預(yù)訓(xùn)練過程，改進模型性能和訓(xùn)練效果。完成了標(biāo)記化和預(yù)處理等前置工作后，即可進入大型語言模型(LLM)預(yù)訓(xùn)練的核心階段——在海量語料上迭代訓(xùn)練，賦予模型生成類人語言的能力，這一環(huán)節(jié)對LLM的性能至關(guān)重要，需要精心設(shè)計和優(yōu)化。

五. 為什么需要LLM Pre-training（預(yù)訓(xùn)練）？

隨著語言處理（NLP）任務(wù)的復(fù)雜性不斷提高，對模型性能的要求也越來越高。傳統(tǒng)的NLP方法通常需要大量的人工標(biāo)注數(shù)據(jù)，這不僅增加成本，而且效率低下。LLM預(yù)訓(xùn)練可以有效地解決這些問題，并為NLP任務(wù)的發(fā)展提供新的動力。

圖：3種模型架構(gòu)和預(yù)訓(xùn)練目標(biāo)

于LLM模型的本質(zhì)來看，Pre-training是一種基于大量參數(shù)的高度非線性函數(shù)模型，需要海量數(shù)據(jù)對其進行高效訓(xùn)練。但是，在特定的自然語言任務(wù)上，標(biāo)注數(shù)據(jù)通常是非常昂貴和稀缺的資源。如果每個任務(wù)都從頭開始訓(xùn)練，數(shù)據(jù)短缺將嚴(yán)重制約模型的性能發(fā)揮。

于LLM預(yù)訓(xùn)練的核心目的來看，Pre-training能夠利用互聯(lián)網(wǎng)上海量的、多種形式的文本數(shù)據(jù)(例如網(wǎng)頁、維基百科、書籍等)，在全語言級別學(xué)習(xí)語義、語法和世界知識，掌握語言本身的內(nèi)在規(guī)律，從而擁有了一個廣博的知識面和語言表征能力，為日后各種具體任務(wù)的高效學(xué)習(xí)奠定了基礎(chǔ)。

從實際應(yīng)用的角度看，LLM預(yù)訓(xùn)練也是解決自然語言處理領(lǐng)域長期困擾的兩大痛點的有力手段。首先是通過遷移學(xué)習(xí)大幅降低了任務(wù)數(shù)據(jù)需求。無需為不同場景準(zhǔn)備大量標(biāo)注數(shù)據(jù)，只需進行極小量的任務(wù)精調(diào)，模型即可作出不錯的輸出。其次是實現(xiàn)了模型和能力的統(tǒng)一。以往需要針對每個任務(wù)從頭開發(fā)特定模型，現(xiàn)在只需基于同一LLM模型，通過簡單的指令調(diào)用即可服務(wù)于各種語言任務(wù)，大大提升了開發(fā)效率。

此外，LLM預(yù)訓(xùn)練也為通用人工智能的實現(xiàn)奠定了基礎(chǔ)。目前的預(yù)訓(xùn)練主要關(guān)注語言能力建模，未來還可以打通多模態(tài)(視覺、語音等)信息的學(xué)習(xí)，甚至對常識知識、推理邏輯等進行內(nèi)化。模型的泛化能力也將不斷提升，逐步走向真正的"通用"智能。

總之，LLM預(yù)訓(xùn)練是一個重大的范式創(chuàng)新，它極大地提升了模型的學(xué)習(xí)效率和泛化水平，同時也為各類應(yīng)用場景帶來了全新的智能化解決方案。這種預(yù)訓(xùn)練方法可以有效規(guī)避以往任務(wù)專用模型所面臨的數(shù)據(jù)稀缺、知識碎片、開發(fā)效率低下等問題，被視為實現(xiàn)通用人工智能的關(guān)鍵一步。因此，未來一段時間內(nèi)，LLM預(yù)訓(xùn)練必將持續(xù)受到產(chǎn)業(yè)界和學(xué)術(shù)界的高度關(guān)注。

參考：

https://www.coursera.org/learn/generative-ai-with-llms/lecture/gZArr/computational-challenges-of-training-llms
https://ritikjain51.medium.com/llms-model-architectures-and-pre-training-objectives-39c4543edef0

點擊文末閱讀原文，可以到原文下留言交流

覺得本文有用，請 轉(zhuǎn)發(fā)、點贊 或點擊 “賞” ，讓更多同行看到

關(guān)于【大模型行業(yè)應(yīng)用入門系列】

2024智原生時代已開啟，企業(yè)的應(yīng)用趨勢從AI-Enable到AI-Native技術(shù)路線變革也正式拉開帷幕，對社區(qū)的用戶而言，不管之前所在的崗位是什么，原來掌握的技術(shù)是什么，都將需要在新的技術(shù)范式下，積極擁抱AI應(yīng)用的潮流，進行技能升級，快速融入幫助企業(yè)基于AI模型應(yīng)用創(chuàng)新落地的大軍之中。與時俱進，新技術(shù)本領(lǐng)的掌握和原有崗位技術(shù)，經(jīng)驗的融合是企業(yè)當(dāng)今創(chuàng)新所需要依賴的核心人才。為提高社區(qū)用戶在新的技術(shù)浪潮下技能升級的效率，現(xiàn)IT趨勢項目應(yīng)用創(chuàng)新聯(lián)盟大模型課題組成員特組織編撰【大模型行業(yè)應(yīng)用入門系列】文章，并后續(xù)配備考試和認(rèn)證。您在閱讀這些文章的同時，社區(qū)也非常期待獲得您的積極反饋，可以進一步修正入門系列的框架和具體知識點，甚至加入到課題組和入門系列撰寫的專業(yè)作者中來。

本系列已發(fā)布文章：

一文讀懂 LLM（大語言模型）生態(tài)

一文讀懂 NLM（神經(jīng)語言模型）

一文讀懂深度學(xué)習(xí)框架 PyTorch vs TensorFlow 差異性對比

一文讀懂 LLM Datesets （大語言模型數(shù)據(jù)集）

一文讀懂 LLM 訓(xùn)練：從預(yù)訓(xùn)練到微調(diào)

本系列最新文章將引導(dǎo)讀者進一步進入大模型微調(diào)技術(shù)領(lǐng)域——

適合的讀者：適用于自然語言處理、人工智能、計算機等多個領(lǐng)域的技術(shù)人員，對于希望了解和掌握大型語言模型微調(diào)前沿技術(shù)的人而言，都是很好的入門參考資料。

讀者想入門的困擾：旨在為讀者消除學(xué)習(xí)大型語言模型微調(diào)技術(shù)時可能遇到的種種困擾，通過全面的內(nèi)容設(shè)計和合理的知識架構(gòu)，引導(dǎo)讀者高效掌握這一前沿技術(shù),為未來的深入學(xué)習(xí)和實踐應(yīng)用奠定基礎(chǔ)。

本系列將如何幫助讀者入門：通過理論學(xué)習(xí)、實踐訓(xùn)練、工具應(yīng)用和前沿了解等多個維度，引導(dǎo)讀者全面掌握大型語言模型微調(diào)技術(shù)的方方面面，使其能夠快速入門該領(lǐng)域，并為后續(xù)深化學(xué)習(xí)做好準(zhǔn)備。

歡迎關(guān)注社區(qū) “大模型應(yīng)用”技術(shù)主題 ，將會不斷更新優(yōu)質(zhì)資料、文章。地址： https://www.talkwithtrend.com/Topic/155171

下載 twt 社區(qū)客戶端 APP

長按識別二維碼即可下載

或到應(yīng)用商店搜索“twt”

長按二維碼關(guān)注公眾號

*本公眾號所發(fā)布內(nèi)容僅代表作者觀點，不代表社區(qū)立場；封面圖片由版權(quán)圖庫授權(quán)使用

上一條：春季警惕猩紅熱：猩紅熱如何診治？

下一條：返回列表

版權(quán)：如無特殊注明，文章轉(zhuǎn)載自網(wǎng)絡(luò)，侵權(quán)請聯(lián)系cnmhg168#163.com刪除！文件均為網(wǎng)友上傳，僅供研究和學(xué)習(xí)使用，務(wù)必24小時內(nèi)刪除。

相關(guān)推薦

国产aaaa级全身裸体精油片_337p人体粉嫩久久久红粉影视_一区中文字幕在线观看_国产亚洲精品一区二区_欧美裸体男粗大1609_午夜亚洲激情电影av_黄色小说入口_日本精品久久久久中文字幕_少妇思春三a级_亚洲视频自拍偷拍

關(guān)于 LLM Pre-training（預(yù)訓(xùn)練），你所應(yīng)該了解的【大模型行業(yè)應(yīng)用入門系列】

關(guān)于 LLM Pre-training（預(yù)訓(xùn)練），你所應(yīng)該了解的【大模型行業(yè)應(yīng)用入門系列】

一. 什么是LLM訓(xùn)練？

二. 什么是Pre-training（預(yù)訓(xùn)練）？

三. 關(guān)于LLM Pre-training（預(yù)訓(xùn)練）的定義