我們來深入淺出地解釋生成式AI的原理。它背後的核心思想其實非常優美,但實現過程極為複雜。
下圖直觀展示了生成式AI(以大型語言模型為例)從訓練到生成內容的核心工作流程:
flowchart TD A[“第一步: 海量數據<br>來自網絡,書籍等”] --> B[“第二步: 訓練過程<br>核心任務: 預測下一個詞”] B --> C[“模型學會了<br>一個”概率分佈“”] C --> C1[“文法”] C --> C2[“事實知識”] C --> C3[“推理能力”] C --> C4[“風格與語氣”] C1 & C2 & C3 & C4 --> D[“第三步: 生成內容”] subgraph D direction LR E[“輸入: 提示詞<br>”寫一首關於月亮的情詩“”] --> F[“自迴歸生成”] F --> G[“輸出: 生成的文本<br>”皎潔的月光灑落...“”] end F --> F1[“從概率分佈中<br>採樣下一個詞”] F --> F2[“將新詞作為<br>新輸入的一部分”] F --> F3[“重複直至完成”]
一句話概括原理
生成式AI的本質是學習現有數據的內在規律和分佈,然後利用這個學到的「模型」,生成出符合這些規律的、全新的、前所未見的數據。
可以把這想像成一位學畫的學生:
學習:他觀看了數千幅梵谷的畫作,研究其筆觸、用色、構圖的規律。
生成:當你讓他「畫一幅具有梵谷風格的星空圖」時,他不會簡單地複製任何一幅看過的畫,而是根據學到的「梵谷規律」,創造出一幅全新的、從未有人見過的星空圖。
核心技術支柱:深度學習與神經網絡
生成式AI的實現主要依賴於深度神經網絡,這是一種模仿人腦神經元連接方式的數學模型。
神經網絡:由大量的「神經元」(數學函數)分層連接而成。
深度學習:指的是這個網絡有很多層,能夠從數據中進行層層抽象,學習極其複雜的模式。
關鍵原理與技術
以下是幾個最核心的原理和實現技術:
1. 「預測下一個詞」—— 大型語言模型的基礎訓練
以ChatGPT這類文本生成模型為例,其核心訓練任務令人驚訝的簡單:預測一段文本中下一個詞是什麼。
過程:
模型吞下海量的互聯網文本。
在訓練過程中,它會被輸入一句話的前幾個詞,例如:「今天天氣很好,我打算去……」
模型的任務是計算出下一個詞所有可能的概率(「公園」概率0.3、「逛街」概率0.2、「睡覺」概率0.001……)。
最初它的預測一塌糊塗,但通過不斷比對自己的預測和真實的下一個詞(「公園」),並利用反向傳播 算法調整內部數億、甚至數萬億的參數,它的預測變得越來越準確。
湧現能力:通過這個看似簡單的任務,模型不僅學會了語法和詞彙,還意外地學會了邏輯推理、程式編寫、掌握不同領域知識等複雜能力。因為所有這些知識,都蘊含在它用來訓練的文本數據的統計規律中。
2. 轉譯器架構—— 當代LLM的引擎
這是GPT系列和許多其他模型的技術核心。它的關鍵特性是注意力機制,允許模型在處理一個詞時,能夠「關注」到輸入文本中其他所有相關的詞,無論它們相距多遠。這使得模型能更好地理解上下文關係。
3. 生成過程:從學習到創造
當模型訓練完成後,它是如何「生成」一段連貫文本的呢?
你提供「提示」:例如,「寫一首關於咖啡的詩」。
模型計算概率:它根據提示,計算出第一個詞的概率分佈。
採樣:模型不會總是選擇概率最高的詞(那會導致重複和無聊),而是會根據概率進行隨機採樣。這引入了創造性和不確定性。
循環往復:將生成的第一個詞添加到提示中,形成新的輸入,再預測下一個詞。如此循環,直到生成完整的文本或達到長度限制。
這個過程被稱為自迴歸生成,就像一個不斷預測下一個字的循環。
不同形態的生成式AI
雖然原理相通,但針對不同類型的數據,有專門的技術和模型結構:
生成對抗網絡(GANs)
原理:由兩個神經網絡——「生成器」和「判別器」——相互對抗、共同進步。
生成器:負責生成偽造的數據(如一張假的人臉圖片)。
判別器:負責判斷輸入的圖片是來自真實數據集還是生成器造的假。
兩者不斷博弈,直到生成器造的假圖逼真到判別器無法分辨。
應用:圖像生成、風格遷移。
擴散模型(當前圖像生成的主流技術,如DALL-E、Midjourney)
原理:分兩個階段:
前向過程:對一張真實圖片逐步加入噪聲,直到它完全變成隨機噪點。
反向過程:訓練神經網絡學習如何將這個過程逆轉,即從隨機噪點中一步步「去噪」,還原出一張清晰的圖片。
生成時:你給它一段文本描述,它就從純噪點開始,根據文本的指引,一步步去噪,最終生成一張符合描述的全新圖片。
應用:文生圖、圖像編輯。
總結
生成式AI的原理可以概括為:
目標:學習一個數據分佈 P(data)。
方法:使用海量數據和深度神經網絡,通過自監督學習(如預測下一個詞)來逼近這個分佈。
生成:從學到的分佈中進行採樣,從而創造出既符合所學規律、又具有新穎性的內容。
它之所以強大,是因為它並非在「檢索」或「拼貼」已有的數據,而是在運用學到的「世界模型」進行一種基於概率的「創造」。這既是其能力的來源,也是其會產生「幻覺」的原因。
No comments:
Post a Comment