相變
物理系統中發生的相變最直觀,水結成冰或沸騰成蒸汽。在一定的溫度或壓力下,系統發生行為的突然變化,從一種相轉變為另一種相。轉變出現了之前相中沒有的新特性,例如冰的晶體結構或蒸汽的氣態特性。
相變應該是自然界的基本特征之一,例如科學家發現即使在絕對零度,量子漲落也可引發量子相變。相變普遍存在于從原子到星系等各種系統中,而且不限于物理系統,化學、社會、經濟、生物進化、腦科學和信息系統等等領域也普遍存在。股市的突然崩盤、抗議活動的爆發就可以被看作是社會系統中的相變。
那“相”是什么呢?以物理系統為例,仔細體會,"相"其實是空間密度函數,而且是隨時間變化的空間密度函數,ρ ( Space , T )。空間密度函數的突變,就是相變。如果我們把物體里面的原子密度函數寫作 ρ,然后用一組基函數 ?i 把 ρ 展開 ρ=Σηi?i,即把密度函數展開成了空間里的一個矢量 η。也就是基函數 ?i 張成的空間中,ρ 可以表示成向量η 。這樣“相”也就可以表征成 η的函數:“相”= F (η)。這樣相變就被刻畫成了數學形式。筆者一直試圖抑制使用數學公式的沖動,但這里表述起來很方便,且可以為讀者學習朗道相變理論開個頭,看看朗道如何將復雜物理現象建模成數學問題。
相變也可以被視為一個臨界點(Critical Point),系統的行為在此臨界點處會發生突變。在這個臨界點上,溫度或壓力的微小變化可以導致系統性質的巨大改變。這是因為系統處于兩個相之間的邊界上,小的擾動可以推動它落入其中一個相或另一個相。相變可能導致出乎意料的涌現(emergent) 現象。理解相變可以幫助我們更好地理解和預測復雜系統中的這些突然變化,以便更好的理解和掌握涌現現象。
復雜系統涌現
1977 年諾貝爾物理學獎得主菲利普 · 安德森在 Science 上發表了他的傳世之作《More Is Different》,書中安德森認為復雜系統就是不能簡單地歸納為其各部分之和的系統。因為這些系統的行為不能通過研究其個體組成部分來預測。他運用物理學、生物學和社會學等領域的例子說明了這一點,強調了復雜系統的涌現現象不能簡單地通過了解其個體部分的屬性來解釋。
復雜系統表現出的涌現現象,并不在單個組成部分中存在。涌現是由系統組件之間的相互作用和關系產生的新屬性,僅僅通過研究單個組件是不能解釋的。牛頓力學導致的精確極致的還原主義不是有效地理解復雜系統的方法。在某些情況下,研究系統的組成部分可能反而會導致有關整個系統的信息喪失。這是因為涌現經常源于系統組件之間的相互作用,而單獨研究組件可能會掩蓋這些相互作用。
鐵磁材料的磁性質,低溫下某些材料的超導性,都是來自材料中原子與電子的集體行為,生物系統蟻群或鳥群的行為,語言、文化和政治制度等社會現象,都不能僅僅通過理解個體的特性來解釋,而是需要了解他們的集體行為和互動。
對稱性破缺
相變往往伴隨著新對稱性或對稱性破缺的出現,這可以揭示系統涌現行為的深層次原理。這里有個非常關鍵的專業概念:對稱性破缺。專業的說法,“對稱性破缺是一個跨物理學、生物學、社會學與系統論等學科的概念,狹義簡單理解為對稱元素的喪失;也可理解為原來具有較高對稱性的系統,出現不對稱因素,其對稱程度自發降低的現象。”
想象一支鉛筆豎立在桌子上。鉛筆是對稱的——從所有平視角度看起來都一樣。但是,如果你敲打桌子,鉛筆會倒在一個方向上。這就破壞了鉛筆位置的對稱性,從不同的角度看起來它就不同了。
在物理學中,對稱性破缺也是一個類似的過程。一個系統可能具有對稱性,但如果經歷了變化或干擾,它可能會打破對稱性,采取一個新的、不同的配置。“墨西哥帽”是對稱性破缺的常見教科書案例。
對稱性破缺的現象同樣也會出現在語言學習和大型語言模型中。在語言學習中,當學習者遇到新的語言結構或規則時,對稱性破缺現象可能就會發生。例如,如果一個以英語為母語的人開始學習漢語,他們最初可能會假設中文的句子結構與英語類似。然而,他們很快就會發現中文的句子結構是不同的,這一認識打破了他們關于語言的先前對稱性的假設。
大模型語言結晶
類似地,在像 GPT-3/4 這樣的大型語言模型中,當模型在大規模數據集上進行訓練并遇到新的、以前未見過的語言模式時,對稱性破缺現象也會發生。隨著模型遇到這些模式,它對語言的理解可能會發生變化和適應,導致一種新的配置,打破了其語言空間剛剛建立的對稱性。
沒有預訓練的Transformer是一張各向對稱的白紙,也就是其語言空間的密度函數ρ是均勻的。這個語言空間的密度函數決定了系統的信息熵,如果我們仍然把 ρ 表示成向量 η,則信息熵可以表示為F(η).隨著語料不斷被 emdedding 同時基于注意力機制 transform到這個語言空間,空間的密度ρ/η發生改變,信息熵 F(η)隨著改變,引發語言空間對稱性破缺與重建。這個過程可能會在局部區域不同尺度下持續的進行。一旦觸及臨界點,對稱性破缺引發相變,大模型就會在某些領域、不同長度上下文表現出各種神奇的涌現能力。
這里筆者借助對稱性破缺,解釋了 GPT 內部語言概率空間的微擾,導致其語言空間對稱性的破缺,形成秩序,結成語言晶體。即語言概率空間的密度函數,向著更有序的方向相變。然而破缺可以隨機到一個相或另一個相,演化方向是很難預知的。這就凸顯了訓練數據集的重要性,新引入的數據集會增加系統的對稱性,還是降低?即系統的信息熵增加還是降低?這些改變是整體還是局部進行?從目前GPT4 與GPT3的能力對比看,出現了整體大幅提升而局部降低的現象,或許是微擾導致局部特定尺度的破缺向更無序方向相變使然。
重整化群
對稱性普遍存在于各個尺度下的系統中,有對稱性的存在,就必然存在對稱性的破缺。重整化群(Renormalization Group) 是研究不同尺度下對稱性破缺與重建過程的核心數學手段。借助重整化群這一研究復雜物理系統行為的框架,人們可以在不同尺度上分析系統,并理解隨著觀察尺度的變化,系統的特性如何變化。通過這種方式,RG提供了一種研究微觀細節如何產生較大尺度新涌現特性的方法。
-
語言模型
+關注
關注
0文章
524瀏覽量
10277 -
GPT
+關注
關注
0文章
354瀏覽量
15379
發布評論請先 登錄
相關推薦
評論