懒人听书,小说改编的网页游戏,玄幻小说完本

1 表示學習中的坍塌問題

在表示學習中，一種很常見的做法是利用孿生網絡的結構，讓同一個樣本的不同數據增強后的表示相似。比如對于一張圖像，使用翻轉、裁剪等方法生成另一個增強圖像，兩個圖像分別經過兩個共享參數的編碼器，得到表示，模型的優化目標是讓這兩個表示的距離近。

這種方法一個比較大的挑戰在于，模型在訓練過程中容易出現坍塌問題。模型可以把所有樣本的表示都學成完全相同的常數向量（比如每個樣本模型的輸出都是全0向量），這樣就能滿足上述兩個表示距離近的要求了。

2 解決坍塌問題的方法

業內有很多解決坍塌問題的方法，主要可以分為4種類型：

對比學習方法：在訓練一對正樣本對時，同時采樣大量的負樣本，讓正樣本之間離得近，負樣本之間離得遠，避免模型偷懶把所有樣本的表示都學成一樣的。

聚類方法：在訓練過程中增加一個聚類過程，將樣本分配給不同的類簇，然后在類簇級別進行對比學習。

基于蒸餾的方法：通過模型結構的角度避免坍塌問題，學習一個student network來預測te acher network的表示，teacher network是student network參數的滑動平均，teacher network不通過反向傳播更新參數。

信息最大化方法：讓生成的embedding中每一維的向量相互正交，使其信息量最大化，這樣可以避免各個維度的值信息過于冗余，防止坍塌問題。

目前常用的負樣本采樣方法，一個比較大的問題是計算開銷大，取得好的效果往往需要大量負樣本，因此有了MoCo等對比學習框架。本文提出的方法基于信息最大化的思路，能夠只使用正樣本對實現表示學習的同時，防止坍現象的發生。關于對比學習的常用經典方法，可以參考這篇文章：對比學習中的4種經典訓練模式。

3 信息最大化方法歷史工作

基于信息最大化的方法典型的工作有兩篇ICLM 2021的文章，分別是Whitening for Self-Supervised Representation Learning（ICML 2021，W-MSE）和Barlow twins: Self-supervised learning via redundancy reduction（ICML 2021）。下面介紹一下這兩篇文章的整體思路，Facebook的這篇論文也是基于這個思路設計的。

W-MSE的整體網絡結構如上圖，模型中輸入一對互為正樣本的樣本對（例如一個圖像的不同增強形式），使用共享參數Encoder分別編碼后，增加一個whitening模塊，對每個batch內的所有embedding進行白化，讓embedding的各個維度變量線性無關，后面再接norm處理。下圖形式化表明了W-MSE的用途，通過白化+norm讓樣本形成一個球形分布，正樣本之間距離近，每個樣本需要調整自己在圓周上的位置拉進正樣本之間的距離，形成最終的簇。