在英語中,諸如“helps”、“helped”和“helping”之類的詞是同一個詞“help”的變形形式。“dog”與“dogs”的關(guān)系與“cat”與“cats”的關(guān)系相同,“boy”與“boyfriend”的關(guān)系與“girl”與“girlfriend”的關(guān)系相同。在法語和西班牙語等其他語言中,許多動詞有超過 40 種變形形式,而在芬蘭語中,一個名詞可能有多達(dá) 15 種格。在語言學(xué)中,形態(tài)學(xué)研究詞的形成和詞的關(guān)系。然而,word2vec 和 GloVe 都沒有探索單詞的內(nèi)部結(jié)構(gòu)。
15.6.1。fastText 模型
回想一下單詞在 word2vec 中是如何表示的。在skip-gram模型和連續(xù)詞袋模型中,同一個詞的不同變形形式直接由不同的向量表示,沒有共享參數(shù)。為了使用形態(tài)信息,fastText 模型提出了一種子詞嵌入方法,其中一個子詞是一個字符n-gram (Bojanowski等人,2017 年)。與學(xué)習(xí)詞級向量表示不同,fastText 可以被視為子詞級 skip-gram,其中每個中心詞由其子詞向量的總和表示。
讓我們舉例說明如何使用單詞“where”為 fastText 中的每個中心詞獲取子詞。首先,在單詞的首尾添加特殊字符“<”和“>”,以區(qū)別于其他子詞的前綴和后綴。然后,提取字符n-克從字。例如,當(dāng)n=3,我們得到所有長度為 3 的子詞:“”,以及特殊子詞“”。”、“whe”、“her”、“ere”、“re>
在 fastText 中,對于任何單詞w, 表示為Gw其所有長度在 3 到 6 之間的子字及其特殊子字的并集。詞匯表是所有詞的子詞的并集。出租zg是子詞的向量g在字典中,向量vw為詞w作為 skip-gram 模型中的中心詞的是其子詞向量的總和:
fastText 的其余部分與 skip-gram 模型相同。與skip-gram模型相比,fastText中的詞匯量更大,導(dǎo)致模型參數(shù)更多。此外,為了計算一個詞的表示,必須將其所有子詞向量相加,從而導(dǎo)致更高的計算復(fù)雜度。然而,由于具有相似結(jié)構(gòu)的詞之間的子詞共享參數(shù),稀有詞甚至詞匯表外的詞可能會在 fastText 中獲得更好的向量表示。
15.6.2。字節(jié)對編碼
在 fastText 中,所有提取的子詞都必須具有指定的長度,例如3到6,因此無法預(yù)定義詞匯量大小。為了允許在固定大小的詞匯表中使用可變長度的子詞,我們可以應(yīng)用一種稱為字節(jié)對編碼(BPE) 的壓縮算法來提取子詞 ( Sennrich et al. , 2015 )。
字節(jié)對編碼對訓(xùn)練數(shù)據(jù)集進(jìn)行統(tǒng)計分析,以發(fā)現(xiàn)單詞中的常見符號,例如任意長度的連續(xù)字符。從長度為 1 的符號開始,字節(jié)對編碼迭代地合并最頻繁的一對連續(xù)符號以產(chǎn)生新的更長的符號。請注意,為了提高效率,不考慮跨越單詞邊界的對。最后,我們可以使用子詞這樣的符號來分詞。字節(jié)對編碼及其變體已用于流行的自然語言處理預(yù)訓(xùn)練模型中的輸入表示,例如 GPT-2 (Radford等人,2019 年)和 RoBERTa (Liu等人,2019 年). 下面,我們將說明字節(jié)對編碼的工作原理。
首先,我們將符號詞匯表初始化為所有英文小寫字符、一個特殊的詞尾符號'_'
和一個特殊的未知符號'[UNK]'
。
import collections
symbols = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
'_', '[UNK]']
由于我們不考慮跨越單詞邊界的符號對,我們只需要一個字典raw_token_freqs
將單詞映射到它們在數(shù)據(jù)集中的頻率(出現(xiàn)次數(shù))。請注意,特殊符號'_'
附加到每個單詞,以便我們可以輕松地從輸出符號序列(例如,“a_ tall er_ man”)中恢復(fù)單詞序列(例如,“a taller man”)。由于我們從僅包含單個字符和特殊符號的詞匯表開始合并過程,因此在每個單詞中的每對連續(xù)字符之間插入空格(字典的鍵token_freqs
)。換句話說,空格是單詞中符號之間的分隔符。
{'f a s t _': 4, 'f a s t e r _': 3, 't a l l _': 5, 't a l l e r _': 4}
我們定義了以下get_max_freq_pair
函數(shù),該函數(shù)返回單詞中出現(xiàn)頻率最高的一對連續(xù)符號,其中單詞來自輸入字典的鍵token_freqs
。
def get_max_freq_pair(token_freqs):
pairs = collections.defaultdict(int)
for token, freq in token_freqs.items():
symbols = token.split()
for i in range(len(symbols) - 1):
# Key of `pairs` is a tuple of two consecutive symbols
pairs[symbols[i], symbols[i + 1]] += freq
return max(pairs, key=pairs.get) # Key of `pairs` with the max value
def get_max_freq_pair(token_freqs):
pairs = collections.defaultdict(int)
for token, freq in token_freqs.items():
symbols = token.split()
for i in range(len(symbols) - 1):
# Key of `pairs` is a tuple of two consecutive symbols
pairs[symbols[i], symbols[i + 1]] += freq
return max(pairs, key=pairs.get) # Key of `pairs` with the max value
作為一種基于連續(xù)符號頻率的貪婪方法,字節(jié)對編碼將使用以下merge_symbols
函數(shù)合并最頻繁的一對連續(xù)符號以產(chǎn)生新的符號。
def merge_symbols(max_freq_pair, token_freqs, symbols):
symbols.append(''.join(max_freq_pair))
new_token_freqs = dict()
for token, freq in token_freqs.items():
new_token = token.replace(' '.join(max_freq_pair),
''.join(max_freq_pair))
new_token_freqs[new_token] = token_freqs[token]
return new_token_freqs
def merge_symbols(max_freq_pair, token_freqs, symbols):
symbols.append(''.join(max_freq_pair))
new_token_freqs = dict()
for token, freq in token_freqs.items():
new_token = token.replace(' '.join(max_freq_pair),
''.join(max_freq_pair))
new_token_freqs[new_token] = token_freqs[token]
return new_token_freqs
現(xiàn)在我們在字典的鍵上迭代執(zhí)行字節(jié)對編碼算法token_freqs
。在第一次迭代中,出現(xiàn)頻率最高的一對連續(xù)符號是't'
和'a'
,因此字節(jié)對編碼將它們合并以產(chǎn)生新的符號'ta'<
評論
查看更多