本文介紹了壓擴(kuò)主題——跨電話系統(tǒng)的人類語音的數(shù)字化、傳輸和轉(zhuǎn)換。
簡(jiǎn)要背景
電話系統(tǒng)自發(fā)明以來一直處于高需求狀態(tài),并且已經(jīng)從公共交換電話網(wǎng)絡(luò) (PSTN) 發(fā)展為現(xiàn)代無線數(shù)字移動(dòng)系統(tǒng)。基于模數(shù)轉(zhuǎn)換的脈沖編碼調(diào)制 (PCM) 系統(tǒng)已經(jīng)使用了六年。應(yīng)該注意的是,無論使用哪種編碼,所有電話系統(tǒng)都是通過利用人類語音和聽覺機(jī)制背后的基本事實(shí)來工作的。
人類言語和聽覺機(jī)制
語音是人類之間的自然交流機(jī)制。單詞由不同的音素、幅度不同的單個(gè)聲音組成,安靜的音素比響亮的音素出現(xiàn)的頻率更高。一般來說,人類產(chǎn)生的語音信號(hào)的頻率范圍為 70Hz~400Hz,而人類聽覺的頻率范圍為20Hz~20kHz。我們的聽力具有選擇性,對(duì)300 Hz 至 10 kHz范圍內(nèi)產(chǎn)生的聲音提供最高靈敏度。
這些以實(shí)驗(yàn)為依據(jù)的事實(shí)得出的結(jié)論是,當(dāng)在 0.3 到 3.4 kHz 范圍內(nèi)記錄語音信號(hào)時(shí),聽者很容易理解說話者所傳達(dá)的信息。
圖 1. “語音香蕉”顯示了音素及其在識(shí)別所需的各種幅度下的頻率。圖片由Clear Value Hearing提供。
當(dāng)聽力能力以分貝等級(jí)表示時(shí),它的范圍從 0 dB SPL(聽力閾值)到 130 dB SPL(疼痛閾值)。
較低幅度和較高幅度之間的 比率很大。在一般意義上,較低幅度的聲音被認(rèn)為是耳語,而較高幅度的聲音被認(rèn)為是喊叫。然而,即使是正常的會(huì)話語音也有相當(dāng)大的幅度變化,因?yàn)樗怯刹煌囊羲亟M成的。此外,可以看出,更安靜的音素比響亮的音素?cái)y帶更多的信息并且具有更多的熵。
無壓擴(kuò)的基于 PCM 的電話系統(tǒng)
電話系統(tǒng)最初是作為模擬系統(tǒng)出現(xiàn)的,現(xiàn)在已經(jīng)變成了數(shù)字系統(tǒng)。因此,無論我們說什么都需要數(shù)字化然后傳輸——因此實(shí)際的模擬語音信號(hào)需要在接收端進(jìn)行恢復(fù)。任何模擬信號(hào)到其數(shù)字形式的轉(zhuǎn)換都包括三個(gè)重要階段:采樣、量化和編碼。
語音信號(hào)的采樣
采樣是一個(gè)過程,通過該過程,我們可以將在所有時(shí)刻定義的原始信號(hào)轉(zhuǎn)換為僅在特定時(shí)刻定義的離散信號(hào)。
我們?nèi)绾螞Q定在哪些點(diǎn)定義信號(hào)?
我們首先考慮一個(gè)基本但非常重要的事實(shí),即我們不僅對(duì)從發(fā)送方傳輸信號(hào)感興趣,而且對(duì)在接收方恢復(fù)信號(hào)感興趣。
與該過程相關(guān)的定理是著名的奈奎斯特定理,該定理指出,只有在至少以其中包含的最高頻率兩倍的速率對(duì)其進(jìn)行采樣時(shí),才能忠實(shí)地恢復(fù)傳輸信號(hào)。
因此,如果最高頻率是f,那么我們需要對(duì)信號(hào)進(jìn)行采樣的頻率應(yīng)該大于或等于 2 f。反過來,這意味著我們需要在距離小于或等于 1/2 f的時(shí)刻定義我們的信號(hào) (由于頻率和時(shí)間彼此成反比)。
從上一節(jié)的討論中,我們知道我們對(duì)電話交談的興趣跨越了 0.3 到 3.4 kHz 的頻率范圍。并且任何成功的信號(hào)傳輸都需要存在保護(hù)頻帶,因此整個(gè)范圍變?yōu)? 到 4 kHz。因此,在我們的例子中,8 kHz (= 2 x 4 KHz) 的采樣率是一個(gè)不錯(cuò)的選擇。
這表明,在采樣之后,我們的語音信號(hào)沿時(shí)間軸離散化,其中相鄰樣本之間的間距將為 18KHz=125微秒18KHz=125微秒。
語音信號(hào)的量化與編碼
請(qǐng)注意,采樣僅對(duì)時(shí)間軸上的信號(hào)進(jìn)行數(shù)字化(參見圖 2 所示的典型示例,其中紅色正弦信號(hào)通過采樣轉(zhuǎn)換為藍(lán)色離散值信號(hào))。然而,為了使語音信號(hào)在本質(zhì)上完全數(shù)字化,我們需要沿其幅度軸對(duì)其進(jìn)行離散化,這被視為量化。
圖 2.正弦波采樣
現(xiàn)在,我們的下一個(gè)問題將與采樣的情況非常相似——我們?nèi)绾螞Q定何時(shí)沿其幅度軸定義我們的信號(hào)?換句話說,我們定義信號(hào)幅度的點(diǎn)之間的間距應(yīng)該是多少(這在技術(shù)上稱為步長(zhǎng))?
即使在這種情況下,我們也需要選擇步長(zhǎng),記住我們需要在接收端有最小的失真信號(hào)。這么想,讓我們假設(shè)我們選擇一個(gè)非常小的步長(zhǎng)來量化低幅度信號(hào)(正弦波在值 +1 和 -1 之間變化,在圖 3a 中以粉紅色顯示)。較小的步長(zhǎng)意味著我們將沿其幅度軸以非常接近的間隔定義我們的信號(hào)(圖 3a),因此定義我們的信號(hào)所需的步數(shù)將非常大,這需要大量的比特來對(duì)其進(jìn)行編碼,這需要很大的帶寬。
圖 3. (a) 小步長(zhǎng) (b) 大步長(zhǎng)的低幅度正弦波量化
考慮到帶寬,讓我們假設(shè)我們使用太少的步驟來定義我們的信號(hào)。較少的步數(shù)意味著我們沿其幅度軸定義信號(hào)的點(diǎn)之間的間距較大。這使我們能夠非常粗略地定義我們的信號(hào)(圖 3b),當(dāng)我們?cè)诮邮斩酥貥?gòu)信號(hào)時(shí),這會(huì)導(dǎo)致問題,因?yàn)樵诹炕^程中會(huì)丟失很多存在的信息。
接下來,我們分析在大振幅信號(hào)的情況下改變步長(zhǎng)的影響。這在目前的情況下很重要,因?yàn)槲覀儚年P(guān)于人類言語和聽力機(jī)制部分的討論中知道,我們感興趣的信號(hào)(言語)包含廣泛的幅度。
圖 4 使用與圖 3 相同的步長(zhǎng)來檢查量化的效果,當(dāng)幅度增加四倍時(shí)(圖 4 中的原始正弦波的峰峰值幅度在 +4 到 -4 之間變化)。在這里,圖 4a 再次強(qiáng)調(diào)了這樣一個(gè)事實(shí),即當(dāng)我們需要復(fù)制原始信號(hào)時(shí),較小的步長(zhǎng)總是更好。
圖 4. (a) 小步長(zhǎng) (b) 大步長(zhǎng)的大振幅正弦波量化
另一個(gè)需要注意的重點(diǎn)是,圖 4b 中的量化信號(hào)不像圖 3b 中所示的量化信號(hào)那樣失真。也就是說,當(dāng)信號(hào)幅度較高時(shí),使用大步長(zhǎng)的量化仍然會(huì)產(chǎn)生可接受的結(jié)果。這意味著當(dāng)涉及到大幅度信號(hào)時(shí),被證明對(duì)于低幅度信號(hào)“非常大”的步長(zhǎng)并不是“那么大”。換句話說,可以說信號(hào)的幅度越高,量化它的步長(zhǎng)就越大,而不會(huì)產(chǎn)生太大的失真。
壓擴(kuò):簡(jiǎn)介
每個(gè)研究人員都相信,任何系統(tǒng),無論多么好,都可以以某種方式進(jìn)行改進(jìn)。然而,為了找出最有效(或更好)的方法,必須仔細(xì)審查目前采用的概念和方法,并且必須從不同的角度進(jìn)行審查。
為了在我們的案例中實(shí)現(xiàn)這一點(diǎn),讓我們回顧文章的路徑,同時(shí)思考兩個(gè)重要點(diǎn)。
首先,請(qǐng)回想一下,就其中包含的信息而言,人類語言不是各向同性的。語音中較安靜的音素比大聲的音素出現(xiàn)得更頻繁并且包含更多的信息。其次,請(qǐng)注意,與較低幅度的信號(hào)相比,對(duì)于較高幅度的信號(hào),選擇用于量化信號(hào)的步長(zhǎng)可以更大(而不影響其質(zhì)量)。
如果是這樣,為什么我們不能使用較小的步長(zhǎng)量化低幅度的語音信號(hào),而對(duì)幅度較大的語音信號(hào)使用較大的步長(zhǎng)呢?可以辦到。事實(shí)上,這種使用非均勻電平量化語音信號(hào)的技術(shù)被稱為“壓縮擴(kuò)展”,是壓縮和擴(kuò)展的組合。
壓縮擴(kuò)展是使用不等量化級(jí)別對(duì)信號(hào)進(jìn)行編碼的過程。在該技術(shù)中,大量的小電平用于對(duì)低幅度信號(hào)進(jìn)行編碼,而較高幅度的信號(hào)使用少量的大電平進(jìn)行編碼。這意味著通過使用壓擴(kuò),我們可以用更少的電平量化我們的語音信號(hào),同時(shí)保持所需的保真度。此外,級(jí)別數(shù)越少意味著要編碼的比特越少,這意味著帶寬要求降低。
結(jié)論
本文介紹了與人類語音相關(guān)的概念及其在基于 PCM 的電話系統(tǒng)中的特征。我希望您已經(jīng)獲得了關(guān)于壓擴(kuò)及其在電信領(lǐng)域的重要性的膚淺知識(shí)。
-
PCM
+關(guān)注
關(guān)注
1文章
195瀏覽量
53223 -
模數(shù)轉(zhuǎn)換
+關(guān)注
關(guān)注
1文章
216瀏覽量
36874
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論