前言
說到視頻,大家自己腦子里基本都會想起電影、電視劇、在線視頻等等,也會想起一些視頻格式 AVI、MP4、RMVB、MKV等等。但是我們如果認真思考這些應該就有很多疑問,比如以下問題:
mp4 和 mkv有什么區別 ?
視頻封裝格式 和 解碼格式 有什么區別?
什么是H.264 ?什么是 mpeg ?
等等很多疑問,我們不知道這些問題的答案是因為我們沒有去了解他們背后的東西,下面我會給大家分享當初我學習時候的整理的一些知識。
一、光與顏色
1,光和顏色光是一種肉眼可以看見(接受)的電磁波(可見光譜)。在科學上的定義,光有時候是指所有的電磁波。光是由一種稱為光子的基本粒子組成。具有粒子性與波動性,或稱為波粒二象性。人類肉眼所能看到的可見光只是整個電磁波譜的一部分。電磁波之可見光譜范圍大約為390~760nm(1nm=10-9m=0.000000001m)。
在這個世界如果沒有光,我們就無法生存。顏色是視覺系統對可見光的感知結果,研究表明人的視網膜有對紅、綠、藍顏色敏感程度不同的三種錐體細胞。紅、綠和藍三種錐體細胞對不同頻率的光的感知程度不同,對不同亮度的感知程度也不同。自然界中的任何一種顏色都可以由R,G,B 這 3 種顏色值之和來確定,以這三種顏色為基色構成一個RGB 顏色空間。
顏色=R(紅色的百分比)+G(綠色的百分比)+B(藍色的百分比),只要其中一種不是由其它兩種顏色生成,可以選擇不同的三基色構造不同的顏色空間。如圖所示,適當的紅光和綠光能合成黃光;適當的綠光和藍光能合成青光;適當的藍光和紅光能合成品紅色的光;而適當的紅、綠、藍三色光能合成白光。因此紅、綠、藍三種色光被稱為色光的“三原色。”
2,顏色的度量飽和度(saturation)
是相對于明度的一個區域的色彩,是指顏色的純潔性,它可用來區別顏色明暗的程度。完全飽和的顏色是指沒有滲入白光所呈現的顏色,例如僅由單一波長組成的光譜色就是完全飽和的顏色。
明度(brightness)是視覺系統對可見物體輻射或者發光多少的感知屬性。它和人的感知有關。由于明度很難度量,因此國際照明委員會定義了一個比較容易度量的物理量,稱為亮度(luminance) 來度量明度,亮度(luminance)即輻射的能量。明度的一個極端是黑色(沒有光),另一個極端是白色,在這兩個極端之間是灰色。
光亮度(lightness)是人的視覺系統對亮度(luminance)的感知響應值,光亮度可用作顏色空間的一個維,而明度(brightness)則僅限用于發光體,該術語用來描述反射表面或者透射表面。
3,顏色空間
顏色空間是表示顏色的一種數學方法,人們用它來指定和產生顏色,使顏色形象化。顏色空間中的顏色通常使用代表三個參數的三維坐標來指定,這些參數描述的是顏色在顏色空間中的位置,但并沒有告訴我們是什么顏色,其顏色要取決于我們使用的坐標。
下面介紹幾種常見的顏色空間:
RGB: 用途:主要用來在LCD、CRT顯示器上用的。RGB色彩模式是工業界的一種顏色標準,是通過對紅(R)、綠(G)、藍(B)三個顏色通道的變化以及它們相互之間的疊加來得到各式各樣的顏色的,RGB即是代表紅、綠、藍三個通道的顏色。目前的顯示器大都是采用了RGB顏色標準,在顯示器上,是通過電子槍打在屏幕的紅、綠、藍三色發光極上來產生色彩的。電腦屏幕上的所有顏色,都由這紅色綠色藍色三種色光按照不同的比例混合而成的。一組紅色,綠色,藍色就是一個最小的顯示單位。屏幕上的任何一個顏色都可以由一組RGB值來記錄和表達。顯像管內電子槍射出的三個電子束,它們分別射到屏上顯示出紅、綠、藍色的熒光點上,通過分別控制三個電子束的強度,可以改變三色熒光點的亮度。由于這些色點很小又靠得很近,人眼無法分辨開來,看到的是三個色點的復合.即合成的顏色。
以RGB24為例,圖像像素數據的存儲方式如下:
RGB的格式:
RGB16 RGB24 RGB32 等等這些到底格式有什么區別呢 ?
總的來說區別就是一個像素所使用的位數不同,顯示出來的色彩豐富度不同,位數越大,色彩越豐富。計算機使用的都是二進制,因此所有的數量級都是建立在二進制的基礎上的,無論是存儲空間,運算速度,文件大小等等。
如果要表示顏色,每一個對應的顏色都需要一個二進制代碼來表示,使用8位的二進制, 可以表示 2^8 (2的8次方) , 也就是256種色彩。使用16位的二進制,可以表示 2^16 (2 的16次方),也就是65536種色彩。使用24位的二進制,可以表示 2^24 (2的24次方) ,也就是16,777,216種色彩。一般稱24bit以上的色彩為真彩色,當然還有采用30bit、36bit、42bit的。使用的色彩代碼越長,同樣像素的文件的文件大小也就相應的成冪次級增長。使用超過16位以上的色彩文件在普通的顯示器,尤其是液晶顯示器上看不出任何區別,原因是液晶顯示器本身不能顯示出那么多的色彩。但是對于彩色印刷就非常有用,因為油墨的點非常的細,同時由于印刷尺幅的放大原因, 更大的文件可以在印刷的時候呈現出更細膩的層次和細節。
YUV:用途:主要用于視頻信號的壓縮、傳輸和存儲,和向后相容老式黑白電視。在生理學中,有一條規律,那就是人類視網膜上的視網膜桿細胞要多于視網膜錐細胞,說得通俗一些,視網膜桿細胞的作用就是識別亮度,而視網膜錐細胞的作用就是識別色度。所以,人眼對亮度分辨率的敏感度高于對色彩分辨率的敏感度
從上圖我們可以看出,我們更容易識別去除色彩的圖像,而對于單獨剝離出的只有色彩的圖像,不好識別。YUV色彩模型就是利用這個原理,把亮度與色度分離,根據人對亮度更敏感些,增加亮度的信號,減少顏色的信號,以這樣“欺騙”人的眼睛的手段來節省空間,從而適合于圖像處理領域。YUV三個字母中,其中"Y"表示明亮度(Lumina nce或Luma),也就是灰階值;而"U"和"V"表示的則是色度(Chrominance或Chroma),作用是描述影像色彩及飽和度,用于指定像素的顏色。使用YUV的優點有兩個:一、彩色YUV圖像轉黑白YUV圖像。如果只有Y信號分量而沒有U、V分量,那么這樣表示的圖像就是黑白灰度圖像。因此可兼容老式黑白電視。二、YUV是數據總尺寸小于RGB格式。因為YUV,可以增加亮度的信號,減少顏色的信號,用于減少體積。
YCbCr :在技術文檔里,YUV經常有另外的名字, YCbCr ,其中Y與YUV 中的Y含義一致,Cb , Cr 同樣都指色彩,只是在表示方法上不同而已,Cb Cr 就是本來理論上的“分量/色差”的標識。C代表分量(是component的縮寫)Cr、Cb分別對應r(紅)、b(藍)分量信號,Y除了g(綠)分量信號,還疊加了亮度信號。
YCbCr模型來源于YUV模型,算是YUV的壓縮版本,不同之處在于Y'CbCr用于數字圖像領域,YUV用于模擬信號領域,MPEG、DVD、攝像機中常說的YUV其實是Y'CbCr。
其中Y與YUV 中的Y含義一致,Cb , Cr 同樣都指色彩,,只是在表示方法上不同而已,Cb Cr 就是本來理論上的“分量/色差”的標識。C代表分量(是component的縮寫)Cr、Cb分別對應r(紅)、b(藍)分量信號,Y除了g(綠)分量信號,還疊加了亮度信號。
再YUV 家族中, YCbCr 是在計算機系統中應用最多的成員, 其應用領域很廣泛,JPEG、MPEG均采用此格式。一般人們所講的YUV大多是指YCbCr。
YCbCr 有許多取樣格式, 如4∶4∶4 , 4∶2∶2 , 4∶1∶1 和4∶2∶0:
44
YUV三個信道的抽樣率相同,因此在生成的圖像里,每個象素的三個分量信息完整。
42
每個色差信道的抽樣率是亮度信道的一半,所以水平方向的色度抽樣率只是44的一半
41
41的色度抽樣,是在水平方向上對色度進行4:1抽樣。對于低端用戶和消費類產品這仍然是可以接受的。
40
40并不意味著只有Y,Cb而沒有Cr分量。它指得是對每行掃描線來說,只有一種色度分量以2:1的抽樣率存儲。相鄰的掃描行存儲不同的色度分量,也就是說,如果一行是40的話,下一行就是42,再下一行是40...以此類推。對每個色度分量來說,水平方向和豎直方向的抽樣率都是2:1,所以可以說色度的抽樣率是4:1。對非壓縮的8比特量化的視頻來說,每個由2x2個2行2列相鄰的像素組成的宏像素需要占用6字節內存。
4,顏色空間的轉換:不同顏色可以通過一定的數學關系相互轉換:
RGB轉YUV:Y = (0.257 * R) + (0.504 * G) + (0.098 * B) + 16 Cr = V = (0.439 * R) - (0.368 * G) - (0.071 * B) + 128 Cb = U = -( 0.148 * R) - (0.291 * G) + (0.439 * B) + 128
YUV轉RGB:B = 1.164(Y - 16) + 2.018(U - 128) G = 1.164(Y - 16) - 0.813(V - 128) - 0.391(U - 128) R = 1.164(Y - 16) + 1.596(V - 128)
二、電視制式
1,介紹 電視信號的標準簡稱制式,可以簡單地理解為用來實現電視圖像或聲音信號所采用的一種技術標準,就是用來實現電視圖像信號和伴音信號,或其它信號傳輸的方法,和電視圖像的顯示格式,以及這種方法和電視圖像顯示格式所采用的技術標準。只有遵循一樣的技術標準,才能夠實現電視機正常接收電視信號、播放電視節目。就像電源插座和插頭,規格一樣才能插在一起,中國的插頭就不能插在英國規格的電源插座里,只有制式一樣,才能順利對接。嚴格來說,電視制式有很多種,對于模擬電視,有黑白電視制式,彩色電視制式,以及伴音制式等。目前世界上現行的彩色電視制式有三種:NTSC 制、PAL 制和SECAM 制。中國大部分地區使用PAL制式,日本、韓國及東南亞地區與美國等歐美國家使用NTSC制式,俄羅斯則使用SECAM制式。
2,制式說明
NTSC電視標準:NTSC電視標準主要用于美、日等國家和地區。NTSC電視標準的特性:(1) 525 行/幀,每秒29.97幀(簡化為30幀) (2)電視掃描線為525線。(3)隔行掃描,一幀分成2 場(field),262.5 線/場 (4)24比特的色彩位深。(5)高寬比:電視畫面的長寬比(電視為4:3;電影為3:2;高清晰度電視為16:9) (6)場頻為每秒60場( 幀數30 * 2 = 60 ) 它是1952年由美國國家電視標準委員會指定的彩色電視廣播標準,它采用正交平衡調幅的技術方式,故也稱為正交平衡調幅制。優點是電視接收機電路簡單,缺點是容易產生偏色,因此NTSC制電視機都有一個色調手動控制電路,供用戶選擇使用;
PAL電視標準:PAL電視標準主要用于中國、歐洲等國家和地區。PAL電視標準的特性 (1)625 行(掃描線)/幀,每秒25幀. (2)電視掃描線為625線 (3)隔行掃描,2 場/幀,312.5 行/場 (4)24比特的色彩位深 (5)畫面的寬高比為4:3。(6)場頻為每秒50場( 幀數25 * 2 = 50 ) 它是西德在1962年指定的彩色電視廣播標準,它采用逐行倒相正交平衡調幅的技術方法,克服了NTSC制相位敏感造成色彩失真的缺點。
SECAM電視標準:SECAM是法文的縮寫,意為順序傳送彩色信號與存儲恢復彩色信號制,是由法國在1956年提出,1966年制定的一種新的彩色電視制式。它也克服了NTSC制式相位失真的缺點,但采用時間分隔法來傳送兩個色差信號。PAL制式和SECAM制式可以克服NTSC制容易偏色的缺點,但電視接收機電路復雜,要比NTSC制電視接收機多一個一行延時線電路,并且圖像容易產生彩色閃爍。因此三種彩色電視制式各有優缺點,互相比較結果,誰也不能戰勝誰,所以,三種彩色電視制式互相共存已經五十多年。
三、照相機與攝像機
視頻最早是由攝像機拍攝的制作而成的,攝像機的發明又是在照相機的基礎之上的,所以說在這里,就不得簡單說明下照相機與攝像機。
1,照相機基本原理現實中照相機和攝像機的成像原理都是基于小孔成像為基礎的。我們知道,光在同一均勻介質中、不受引力作用干擾的情況下,沿直線傳播;因此它在遇到阻隔物上的孔洞時會穿過它,并能在孔后一定距離內的對應平面上投射出一個倒立的實影;只要投影面周圍的環境足夠暗,影像就能被人眼所觀看到。相信學生時代,大家都曾在自然常識課上做過“小孔成像”的試驗,老師也肯定提到過這一原理與相機之間密不可分的關聯;
照相技術的發明者正是利用光的這一的特性與傳遞原理,以光子為載體,把某一瞬間被攝景物的光信息以能量方式通過設在相機上“孔洞”傳遞給后方的感光材料。
照相機的基本工作原理就是——將景物影像通過光線的各種傳播特性準確地聚焦在具有感光能力的成像平面上,通過各種輔助手段控制光線的流量,從而獲得符合用戶要求的影像畫面,最后通過不同的手段保存下來。最早的照相機結構十分簡單,僅包括暗箱、鏡頭和感光材料。現代照相機比較復雜,具有鏡頭、光圈、快門、測距、取景、測光、輸片、計數、自拍等系統,是一種結合光學、精密機械、電子技術和化學等技術的復雜產品。
2,攝像機的發明過程攝像機的發明,起源于一個有趣的故事。1872年的一天,在美國加利福尼亞州一個酒店里,斯坦福與科恩發生了激烈的爭執:馬奔跑時蹄子是否都著地?斯坦福認為奔跑的馬在躍起的瞬間四蹄是騰空的;科恩卻認為,馬奔跑時始終有一蹄著地。爭執的結果誰也說服不了誰,于是就采取了美國人慣用的方式打賭來解決。他們請來一位馴馬好手來做裁決,然而,這位裁判員也難以斷定誰是誰非。這很正常,因為單憑人的眼睛確實難以看清快速奔跑的馬蹄是如何運動的。于是富翁請來了英國攝影師愛德華.麥布里奇來作實驗。
麥布里奇把24架照相機的快門連上24根線,在極短的時間里,使照相機依次拍下24張照片,再將這些照片一張一張地依次按次序看下去,以便觀察馬兒是怎么樣躍進的,又是怎么樣著地的。為了這一實驗,麥布里奇和助手們吃盡了苦頭,付出了大量的勞動,歷時六年的工夫,終于拍出了一套寶貴的"馬跑小道"的珍貴資料,同時也證實了這個美國富翁的預言是正確的。然而,麥布里奇的成功又向人們提出了一個新的問題:如何解決連續攝影的問題,因為他用24架照相機僅僅只能拍攝奔馬的一段動作,如果奔馬跑一公里的長距離,就得用成千上萬架照相機,膠卷的長度將會繞地球一周了。所以,如何運用一架單鏡頭的攝影機來代替多鏡頭的攝影機或者一組攝影機,就成了解決連續攝影的關鍵問題。
1874年,法國的朱爾·讓桑發明了一種攝影機。他將感光膠片卷繞在帶齒的供片盤上,在一個鐘擺機構的控制下,供片盤在圓形供片盒內做間歇供片運動,同時鐘擺機構帶動快門旋轉,每當膠片停下時,快門開啟曝光。讓桑將這種相機與一架望遠鏡相接,能以每秒一張的速度拍下行星運動的一組照片。讓桑將其命名為攝影槍, 這就是現代攝影機的始祖。
3,視頻經過哪些步驟,存儲到計算機中?
(1)成像 主要靠鏡頭來完成,拍攝主體反射的光線通過鏡頭進入相機后聚焦,形成清晰圖像。
(2)光電轉換 圖像落在CCD/CMOS光電器材上,通過光電轉換形成電信號。
(3)記錄
經處理器加工,進行編碼壓縮,然后把信號記錄在磁帶或存儲卡上。
四、聲音
1,聲音介紹
聲音:聲音是一種物理現象。物體振動時產生聲波通過空氣傳到人們的耳膜經過大腦的反射被感知為聲音。聲音有頻率和振幅的特征,頻率對應于時間軸線,振幅對應于電平軸線。聲音以波的形式振動(震動)傳播,聲音作為一種波,頻率在20 Hz~20 kHz之間的聲音是可以被人耳識別的。
音的高低:是由于物體在一定時間內的振動次數頻率而決定的。振動次數多音則高,振動次數少音則低。
音的長短:是由于音的延續時間的不同而決定的,音的延續時間長音則長,音的延續時間短音則短。
音的強弱:是由于振幅音的振動的幅度的大小決定的。振幅大音則強振幅小音則弱。
音色:即聲音的特色是由發聲體的材料、結構以及泛音的多少決定的。
種類:按照頻率分類:頻率低于20Hz的聲波稱為次聲波;頻率在 20Hz~20kHz的聲波稱為可聞聲;頻率在 20kHz~1GHz的聲波稱為超聲波;頻率大于1GHz的聲波稱為特超聲或微波超聲。
2,聲音存儲的發展,從 “模擬錄音” 到 “數字錄音”
談到錄音,不得不談到愛迪生發明的現代錄音設備的鼻祖:留聲機。留音機 最初是1877年偉大的世界發明大王愛迪生發明的,在一次調試話筒時因為聽力不好,愛迪生用一根針來檢驗傳話膜的震動,不料針接觸到話膜后隨著聲音的強弱變化產生一種有規律的顫動,而這一現象就成了他發明的靈感。
因為我們都知道,發送和接受是兩個相對應的過程。說話的快慢高低能使短針發生相應的不同顫動,那么反過來,這種顫動也能發出原來的說話聲音,可以將聲波變換成金屬針的震動,然后將波形刻錄在圓筒形臘管的錫箔上。當針再一次沿著刻錄的軌跡行進時,便可以重新發出留下的聲音。于是他就用這一原理制作出了他的第一臺留音機。隨著歷史的發展慢慢經過了 :機械錄音(以留聲機、機械唱片為代表)----- 光學錄影(以電影膠片為代表)----- 磁性錄音(以磁帶錄音為代表)等模擬錄音方式,直到二十世紀七、八十年代逐漸開始進入了數字錄音(數字音頻)的時代。
3,數字音頻什么是音頻?音頻(Audio)指人能聽到的聲音包括語音、音樂和其它聲音如環境聲、音效聲、自然聲等。
為什么要存在數字音頻 ?由物理學可知,復雜的聲波由許許多多具有不同振幅和頻率的正弦波組成。代表聲音的模擬信息是個連續的量,不能由計算機直接處理,必須將其數字化。經過數字化處理之后的數字聲音信息能夠像文字和圖形信息一樣進行存儲、檢索、編輯和其它處理。
什么是數字音頻?數字音頻是指使用數字編碼的方式也就是使用0和1來記錄音頻信息,它是相對于模擬音頻來說的。在CD光盤和計算機技術未出現之前都是模擬音頻(如錄音帶),其中數字/模擬轉換器簡稱:DAC、模擬/數字轉換器簡稱:ADC. 我們知道聲音可以表達成一種隨著時間的推移形成的一種波形:
但是如果想要直接描述這樣的一個曲線存儲到計算機中,是沒有辦法描述的。假如描述也只能是這樣表達:曲線下去了,上去了,又下去了,又上去了,顯然這樣是很不合理的。人們想到了一個辦法:
每隔一個小小的時間間隔,去用尺子量一下這個點的位置在哪里。那么只要這個間隔是一定的,我們就可以把這個曲線描述成:{9,11,12,13,14,14,15,15,15,14,14,13,12,10,9,7...} 這樣描述是不是比剛才的方法要精確多了?
如果我們把這個時間間隔取得更小,拿的尺子越精確,那么測量得到的,用來描述這個曲線的數字也可以做到更加地精確。然后我們可以把這些電平信號轉化成二進制數據保存,播放的時候就把這些數據轉換為模擬的電平信號再送到喇叭播出,就可以了。用專業的術語來說,我們每兩次測一下位置的時間間隔,就是所謂的采樣率。采樣率等于多少,就意味著我們每秒鐘進行了多少次這樣的測量。所謂音質,就是指最后我們描述這個曲線的數字,到底和真實的曲線誤差有多大。數字聲音和一般磁帶、廣播、電視中的聲音就存儲播放方式而言有著本質區別。相比而言,它具有存儲方便、存儲成本低廉、存儲和傳輸的過程中沒有聲音的失真、編輯和處理非常方便等特點。
4,從“模擬信號”到“數字化”的過程:模擬信號到數字化的過程需要三個步驟:
(1)采樣:所謂采樣,即以適當的時間間隔觀測模擬信號波形不連續的樣本值替換原來的連續信號波形的操作,又稱為取樣。采樣的過程就是抽取某點的頻率值,很顯然,在一秒中內抽取的點越多,獲取得頻率信息更豐富。采樣的基本定理:為了復原波形,一次振動中,必須有2個點的采樣,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進行40k次采樣。
(2)量化:在數字音頻技術中,把表示聲音強弱的模擬電壓用數字表示,如0.5V電壓用數字20表示,2V電壓是80表示。模擬電壓的幅度,即使在某電平范圍內,仍然可以有無窮多個,如1.2V,1.21V,1.215V…。而用數字來表示音頻幅度時,只能把無窮多個電壓幅度用有限個數字表示。即把某一幅度范圍內的電壓用一個數字表示,這稱之為量化。
(3)編碼:
計算機內的基本數制是二進制,為此我們也要把聲音數據寫成計算機的數據格式,這稱之為編碼。
5,數字音頻的分類:數字音頻主要包括兩類:波形音頻 和 MIDI音頻:** 波形音頻:** 波形音頻文件是通過聲音錄入設備錄制的原始聲音,直接記錄了原始真實聲音信息的數據文件,通常文件較大。MIDI音頻:譯作樂器數字化接口,是為了把電子樂器與計算機相連而制定的一個規范,是數字音樂的國際標準。數字式電子樂器的出現,為計算機處理音樂創造了極為有利的條件。MIDI聲音與數字化波形聲音完全不同,它不是對聲波進行采樣、量化和編碼,而是將電子樂器鍵盤的彈奏信息記錄下來,包括鍵名、力度、時值長短等,這些信息稱之為MIDI消息,是樂譜的一種數字式描述。當需要播放時,只需從相應的MIDI文件中讀出MIDI消息,生成所需要的樂器聲音波形,經放大后由揚聲器輸出。
五、視頻相關專業術語
(1)視頻:連續的圖象變化每秒超過24幀(Frame)畫面以上時,根據視覺暫留原理,人眼無法辨別單幅的靜態畫面,看上去是平滑連續的視覺效果,這樣連續的畫面叫做視頻。r
(2)幀(Frame):是影像中常用的最小單位,相當于電影中膠片的每一格鏡頭,一幀就是一副靜止的畫面,連續的幀就形成了視頻。
(3)幀速率(FPS):每秒鐘所傳輸圖片的個數,也可以理解為處理器每秒刷新的次數,通常用FPS標識,當然幀數越高,畫面也就越流暢。
(4)轉碼 :指將一段多媒體包括音頻、視頻或者其他的內容從一種編碼格式轉換成為另外一種編碼格式。(原視頻 -- 解碼 -- 像素數據 -- 編碼 -- 目標視頻)(原音頻 -- 解碼 -- 音頻數據 -- 編碼 -- 目標音頻)
(5)視頻編碼:講到視頻編碼,大家可能都會問為什么視頻要編碼?--- 要知道,采集的原始音視頻信號體積都非常大,里面有很多相同的、眼看不到的、耳聽不到的內容,比如,如果視頻不經過壓縮編碼的話,體積通常是非常大的,一部電影可能就要上百G的空間。--- 專業的來說,視頻編碼也就是文件當中的視頻所采用的壓縮算法,視頻編碼的主要作用是將視頻像素數據(RGB,YUV等)壓縮成為視頻碼流,從而降低視頻的數據量。
(6)視頻解碼:有了編碼,當然也需要有解碼。因為壓縮(編碼)過的內容無法直接使用,使用(觀看)時必須解壓縮,還原為原始的信號(比如視頻中某個點的顏色等),這就是“解碼“或者”解壓縮“。
(7)采樣頻率:指錄音設備在一秒鐘內對聲音信號的采樣次數,它用赫茲(Hz)來表示,比如44.1KHz采樣率的聲音就是要花費44000個數據點來描述1秒鐘的聲音波形。原則上采樣率越高,聲音質量越好。
(8)采樣位數:表示了計算機度量聲音波形幅度(音量)的精度,就是通常所說的聲卡的位數。就像表示顏色的位數一樣(8位表示256種顏色,16位表示65536種顏色),有8位,16位,24位等。這個數值越大,解析度就越高,錄制和回放的聲音就越真實。每一個采樣點都需要用一個數值來表示大小,這個數值的數據類型大小可以是:8bit、16bit、32bit 等等,位數越多,表示得就越精細,聲音質量自然就越好,而數據量也會成倍增大。我們在音頻采樣過程中常用的位寬是 8bit 或者 16bit。
(9)比特率(碼率):表示單位時間(1秒)內傳送的比特數,一般我們用的單位是kbps,其英文是 Kilobits per second,意即“千位每秒”(根據發音亦譯作“千比特每秒”),意思是說每過一秒鐘,有多少千比特的數據流過,因此碼率也經常被稱為“比特率”。---音頻中碼率:就是音頻文件或者音頻流中1秒中的數據量,如1.44Mbps,就是1秒鐘內的數據量1.44Mbits 。
碼率越高,傳送的數據越大,音質越好,聲音比特率 = 采樣率(Hz) x 采樣位數(bit) x 聲道數.---視頻中碼率:原理與聲音中的相同,都是指由模擬信號轉換為數字信號后,單位時間內的二進制數據量,通俗來講就是把每秒顯示的圖片進行壓縮后的數據量。視頻比特率(位/秒)= (畫面尺寸彩色位數(bit)幀數)** 假設有一張標準音樂CD光盤容量是746.93MB(注意大B是字節,小b是位。一字節(B)等于8位(b)。) CD音頻是以采樣率為44.1KHZ,采樣位數為16位,左右雙聲道(立體聲)進行采樣的。而一張標準CD光盤的時長是74分鐘。那么容量計算公式為:(44100 x 16 x 2)/8 x (74 x 60)=783216000字節 轉為MB為 783216000/1024/1024=746.93MB(兆字節) *
*(9)場頻:場頻又稱為刷新頻率,即顯示器的垂直掃描頻率,指顯示器每秒所能顯示的圖象次數,單位為赫茲(Hz)。一般在60-100Hz左右 場頻也叫屏幕刷新頻率,指屏幕在每秒鐘內更新的次數。人眼睛的視覺暫留約為每秒16-24次左右,因此只要以每秒30次或更短的時間間隔來更新屏幕畫面,就可以騙過人的眼睛,讓我們以為畫面沒有變過。實際上每秒30次的屏幕刷新率所產生的閃爍現象我們的眼睛仍然能夠察覺從而產生疲勞的感覺。所以屏幕的場頻越高,畫面越穩定,使用者越感覺舒適。另外:熒光屏上涂的是中短余輝熒光材料,如果電子槍不進行不斷的反復“點亮”、“熄滅”熒光點 的話,就會導致圖像變化時前面圖像的殘影滯留在屏幕上。
一般屏幕刷新率場頻在每秒75次以上人眼就完全覺察不到了,所以建議場頻設定在75Hz-85Hz之間,這足以滿足一般使用者的需求了。場頻越大,圖象刷新的次數越多,圖象顯示的閃爍就越小,畫面質量越高。注意,這里的所謂“刷新次數”和我們通常在描述游戲速度時常說的“畫面幀數”是兩個截然不同的概念。后者指經電腦處理的動態圖像每秒鐘顯示顯像管電子槍的掃描頻率。場頻與圖像內容的變化沒有任何關系,即便屏幕上顯示的是靜止圖像,電子槍也照常更新。掃描頻率過低會導致屏幕有明顯的閃爍感,即穩定性差,容易造成眼睛疲勞。早期顯示器通常支持60Hz的掃描頻率,但是不久以后的調查表明,仍然有5%的人在這種模式下感到閃爍,因此VESA組織于1997年對其進行修正,規定85Hz逐行掃描為無閃爍的標準場頻。
常見疑問:
(1)為什么視頻需要壓縮?未經壓縮的數字視頻的數據量巨大,存儲困難,一張DVD只能存儲幾秒鐘的未壓縮數字視頻。如果不進行壓縮,1兆的帶寬傳輸一秒的數字電視視頻需要大約4分鐘。
(2)為什么常見的CD,都是為44.1kHz ?人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進行40k次采樣,用40kHz表達,但是為什么大部分都是44.kHz 呢. 最開始,人們采用錄像帶當做數碼設備當時世界上錄像機主要有兩大制式:歐洲的PAL制式和美國日本的NTSC制式。適用于PAL制式錄像機的編碼器,其采樣頻率就是44.1kHz。適用于NTSC制式錄像機的編碼器,其采樣頻率就是44.056 ,后來統一到44.1kHz了。當時PAL 制式的錄像機 :3個采樣點 x 245條掃描線 x 60Hz場頻 ( 3 x 245 x 60 = 44100) ** --- 總的來說就是歷史原因 --- **
(2)奈魁斯特(NYQUIST)采樣定理是?用2倍于一個正弦波的頻率進行采樣就能完全真實地還原該波形,因此一個數碼錄音波的采樣頻率的取值直接關系到它的最高還原頻率指標。例如用44.1KHZ的采樣頻率進行采樣,則可還原為最高22.05KHZ的頻率——這個數值略高于人耳的聽覺極限。
(3)無損壓縮和有損壓縮的區別是什么?
有損壓縮:相當于一本書頁數特別多,文字特別多,加入我們把書中修飾詞去掉,啰嗦的情節去掉,雖然去掉這些,但是核心思想還沒變,這就是類似于有損壓縮。
無損壓縮:相當于一本書特別長,我們把里面重復出現的人名,地名,用符號代替,然后書中標注上所有這些符號所代表的人名或地名,這樣就短了些,這種就類似于無損壓縮 。
六、視頻的構成
一個完整的視頻文件是由音頻和視頻2部分組成的,而視音頻又是由封裝格式和編碼格式構成,我們在表面看到的如AVI、RMVB、MKV、WMV、MP4、3GP、FLV等文件其實只能算是一種封裝標準,一個外殼。外殼里面核心還有一層是編碼文件,編碼文件經過封裝后,才成為我們現在看到的.mp4 .avi等視頻。如H.264、mpeg-4等就是視頻編碼格式, MP3、AAC等就是音頻編碼格式。
例如:將一個H.264視頻編碼文件和一個MP3視頻編碼文件按AVI封裝標準封裝以后,就得到一個AVI后綴的視頻文件,這個就是我們常見的AVI視頻文件了。部分技術先進的容器還可以同時封裝多個視頻、音頻編碼文件,甚至同時封裝進字幕,如MKV封裝格式。MKV文件可以做到一個文件包括多語種發音、多語種字幕,適合不同人的需要。1,封裝格式
(1)封裝格式(也叫容器)就是將已經編碼壓縮好的視頻軌和音頻軌按照一定的格式放到一個文件中,也就是說僅僅是一個外殼,可以把它當成一個放視頻軌和音頻軌的文件夾也可以。 (2)通俗點說視頻軌相當于飯,而音頻軌相當于菜,封裝格式就是一個碗,或者一個鍋,用來盛放飯菜的容器。 (3)封裝格式和專利是有關系的,關系到推出封裝格式的公司的盈利。 (4)有了封裝格式,才能把字幕,配音,音頻和視頻組合起來。 (5)常見的AVI、RMVB、MKV、ASF、WMV、MP4、3GP、FLV等文件都指的是一種封裝格式。
舉例MKV格式的封裝:
2,編碼格式
編碼格式指的是對封裝格式中視頻流數據的壓縮編碼方式的一種描述。視頻不進行壓縮的話,體積會非常大。
視頻壓縮,主要壓縮了哪些東西:空間冗余:圖像相鄰像素之間有較強的相關性 時間冗余:視頻序列的相鄰圖像之間內容相似 編碼冗余:不同像素值出現的概率不同 視覺冗余:人的視覺系統對某些細節不敏感 知識冗余:規律性的結構可由先驗知識和背景知識得到
常見的編碼格式有以下視頻編碼格式:
音頻編碼格式:
國際上制定視頻編解碼技術的組織有兩個:1,“國際標準化組織(ISO)” 它制定的標準有MPEG-1、MPEG-2、MPEG-4 等。視頻編碼:(1)MPEG-1 :制定于1993年,較早的視頻編碼,質量比較差,它是為CD光盤介質定制的視頻和音頻壓縮格式。主要用于 CD-ROM 存儲視頻,國內最為大家熟悉的就是 VCD(Video CD),他的視頻編碼就是采用 MPEG-1。MPEG-1的壓縮算法可以把一部 120 分鐘長的電影(原始視頻文件)壓縮到1.2 GB左右大小.(*.dat格式的文件) MPEG-1音頻分三層,就是MPEG-1 Layer I, II, III,其中第三層協議也就是MPEG- 1 Layer 3,簡稱MP3。MP3目前已經成為廣泛流傳的音頻壓縮技術。缺點:
1個音頻壓縮系統限于兩個通道(立體聲)
沒有為隔行掃描視頻提供標準化支持,且壓縮率差
只有一個標準化的“profile” (約束參數比特流),不適應更高分辨率的視頻。MPEG - 1可以支持4k的視頻,但難以提供更高分辨率的視頻編碼并且標識硬件的支持能力。
支持只有一個顏色空間,40。
(2)MPEG-2 :制定于1994年,通常用來為廣播信號提供視頻和音頻編碼, 包括衛星電視、有線電視等。MPEG-2經過少量修改后,也成為DVD產品的內核技術。使用MPEG-2的壓縮算法制作一部 120 分鐘長的電影(原始視頻文件)在4GB到8GB大小左右.(*.vob格式的文件) **
(3)MPEG-3 :原本目標是為高解析度電視(HDTV)設計,隨后發現MPEG-2已足夠HDTV應用,故 MPEG-3的研發便中止。
(4)MPEG-4 :公布于1998年,為了應對網絡傳輸等環境,傳統的 MPEG-1/2 已經不能適應,所以促使了 MPEG-4 的誕生, MPEG-4,主要用途在於網上流媒體、光碟、 語音傳送(視訊電話),以及電視廣播。MPEG-4 不僅是針對一定比特率下的視頻、音頻編碼,更加注重了多媒體系統的交互性和靈活性。利用很窄的帶寬,通過幀重建技術,壓縮和傳輸數據,以求以最少的數據獲得最佳的圖像質量。MPEG-4代表了基于模型/對象的第二代壓縮編碼技術,它充分利用了人眼視覺特性,抓住了圖像信息傳輸的本質,從輪廓、紋理思路出發,支持基于視覺內容的交互功能,這適應了多媒體信息的應用由播放型轉向基于內容的訪問、檢索及操作的發展趨勢。
** 2,“國際電聯(ITU-T)” 它制定的標準有H.261、H.263、H.263+ 等。
視頻編碼:
** (1)H.261 : ** 約1990年制定,是最早的運動圖像壓縮標準,它詳細制定了視頻編碼的各個部分, 主要在老的視頻會議和視頻電話產品中使用,它是第一個實用的數字視頻編碼標準。H.261的設計相當成功,之后的視頻編碼國際標準基本上都是基于 H.261相同的設計框架,包括 MPEG-1,MPEG-2/H.262,H.263,甚至 H.264 。
** (2)H.263 : ** 約1996年制定 H.263的編碼算法與H.261一樣,但做了一些改善和改變,以提高性能和糾錯能力。
** (3)H.264:** H.264等同于MPEG-4的第10部. H.264/AVC是兩大組織集合H.263+和Mpeg4的優點聯合推出的最新標準,更高的數據壓縮比。在同等的圖像質量條件下,H.264的數據壓縮比能比H.263高2倍,比MPEG-4高1.5倍, 舉個例子,原始文件的大小如果為88GB,采用MPEG-2壓縮標準壓縮后變成3.5GB,壓縮比為25∶1,而采用H.264壓縮標準壓縮后變為879MB,從88GB到879MB,H.264的壓縮比達到驚人的102∶1。(ITU-T給這個標準命名為H.264(以前叫做H.26L), 而ISO/IEC稱它為MPEG-4 AVC 高級視頻編碼(Advanced Video Coding,AVC),并且它將成為MPEG-4標準的第10部分) 從H.261視頻編碼建議,到H.262/3、MPEG-1/2/4等都有一個共同的不斷追求的目標,即在盡可能低的碼率(或存儲容量)下獲得盡可能好的圖像質量。
3,視頻編碼的發展歷史
4,常見視頻封裝格式介紹
** (1) AVI:** 即Audio Video Interleaved(音頻視頻交錯格式),由微軟在 1992年11月推出的一種多媒體文件格式,用于對抗蘋果Quicktime的技術。現在所說的AVI多是指一種封裝格式。AVI格式上限制比較多,只能有一個視頻軌道和一個音頻軌道(現在有非標準插件可加入最多兩個音頻軌道),還可以有一些附加軌道,如文字等。AVI格式不提供任何控制功能。
特點:兼容性好、跨平臺支持、恒定幀率,體積大、容錯性差,不是流媒體,已經過時。
** (2) MKV:** 它是一種新的多媒體封裝格式,是一種萬能的封裝容器,這個封裝格式可把多種不同編碼的視頻及16條或以上不同格式的音頻和語言不同的字幕封裝到一個Matroska Media檔內。
特點:支持多音軌、軟字幕、流式傳輸、強大的兼容性, 能夠在一個文件中容納無限數量的視頻、音頻、圖片或字幕軌道,任何視頻編碼文件都可以放入MKV 。
** (3) MP4:** MP4是比較新的封裝格式,但是相對于萬能的MKV,功能遜色一些,但是對于目前的非電腦平臺,可移植性較好。
特點:體積最小,清晰度高、流式傳輸、強大的兼容性,手機平板等眾多終端支持。
** (4) MOV:** MOV是Apple公司開發的QuickTime音頻、視頻文件封裝格式, 默認的播放器是蘋果的QuickTime 。MOV具有較高的壓縮比率和較完美的視頻清晰度等特點,但是其最大的特點還是跨平臺性,即不僅能支持MacOS,同樣也能支持Windows系列。MOV采用了有損壓縮方式的MOV格式文件,畫面效果較AVI格式要稍微好一些。
特點:與AVI同期推出,比較老,不流行。
** (4) RM:** Real Networks公司所制定的音頻/視頻壓縮規范Real Media中的一種,Real Player能做的就是利用Internet資源對這些符合Real Media技術規范的音頻/視頻進行實況轉播。在Real Media規范中主要包括三類文件:RealAudio、Real Video和Real Flash (Real Networks公司與Macromedia公司合作推出的新一代高壓縮比動畫格式)。REAL VIDEO (RA、RAM)格式由一開始就是定位就是在視頻流應用方面的,也可以說是視頻流技術的始創者。
(5) RMVBRealMedia可變比特率(RMVB)是RealNetworks公司開發的RealMedia多媒體數字容器格式的可變比特率(VBR)擴展版本,較上一代RM格式畫面要清晰很多,原因是降低了靜態畫面下的比特率。它的先進之處在于RMVB視頻格式打破了原先RM格式那種平均壓縮采樣的方式,在保證平均壓縮比的 基礎上合理利用比特率資源,就是說靜止和動作場面少的畫面場景采用較低的編碼速率,這樣可以留出更多的帶寬空間,而這些帶寬會在出現快速運動的畫面場景時 被利用。這樣在保證了靜止畫面質量的前提下,大幅地提高了運動圖像的畫面質量,從而圖像質量和文件大小之間就達到了微妙的平衡。
(6) WMV.WMV文件其實不是一個封裝格式。WMV(Windows Media Video)是微軟公司開發的一組數字視頻編解碼格式的通稱,它是Windows Media架構下的一部分。具體的這些,大家可以私下去查詢下。
微軟也開發了一種稱之為ASF(Advanced Systems Format)的數字容器格式,用來保存WMV的視頻編碼。在同等視頻質量下,WMV格式的文件可以邊下載邊播放,因此很適合在網上播放和傳輸。** (7) ASF:** 用于微軟WMA和WMV的標準容器。ASF (Advanced Streaming format高級流格式), ASF是MICROSOFT 為了和現在的 Real player 競爭而發展出來的一種可以直接在網上觀看視頻節目的文件壓縮格式。ASF使用了MPEG4的壓縮算法,壓縮率和圖像的質量都很不錯。因為ASF是以一個可以在網上即時觀賞的視頻“流”格式存在的,所以它的圖像質量比VCD差一點點并不出奇,但比同是視頻“流”格式的RAM格式要好。
(8) FLV:Flash Video(簡稱FLV)是由Macromedia公司開發的屬于自己的流式視頻格式,FLV也就是隨著Flash MX的推出發展而來的視頻格式,是在sorenson公司的壓縮算法的基礎上開發出來的。FLV格式不僅可以輕松的導入Flash中,速度極快,并且能其到保護版權的作用,并且可以不通過本地的微軟或者REAL播放器播放視頻。Flash MX 2004對其提供了完美的支持,它的出現有效地解決了視頻文件導入Flash后,使導出的SWF文件體積龐大,不能在網絡上很好的使用等缺點。由于它形成的文件極小、加載速度極快,使得網絡觀看視頻文件成為可能,它的出現有效地解決了視頻文件導入Flash后,使導出的SWF文件體積龐大,不能在網絡上很好的使用等缺點。
** 特點:視頻質量良好、體積小、在線播放、非常普及 。
**(8) 藍光BD封裝:大容量光碟格式,容量分為25G-100G,BD的主視頻文件為m2ts封裝格式,用Remux無損的提取BD文件為TS封裝格式可用PC播放。特點:體積超大、超高清格式、聲道、字幕可選擇
5,音頻編碼與封裝格式介紹
PCM :是一種的很基本的編碼方式,雖然簡單,但是好用,它被稱為無損編碼,也就是模擬信號轉成數字信號不壓縮,只轉換,就是經過話筒錄音后直接得到的未經壓縮的數據流,對于音頻來說,CD就是采用PCM編碼。
有損壓縮格式:**
MP3(MPEG Audio Layer3):一個有損數據壓縮格式,它丟棄掉脈沖編碼調制(PCM)音頻數據中對人類聽覺不重要的數據,從而達到了小得多的文件大小。它是目前最為普及的音頻壓縮格式,常用于互聯網上的高質量聲音的傳輸,MP3可以做到12:1的驚人壓縮比并保持基本可聽的音質。
AAC (高級音頻編碼):出現于1997年,是基于MPEG-2的音頻編碼技術,由Fraunhofer IIS、杜比、蘋果、AT&T、索尼等公司共同開發,是在MP3基礎上開發出來,,目的是取代MP3格式。2000年,MPEG-4標準出現后,AAC重新集成了其特性,加入了SBR技術和PS技術,為了區別于傳統的MPEG-2 AAC又稱為MPEG-4 AAC,AAC可以在對比MP3文件縮小30%的前題下提供更好的音質。
WMA (Windows Media Audio):是微軟開發的一種數字音頻壓縮格式,WMA格式是以減少數據流量但保持音質的方法來達到更高的壓縮率目的,其壓縮率一般可以達到1:18,生成的文件大小只有相應MP3文件的一半。
無損壓縮格式:
**WAV :是微軟公司開發的一種聲音文件格式,是音樂由物理介質(CD碟)轉換為數字形式所得到的聲音文件,是最早的數字音頻格式,被Windows平臺及其應用程序廣泛支持, WAV是最接近無損的音樂格式,所以文件大小相對也比較大。(WAV格式對存儲空間需求太大不便于交流和傳播)
FLAC :無損音頻壓縮編碼,它不會破壞任何原有的音頻信息,所以可以還原音樂光盤音質,基本上能節省wav 40%的碼率,FLAC相對于同類如APE,在處理遇到爆音處時會靜音處理,并且相比APE的解碼復雜程度要較低(解碼運算量小、只需要整數運算),解碼速度奇快,容錯高,不容易損壞。
APE :APE這類無損壓縮格式,同樣不會破壞任何音頻信息, 相較同類文件格式FLAC,特色是壓縮率約為55%,比FLAC高,體積大概為原CD的一半,但是APE文件的容錯性較差,只要在傳輸過程中出現一點差錯,就會讓整首APE音樂作廢。
常見封裝格式與編碼格式的對應
七、播放一個網絡上視頻需要的步驟
1,解協議:就是將流媒體協議的數據,解析為標準的相應的封裝格式數據,這些協議在傳輸視音頻數據的同時,也會傳輸一些信令數據,解協議的過程中會去除掉信令數據而只保留視音頻數據。
2,解封裝:就是將輸入的封裝格式的數據,分離成為音頻流壓縮編碼數據和視頻流壓縮編碼數據。
3,解碼:就是將視頻/音頻壓縮編碼數據,解碼成為非壓縮的視頻/音頻原始數據。把壓縮編碼的視頻數據,輸出成為非壓縮的顏色數據,例如YUV420P,RGB等等;把壓縮編碼的音頻數據,輸出成為非壓縮的音頻抽樣數據,例如PCM數據。
4,視音頻同步:就是根據解封裝模塊處理過程中獲取到的參數信息,同步解碼出來的視頻和音頻數據,并將視頻音頻數據送至系統的顯卡和聲卡播放出來。
審核編輯 :李倩
-
mp4
+關注
關注
0文章
39瀏覽量
28478 -
電磁波
+關注
關注
21文章
1454瀏覽量
53845 -
光譜
+關注
關注
4文章
823瀏覽量
35188
發布評論請先 登錄
相關推薦
評論