來源:碼農(nóng)猿星球
Linux 服務(wù)器收到網(wǎng)絡(luò)數(shù)據(jù)包,需要經(jīng)過哪些處理,一步步將數(shù)據(jù)傳給應(yīng)用進程的呢?應(yīng)用進程發(fā)送數(shù)據(jù)包時,Linux 又是如何操作將數(shù)據(jù)包發(fā)送出去的呢?今天我們就來聊聊這個話題。
在準(zhǔn)備好接收網(wǎng)絡(luò)數(shù)據(jù)包之前,Linux需要做很多準(zhǔn)備工作,例如:網(wǎng)絡(luò)子系統(tǒng)的初始化、協(xié)議棧的注冊、網(wǎng)卡驅(qū)動的初始化、啟動網(wǎng)卡等等,只有這些都準(zhǔn)備好了之后,才能真正開始接收網(wǎng)絡(luò)包。
網(wǎng)絡(luò)協(xié)議棧
在介紹Linux收發(fā)網(wǎng)絡(luò)數(shù)據(jù)包之前,我們先來了解一下Linux網(wǎng)絡(luò)協(xié)議棧。
國際標(biāo)準(zhǔn)化組織制定了開放式系統(tǒng)互聯(lián)通信參考模型(Open System Interconnection Reference Model),也就是 OSI 網(wǎng)絡(luò)模型,該模型主要有 7 層,分別是應(yīng)用層、表示層、會話層、傳輸層、網(wǎng)絡(luò)層、數(shù)據(jù)鏈路層以及物理層。
由于 OSI 模型太復(fù)雜,提出的只是存在于概念和理論上的一種模型,分層太多,增加了網(wǎng)絡(luò)工作的復(fù)雜性,所以沒有大規(guī)模應(yīng)用。 我們比較常見是TCP/IP 網(wǎng)絡(luò)模型,Linux 系統(tǒng)正是按照這套網(wǎng)絡(luò)模型來實現(xiàn)網(wǎng)絡(luò)協(xié)議棧的。
TCP/IP 網(wǎng)絡(luò)模型共有 4 層,分別是應(yīng)用層、傳輸層、網(wǎng)絡(luò)層和網(wǎng)絡(luò)接口層,每一層負(fù)責(zé)的職能如下:
1、應(yīng)用層?對應(yīng)于OSI參考模型的高層,為用戶提供所需要的各種服務(wù),例如:FTP、Telnet、DNS、SMTP等.
2、傳輸層?對應(yīng)于OSI參考模型的傳輸層,為應(yīng)用層實體提供端到端的通信功能,保證了數(shù)據(jù)包的順序傳送及數(shù)據(jù)的完整性。該層定義了兩個主要的協(xié)議:傳輸控制協(xié)議(TCP)和用戶數(shù)據(jù)報協(xié)議(UDP).
3、網(wǎng)絡(luò)層?對應(yīng)于OSI參考模型的網(wǎng)絡(luò)層,主要解決主機到主機的通信問題。它所包含的協(xié)議設(shè)計數(shù)據(jù)包在整個網(wǎng)絡(luò)上的邏輯傳輸。注重重新賦予主機一個IP地址來完成對主機的尋址,它還負(fù)責(zé)數(shù)據(jù)包在多種網(wǎng)絡(luò)中的路由。該層有三個主要協(xié)議:網(wǎng)際協(xié)議(IP)、互聯(lián)網(wǎng)組管理協(xié)議(IGMP)和互聯(lián)網(wǎng)控制報文協(xié)議(ICMP)。
4、網(wǎng)絡(luò)接口層?與OSI參考模型中的物理層和數(shù)據(jù)鏈路層相對應(yīng)。它負(fù)責(zé)監(jiān)視數(shù)據(jù)在主機和網(wǎng)絡(luò)之間的交換。事實上,TCP/IP本身并未定義該層的協(xié)議,而由參與互連的各網(wǎng)絡(luò)使用自己的物理層和數(shù)據(jù)鏈路層協(xié)議,然后與TCP/IP的網(wǎng)絡(luò)接入層進行連接。地址解析協(xié)議(ARP)工作在此層,即OSI參考模型的數(shù)據(jù)鏈路層。
接收網(wǎng)絡(luò)數(shù)據(jù)包
網(wǎng)絡(luò)數(shù)據(jù)包到達網(wǎng)卡后,按照FIFO順序被存入網(wǎng)卡的接收隊列,網(wǎng)卡通過 DMA 技術(shù),將網(wǎng)絡(luò)包寫入到指定的內(nèi)存地址(Ring Buffer)。
Ring Buffer是在網(wǎng)卡驅(qū)動程序啟動時創(chuàng)建和初始化的,存儲的是sk_buff緩沖區(qū)的描述符(物理地址和大小等)。
當(dāng)網(wǎng)絡(luò)包到達時,從Ring Buffer獲取指向的sk_buff描述符,通過DMA將數(shù)據(jù)寫入該地址。等sk_buff中的數(shù)據(jù)交由上層協(xié)議棧處理后,Ring Buffer中的描述更新為新分配的sk_buff。
接著網(wǎng)卡向 CPU 發(fā)起硬件中斷,當(dāng) CPU 收到硬件中斷請求后,根據(jù)中斷注冊表,找到注冊的中斷處理函數(shù)。
硬件中斷處理函數(shù)會做如下的事情:
1、屏蔽網(wǎng)卡的中斷
目的是避免CPU被頻繁中斷而無法處理其他任務(wù),屏蔽中斷是告訴網(wǎng)卡已經(jīng)知道內(nèi)存中有數(shù)據(jù)了,下次再收到數(shù)據(jù)包直接寫內(nèi)存就可以了,不要再通知 CPU 了。
2、發(fā)起軟中斷,恢復(fù)剛才屏蔽的中斷
內(nèi)核中的 ksoftirqd 線程收到軟中斷后,就會調(diào)用相應(yīng)軟中斷的處理函數(shù)來輪詢處理數(shù)據(jù),即:從Ring Buffer 中獲取一個數(shù)據(jù)幀,用 sk_buff 表示,作為一個網(wǎng)絡(luò)包交給網(wǎng)絡(luò)協(xié)議棧從下到上進行逐層處理。
網(wǎng)絡(luò)協(xié)議棧對網(wǎng)絡(luò)包的處理流程如下:
1、網(wǎng)絡(luò)接口層
首先,網(wǎng)絡(luò)接口層檢查報文的合法性和正確性,如果不合法或報文校驗不正確則丟棄,否則找出上層協(xié)議的類型(IPv4還是IPv6),去掉幀頭、幀尾,然后交給上層即網(wǎng)絡(luò)層處理。
2、網(wǎng)絡(luò)層
網(wǎng)絡(luò)層取出IP頭,判斷網(wǎng)絡(luò)包下一步的走向,是轉(zhuǎn)發(fā)還是交給上層。當(dāng)確認(rèn)網(wǎng)絡(luò)包是要發(fā)送給本機后,就取出上層協(xié)議的類型(比如TCP或UDP),去掉IP頭,然后交給傳輸層處理。
3、傳輸層
傳輸層取出 TCP 頭或者 UDP 頭后,根據(jù)四元組【 源 IP、源端口、目的 IP、目的端口 】,找出對應(yīng)的 Socket,并把數(shù)據(jù)拷貝到 Socket 的接收緩沖區(qū)。
4、應(yīng)用層
最后,應(yīng)用層程序調(diào)用 Socket 接口,將內(nèi)核的 Socket 接收緩沖區(qū)的數(shù)據(jù)拷貝到應(yīng)用層的緩沖區(qū)。
到這里,一個網(wǎng)絡(luò)包的接收過程就結(jié)束了。
發(fā)送網(wǎng)絡(luò)數(shù)據(jù)包
我們了解了網(wǎng)絡(luò)包的接收流程后,就很容易理解網(wǎng)絡(luò)包的發(fā)送流程了。網(wǎng)絡(luò)包的發(fā)送方向,正好跟接收方向相反。
首先,應(yīng)用程序調(diào)用 Socket 發(fā)送網(wǎng)絡(luò)包的接口。這是一個系統(tǒng)調(diào)用,會從用戶態(tài)陷入到內(nèi)核態(tài)的套接字層中。
套接字層會申請一個內(nèi)核態(tài)的 sk_buff 內(nèi)存,將用戶待發(fā)送的數(shù)據(jù)拷貝到 sk_buff 內(nèi)存,并將其加入到Socket發(fā)送緩沖區(qū)等待網(wǎng)絡(luò)協(xié)議棧的處理。
由于網(wǎng)絡(luò)數(shù)據(jù)包從應(yīng)用程序傳到內(nèi)核時是原始數(shù)據(jù),協(xié)議棧要在原始數(shù)據(jù)中加入通信約定才能保證數(shù)據(jù)到達服務(wù)端能被正確識別。網(wǎng)絡(luò)協(xié)議棧從 Socket 發(fā)送緩沖區(qū)中,取出數(shù)據(jù)包,然后按照 TCP/IP 棧的分層(傳輸層、網(wǎng)絡(luò)層、網(wǎng)絡(luò)接口層),從上到下逐層進行處理,各層將協(xié)議的頭信息不斷插入到數(shù)據(jù)包中。
協(xié)議棧對發(fā)送數(shù)據(jù)包的處理流程如下:
1、傳輸層
在傳輸層,會為器添加TCP頭,同時拷貝一個新的 sk_buff 副本 ,這是因為 sk_buff 在到達網(wǎng)卡發(fā)送完成的時候,會被釋放掉,而TCP 協(xié)議是支持重傳的,為確保網(wǎng)絡(luò)包可靠傳輸,在收到對方的 ACK 之前,這個 sk_buff 不能被刪除。
2、網(wǎng)絡(luò)層
在網(wǎng)絡(luò)層,主要會做這些工作:選取路由(確認(rèn)下一跳的 IP)、填充 IP 頭、netfilter 過濾、對超過 MTU 大小的數(shù)據(jù)包進行分片。處理完這些工作后會交給網(wǎng)絡(luò)接口層處理。
3、網(wǎng)絡(luò)接口層
網(wǎng)絡(luò)接口層會進行物理地址尋址,以找到下一跳的 MAC 地址,填充幀頭和幀尾,將其放到發(fā)送隊列中。然后觸發(fā)軟中斷告訴網(wǎng)卡驅(qū)動程序:隊列中有新的網(wǎng)絡(luò)包需要發(fā)送。驅(qū)動程序收到通知會通過 DMA ,從發(fā)送包隊列中讀出網(wǎng)絡(luò)幀,并通過DMA將數(shù)據(jù)寫入網(wǎng)卡的FIFO發(fā)送隊列。
4、網(wǎng)卡設(shè)備
網(wǎng)卡設(shè)備從FIFO發(fā)送隊列中取出數(shù)據(jù)包,將其發(fā)送到網(wǎng)絡(luò);當(dāng)發(fā)送完成的時候,網(wǎng)卡設(shè)備會觸發(fā)一個硬中斷來釋放內(nèi)存,主要是釋放 sk_buff內(nèi)存和清理 RingBuffer 內(nèi)存。最后,當(dāng)收到這個 TCP 報文的 ACK 應(yīng)答時,傳輸層就會釋放原始的 sk_buff。
至此,一個網(wǎng)絡(luò)包的發(fā)送流程就結(jié)束了。
評論
查看更多