本文轉載自:「云原生技術愛好者社區」
原文:https://tinyurl.com/6c3anmaj,版權歸原作者所有
1 DNS 基礎知識
互聯網基于 TCP/IP 協議。為了方便管理網絡內的主機,整個互聯網分為若干個域 (domain),每 個域又可以再分為若干個子域,例如,.com,.org,.edu 都是頂級域,而 google.com 是.com 下面的子域。
網絡中的任意一臺主機(host)都會屬于某個域,并且有自己的名字,稱為主機名( hostname)。例如 example.com 就是.com 域中一臺主機名為 example.com(或 example,hostname 和 domain name 的區別,見這里 )的主機。
域名/主機名是為了方便人記憶,而機器之間通信最終用的還是 IP 地址,因此需要一個將主 機名(域名)轉換成 IP 地址的服務。域名服務系統(DNS, domain name system)做的就是 這個事情,對應的服務器稱為域名服務器(Domain Name Server)。
例如,當通過瀏覽器訪問 example.com,瀏覽器會首先訪問 DNS 服務器,查找 example.com 對應的 IP 地址,然后和這個 IP 建立 TCP 連接,接下來才發起 HTTP 請求。
一個域名可以對應一個 IP 地址,也可以對應多個。對于后者,DNS 服務算法會從中選擇一個 地址返回。大部分網絡服務為了實現高可用,都是對應多個地址,我們后面會看到, baidu.com 就對應多個 IP。
有一些場景會導致訪問 DNS 服務不穩定,例如 DNS 服務器的設置有問題、網絡有丟包、主機 DNS 配置錯誤等等。我們接下來查看幾種 case。
2 準備測試環境
為方便大家跟著上手練習,本文將搭建一個容器環境。
Pull Docker 鏡像:
$sudodockerpullalpine:3.8
運行容器,注意這里一定要帶--privileged 參數 [2],否則后面的部分 tc 命令無法執行:
$sudodockerrun-d--privileged--namectn-1alpine:3.8sleep3600d $sudodockerps CONTAINERIDIMAGECOMMANDCREATEDSTATUSPORTSNAMES 233bc36bde4balpine:3.8"sleep3600d"1minutesagoUp14minutesctn-1
進入容器:
$sudodockerexec-itctn-1sh
查看容器網絡信息:
/#ifconfig eth0Linkencap:EthernetHWaddr02AC00:09 inetaddr:172.17.0.9Bcast:0.0.0.0Mask:255.255.0.0
3 DNS 配置
3.1 查看 DNS 配置
Linux 上的 DNS 配置在/etc/resolv.conf 里面。我們先來查看容器的配置:
/#cat/etc/resolv.conf #Dynamicresolv.conf(5)fileforglibcresolver(3)generatedbyresolvconf(8) #DONOTEDITTHISFILEBYHAND--YOURCHANGESWILLBEOVERWRITTEN nameserver192.168.1.11 nameserver192.168.1.12
這其實是繼承了宿主機的 DNS 配置,在宿主機上執行 cat /etc/resolv.conf 會看到一樣的 結果。
3.2 修改 DNS 配置
可以通過修改/etc/resolv.conf 里面的 nameserver 來配置自己想用的 DNS 服務器。例如內網環境可能都會使用自己的 DNS 服務器,因為它除了 提供內網域名解析之外,公網域名解析也會比較快(相比于網絡供應商的公網 DNS 服務器) 。
4 DNS 問題排查
本節模擬幾種導致 DNS 查詢變慢的場景,如果在實際環境中遇到類似現象,可以考慮往這些 方向排查。
4.1 機器未配置 DNS 導致域名查找失敗
現象:網絡是通的(例如 ping IP 通),但是 DNS 查詢總是失敗
可能的原因:機器沒有配置 DNS 服務器
解決辦法:修改/etc/resolv.conf,給機器配置合適的 DNS 服務器 有時新啟動的機器(不管是物理機、虛擬機還是容器)沒有設置 DNS,導致訪問域名不通。我們來復現一下。
在正常的容器里用 nslookup 工具查看域名對應的 IP 地址:
/#nslookupexample.com Name:example.com Address1:93.184.216.34 Address2:260622024825c8:1946
可以看到,我們獲取到了該域名一個 IPv4 地址和一個 IPv6 地址。
將/etc/resolv.conf 里的 DNS 服務器列表用#注釋掉,模擬沒有配置 DNS 服務器的場景。
再次測試:
/#nslookupexample.com nslookup:can'tresolve'example.com':Tryagain
所以遇到這種問題,可以先去排查/etc/resolv.conf 里面是否配置了 DNS 服務器。
4.2 DNS 服務太慢
現象:DNS 查詢太慢
可能的原因:配置的 DNS 服務器不合理
解決辦法:修改/etc/resolv.conf,配置合適的 DNS 服務器
每個公司一般都有自維護的 DNS 服務器,不僅用來解析內網 DNS,而且可以加速解析公網域名 。
dig 是另外一個功能更強大的 DNS 查詢工具,安裝:
/#apkupdate&&apkaddbind-tools
首先查看使用內網 DNS,查詢域名的延遲:
/#digexample.com ... example.com.15814INA93.184.216.34 ;;Querytime:0msec ;;SERVER:192.168.1.11#53(192.168.1.11)
可以看到非常快,在 1ms 以內。
然后我們測試如果使用 Google 的公網 DNS 服務器 8.8.8.8 [1],延遲會是多少。
修改/etc/resolv.conf,將其他 nameserver 注釋掉,添加一行 nameserver 8.8.8.8。
再次測試:
/#digexample.com ... example.com.15814INA93.184.216.34 ;;Querytime:150msec ;;SERVER:8.8.8.8#53(8.8.8.8)
延遲變成了 150ms,比原來大了 150 多倍。
因此,對于 DNS 查詢特別慢的場景,首先要查看配置的 DNS 服務器是否合理。
4.3 hardcode /etc/hosts 導致跳過 DNS 查詢
現象:某域名訪問太慢、某域名總是指向相同 IP(多 IP 情況下)、特定機器不可訪問 某域名等等
可能的原因:/etc/hosts 有 hardcode 域名及 IP
解決辦法:修改/etc/hosts
前面提到,大部分公網域名都對應多個 IP 地址,因此每次 DNS 查詢拿到的 IP 地址都可能不一 樣,我們用 ping 來測試一下:
/#pingbaidu.com PINGbaidu.com(220.181.57.216):56databytes 64bytesfrom220.181.57.216:seq=0ttl=45time=26.895ms 64bytesfrom220.181.57.216:seq=1ttl=45time=26.701ms ^C
/#pingbaidu.com PINGbaidu.com(123.125.115.110):56databytes 64bytesfrom123.125.115.110:seq=0ttl=43time=27.587ms 64bytesfrom123.125.115.110:seq=1ttl=43time=27.757ms ^C
可以看到,兩次 ping 測試(內部首先查詢 baidu.com 對應的 IP 地址)拿到的 IP 地址是不一樣 的。用 nslookup 可以看到它們都是 baidu.com 對應的 IP 地址:
/#nslookupbaidu.com Name:baidu.com Address:220.181.57.216 Name:baidu.com Address:123.125.115.110
/etc/hosts 里面可以直接 harcode 一個域名對應的 IP 地址,這會導致機器跳過 DNS 查詢,直接拿這個 IP 作 為該域名的 IP。我們來驗證一下。
修改/etc/hosts,添加一行 123.125.115.110 baidu.com,再次 ping 測試
/#pingbaidu.com PINGbaidu.com(123.125.115.110):56databytes 64bytesfrom123.125.115.110:seq=0ttl=43time=27.861ms ^C ---baidu.compingstatistics--- 1packetstransmitted,1packetsreceived,0%packetloss round-tripmin/avg/max=27.861/27.861/27.861ms /#pingbaidu.com PINGbaidu.com(123.125.115.110):56databytes 64bytesfrom123.125.115.110:seq=0ttl=43time=27.614ms ^C
這是不管執行多少次,baidu.com 對應的 IP 地址都不會變了。而實際上,這個 IP 地址并不一定是最優的 IP 地址,甚至有可能這 個 IP 不可用,導致訪問 baidu.com 失敗。因此,實際中要極力避免在/etc/hosts 中 hardcode。
4.4 DNS 查詢不穩定
現象:DNS 查詢不穩定,時快時慢
可能的原因:機器上有 tc 或 iptables 規則,導致到 DNS 服務器的 packet 變慢或丟失
解決辦法:修改或刪除 tc/iptables 規則
我們用 tc 來模擬網絡延遲:
/#apkaddiproute2
首先查看有沒有 tc 規則:
/#tc-pqdisclsdeveth0
默認沒有任何規則。
然后我們加一條:每個 packet 延遲 600ms:
/#tcqdiscadddeveth0rootnetemdelay600ms /#tc-pqdisclsdeveth0 /#qdiscnetem8001:rootrefcnt2limit1000delay600.0ms
測試:
/#digexample.com ... example.com.15814INA93.184.216.34 ;;Querytime:600msec ;;SERVER:192.168.1.11#53(192.168.1.11)
可以看到,DNS 查詢變成了 600ms。
這里我們測試的是固定延遲,這種問題很容易發現。我們還可以測試隨機延遲,或者按 比例延遲等 [2]:
/#tcqdiscchangedeveth0rootnetemdelay600ms10ms25% /#tcqdiscchangedeveth0rootnetemdelay600ms20msdistributionnormal
此類規則會導致 DNS 查詢速度更有隨機性。
最后刪除 tc 規則:
/#tcqdiscdeldeveth0root
iptables 規則也會導致類似的問題。
很多軟件在運行之后,會在宿主機上添加 tc 或 iptables 規則,例如 OpenStack,K8S 等等 。因此遇到這種隨機延遲問題,首先可以查看機器上是否有 tc 或 iptables 規則。
4.5 DNS 反向查詢不穩定
線上遇到過這樣一個問題:從一臺機器 ping 一個內網域名,每個 ping 包看起來都會卡 5 ~ 30s 不等,但是 CTL-C 關閉 ping 之后,打印出來的統計信息里,既沒有丟包,ping 的延遲也很低 (毫秒級),這就很奇怪。接下來:
dig,很快,毫秒級,說明 DNS 查詢沒有問題
dig 能看到域名對應的 IP,直接 ping 這個 IP,發現是沒有卡頓的
仍然 ping 域名,用 tcpdump 抓包,tcpdump -i eth0 hostand icmp,發現 ping 包都是立即響應的,印證了統計信息里,ping 延遲很低的事實
根據以上信息,說明 ping 卡頓的問題出在這臺機器,而且應該就是 ping 程序本身在做什么耗 時的操作。繼續:
仍然 ping 域名,同時,用 ltrace -p跟蹤 ping 進程,發現卡在一個叫 gethostbyaddr()的函數
查閱文檔,發現這個函數是根據 IP 反向查詢 hostname,需要和 DNS 交互
到這里,基本確定了是 DNS 服務器反向查詢的問題,我們用另外幾個命令行工具驗證一下, 以下三個命令都是根據 IP 反查 hostname:
nslookup
host
dig -x
果然,以上三個命令都會卡住。修改/etc/resolv.conf,換一個 DNS 服務器之后,問題 消失了。接下來,就去查 DNS 服務器的問題吧。
審核編輯:劉清
-
Linux系統
+關注
關注
4文章
595瀏覽量
27456 -
DNS
+關注
關注
0文章
219瀏覽量
19891 -
TCPIP協議
+關注
關注
0文章
35瀏覽量
11981 -
虛擬機
+關注
關注
1文章
919瀏覽量
28334 -
CTl
+關注
關注
0文章
6瀏覽量
7447
原文標題:5 種最常見的 DNS 故障診斷及問題處理方法
文章出處:【微信號:良許Linux,微信公眾號:良許Linux】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論