《CDN 之我見》原理篇——CDN的由來與排程

NO IMAGE
1 Star2 Stars3 Stars4 Stars5 Stars 給文章打分!
Loading...

CDN是將源站內容分發至全國所有的節點,從而縮短使用者檢視物件的延遲,提高使用者訪問網站的響應速度與網站的可用性的技術。它能夠有效解決網路頻寬小、使用者訪問量大、網點分佈不均等問題。

為了讓大家更全面的瞭解CDN的原理、排程、快取和安全等關鍵技術點,阿里雲高階技術專家白金將自己從事 CDN 相關領域工作 8 年來的一些經驗、收穫和個人認知撰寫成《CDN之我見》系列文章,分享給大家。

成多個部分,分為原理篇、詳解篇和隕坑篇,因為篇幅問題這裡先講第一部分。本篇章適合那些從未接觸過、或僅瞭解一些 CDN 專業術語,想深入瞭解和感受 CDN 究竟是什麼的同學。下面我們進入分享正文:

這個篇章,主要分成 4 個小部分來和大家做一下簡單的介紹和分享。

CDN的起源

CDN 誕生於二十多年前,隨著骨幹網壓力的逐漸增大,以及長傳需求的逐漸增多,使得骨幹網的壓力越來越大,長傳效果越來越差。於是在 1995 年,MIT 的應用數學教授 Tom Leighton 帶領著研究生 Danny Lewin 和其他幾位頂級研究人員一起嘗試用數學問題解決網路擁堵問題。

他們使用數學演算法,處理內容的動態路由安排,並最終解決了困擾 Internet 使用者的難題。後來,史隆管理學院的 MBA 學生 Jonathan Seelig 加入了 Leighton 的隊伍中,從那以後他們開始實施自己的商業計劃,最終於 1998 年 8 月 20 日正式成立公司,命名為 Akamai。

同年 1998 年,中國第一家 CDN 公司 ChinaCache 成立。

在接下來的20年中,CDN行業歷經變革和持續發展,行業也湧現出很多雲CDN廠商。阿里雲CDN是2008年從淘寶CDN起家,在2014年正式發展成為阿里雲CDN的,它不僅為阿里巴巴集團所有子公司提供服務,同時也將自身的資源、技術以雲端計算的方式輸出。

那什麼是 CDN 呢?

CDN 其實是 Content Delivery Network 的縮寫,即“內容分發網路”。

之後的拓撲圖,裡面有幾個概念需要明確一下:

Origin Server:源站,也就是做 CDN 之前的客戶真正的伺服器。
User:訪問者,也就是問網站的網民。
Edge Server:CDN 的伺服器,不單指“邊緣伺服器”,這個之後細說。
在 CDN 中,還有 3 個”一英里“的概念,即 First Mile、Middle Mile 和 Last Mile。

First Mile:和 CDN 客戶的伺服器越近越好的 CDN 裝置,即第一英里。
Last Mile:訪問者(網民)到離他最近的 CDN 伺服器,即最後一英里。
Middle Mile:資料從進入 CDN 網路,到出 CDN 網路之前的所有環節,即中間一英里。

為什麼要用 CDN 呢?

從上圖可以看到,左圖是未做 CDN 之前跨洋跨國的長傳業務,使用者從西班牙訪問到美國紐約要經過北大西洋,直線距離6,000km 左右,按照光速300,000km/s 的傳輸速度,一束光從西班牙到紐約也至少需要 20ms 時間,一個往返就需要 40ms。如果是光纖傳輸資料,加上傳輸損耗、傳輸裝置延時引入等,可能上百毫秒就出去了,即使用瀏覽器訪問一個再小不過的圖片,也會等個上百毫秒,積少成多,訪問一個美國購物網站會讓使用者無法接受。

右側這張圖是做過 CDN 之後的示意圖。從圖上可以看出,網民實際訪問到的伺服器不是位於美國的真實伺服器,而是位於英國的 CDN 伺服器。而 CDN 本身有快取功能,把那些網頁裡一成不變的內容,例如圖片、音樂、視訊等,都分發並快取到了各個 CDN 服務節點上,這樣網民就不必從西班牙訪問到紐約,而是訪問距離自己較近的英國節點即可,從而節省了 80% 以上的時間。

當然,這是一個西班牙訪問英國 CDN 節點的例子,如果 CDN 節點也位於西班牙本地,則效果會更加明顯,具體細節後續會有更詳細的說明。

接下來說一下排程。排程是 CDN 中的重中之重,流量接入、流量牽引、選擇合適的 CDN 節點伺服器等工作,都是在排程環節完成的。

要理解排程策略和原理,必須先了解 DNS 協議及其工作原理。

我們平時所工作的電腦裡,都會配置(人為或自動)一個 DNS 伺服器地址,我們稱之為”本地 DNS“,也叫 Local DNS,簡稱 LDNS。在解析一個域名的時候,實際訪問的不是”域名“而是 IP 地址,則 LDNS 伺服器的用途就是負責將域名翻譯成 Internet 可以識別的 IP 地址。

在請求某個域名時,LDNS 一般有兩個情況:一種是域名在 LDNS 上有記錄,另一種情況是沒有記錄,兩種情況的處理流程不一樣。

  • 假設當訪問 163 這個域名時,如果 LDNS 上有快取記錄,那它會直接將 IP 地址吐出來。
  • 如果沒有快取記錄,它將會一步步向後面的伺服器做請求,然後將所有資料進行彙總後交給最終的客戶,這個環節術語叫”遞迴“。

在完全不命中情況,LDNS 首先會向全球13個根域伺服器發起請求,詢問 .com 域名在哪裡,然後根域伺服器作出回答,然後去向 .com 的伺服器詢問 .163.com 在哪裡,一步步往下,最後拿到 www.163.com 這個域名所對應的 IP 地址。這個過程較複雜,如果大家感興趣可去查相關資料,在這就不一一贅述。

肯定很多人好奇是如何進行排程和進行定位的?其實也是通過 LDNS 的具體地址來進行的,如上圖所示。

假設網民是一個北京客戶,那他所使用的 DNS 伺服器去做遞迴的時會訪問到CDN廠商的 GLB(Global Load Balance),它可以看到所訪問的域名請求是來自於哪個 LDNS,根據一般人的使用習慣,網民所在位置和 LDNS 所在位置是一樣的,因此 GLB 可以間接知道網民來自什麼位置。

以上圖為例,假如網民是一個北京聯通的使用者,它使用的 LDNS 地址也是北京聯通的,而 LDNS 訪問 GLB 也是北京聯通的,則 GLB 則認為網民的位置在北京聯通,那麼會分配一個北京聯通的 CDN 伺服器地址給 LDNS,LDNS 將http:www.a.com解析出的 IP 地址返回給最終網民,那麼在以後網民瀏覽器發起請求的時候,都會直接與北京聯通的 CDN 節點進行流量通訊,從而達到了加速的目的。

從這個排程理論上看,我們可以不難發現一個問題,就是重點標註出的“根據一般人的使用習慣”。假設網民所使用的 LDNS 地址和他自己在同一個區域,排程才有可能是準確的(後續篇章會重點描述為什麼是“有可能”)。

但是舉個例子來說,如果網民是北京聯通的使用者,但他卻偏要使用深圳電信的 LDNS,LDNS 出口也同樣是深圳電信的 IP 地址,那麼 GLB 會誤判網民位於深圳電信,分配給網民的 CDN 伺服器也都是深圳電信的,後續網民會從北京聯通訪問到深圳電信,不但沒加速,可能反而降速了。

如前文所述,由於使用者使用習慣或一些其他原因,通過 LDNS 排程有可能是不準確的,因此又出現了另一種排程方式,HTTP 302 排程。

原理很簡單,無論網民最初拿到的 IP 地址是否是正確的,但最終都是要和這個 IP 地址的 CDN 伺服器通訊的,因此 CDN 伺服器可以在這時知道網民的真實地址(DNS 排程時只能間接知道網民地址,雖然 EDNS-Client-Subnet 技術可以解決問題,但尚未大規模使用)。

HTTP 協議中有一個特殊的返回狀態:302。在 HTTP 伺服器返回 302 狀態碼時,可以攜帶一個新的 URL(使用的是正確 IP),瀏覽器在拿到 302 返回狀態碼時,會提取其中新的 URL 地址發起請求,這樣就可以做到重新排程了。

除了 DNS 排程、HTTP 302 排程,還有一種使用 HTTP 進行的 DNS 排程策略。

隨著網路日新月異的發展和演進,也逐漸出現了很多鮮為人知的技術和裝置,例如劫持(具體在後面的篇章裡會單獨闡述)。劫持後,網民所訪問的目標有可能不再是真實伺服器,即使是真實伺服器,內容也有可能是虛假的、被替換過的,這對業務安全來說是十分危險的,這種劫持現象多出現在移動網際網路(手機上網)。

為了規避這種問題,出現了一種 HTTP DNS 的排程方式,原理是通過 HTTP 報文傳輸 DNS 請求和應答資訊。但這種方式沒有任何 RFC 的支援,所以沒有任何現成的作業系統直接支援,必須有自己的 HTTP DNS 客戶端,來與 HTTP DNS 服務端進行通訊,需要雙端支援。這種做法在 APP 中使用較多。

那 CDN 是如何將使用者的流量引入到 CDN 網路中的呢?

在未做 CDN 時,我們訪問某個域名,直接拿到的是一個真實的伺服器 IP 地址,這個顯示 IP 地址的 DNS 記錄資訊叫 A 記錄,一般是下圖這個樣子。

當業務需要接入到 CDN 時,使用者只需調整自己的 DNS 配置資訊,將 A 記錄改為 CNAME 記錄,將內容改為 CDN 廠商所提供的接入域名即可。

由於篇幅的關係,系列一先把 CDN 的歷史由來,以及排程相關的知識和大家分享。在“系列二”中白金將會和大家分享 CDN 的快取及安全。

詳情請閱讀原文

相關文章

伺服器 最新文章