導讀
近日,國家發(fā)改委、中央網(wǎng)信辦、工信部能源局同意粵港澳大灣區(qū)、成渝地區(qū)、長三角地區(qū)、京津冀地區(qū)啟動建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點。
全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點,是我國算力網(wǎng)絡(luò)的骨干節(jié)點。
為何我國這么重視算力網(wǎng)絡(luò)的建設(shè)呢?
這還要從算力網(wǎng)絡(luò)本身講起。
算力網(wǎng)絡(luò)想要解決什么問題
我們知道,小到個人手機、PC,大到超級計算機、數(shù)據(jù)中心,算力存在于我們生活的各個角落,成為基礎(chǔ)的核心資源之一。
然而,一方面,隨著當前算力的普及,算力的利用率卻在大幅下降。
有數(shù)據(jù)表明,各類算力終端的利用率甚至低于15%。
以PC為例,有的家庭擁有不止一臺PC,但是并不是每一臺PC都物盡其用,大部分時間是處于閑置狀態(tài)的。
而企業(yè)的私有數(shù)據(jù)中心、科研機構(gòu)的超算中心,閑置率更甚。
另一方面,隨著技術(shù)的進步,物聯(lián)網(wǎng)正在走向成熟應(yīng)用。
目前,智慧城市、智能家居等物聯(lián)網(wǎng)應(yīng)用正在走向普及,萬物智能互聯(lián)產(chǎn)生的數(shù)據(jù)量越來越龐大,相應(yīng)地,對計算資源及計算能力也提出了更高的要求。
云計算作為可以隨時獲取、按需使用、隨時擴展的軟硬件平臺,在一段時間內(nèi)曾充分滿足了物聯(lián)網(wǎng)終端設(shè)備的資源期待,成為物聯(lián)網(wǎng)的主要支撐技術(shù)。
但市場和技術(shù)的發(fā)展,也使得物聯(lián)網(wǎng)終端的數(shù)量飛速增長,隨后增長的是對云上數(shù)據(jù)計算的需求。設(shè)備不斷產(chǎn)生實時數(shù)據(jù),越來越多的數(shù)據(jù)集中在云端,而云計算數(shù)據(jù)中心的增長速度遠遠落后于數(shù)據(jù)處理需求的增速。
終端設(shè)備能夠從云端獲取的內(nèi)存、CPU和帶寬等計算、通信資源開始捉襟見肘,造成目前市場上智能終端設(shè)備數(shù)據(jù)處理實時性不足,且難以支撐人工智能等計算需求較大的全新數(shù)據(jù)處理技術(shù)。
這就導致,即便對于很多科學研究人員及企業(yè)研發(fā)人員來說,算力仍然是一個“奢侈品”:不僅獲取成本高,而且使用門檻也很高。
比如,在計算流體力學(Computational Fluid Dynamics,CFD)領(lǐng)域中,一個發(fā)動機葉片的仿真就需要1000核計算1周的時間,當前的算力平臺顯然無法支撐發(fā)動機全量的仿真計算。
而為了建設(shè)能滿足要求的算力平臺,可能需要一兩年甚至更長的時間。對很多機構(gòu)來說,建設(shè)自己的算力平臺,無論是時間成本還是財務(wù)成本,都難以承受。
這表明,單靠傳統(tǒng)的云計算已經(jīng)不能滿足物聯(lián)網(wǎng)發(fā)展多樣化、智能化的需求,于是,以邊緣計算為代表的新一代分層算力網(wǎng)絡(luò)架構(gòu)應(yīng)運而生。
所謂邊緣計算,是相較于集中部署、離用戶側(cè)較遠的云計算而言的,是一種更加強調(diào)在靠近客戶業(yè)務(wù)端來部署計算能力的平臺,可以實現(xiàn)高效的本地處理。
分層算力網(wǎng)絡(luò)架構(gòu)的核心,是將數(shù)據(jù)處理過程分散于網(wǎng)絡(luò)架構(gòu)中各個層級的設(shè)備中,而不是集中于網(wǎng)絡(luò)中心的云計算數(shù)據(jù)中心。
不過,盡管從云計算服務(wù)向邊緣計算領(lǐng)域擴展已成為業(yè)界一種重要的發(fā)展思路,但在具體操作時,卻存在一個規(guī)模與成本之間的悖論。
在傳統(tǒng)云計算的商業(yè)模式中,規(guī)模效應(yīng)是非常關(guān)鍵的。云計算服務(wù)商需要通過不斷擴展云計算池,以及通過集中化建設(shè)、定制化設(shè)備使用、智慧化運營等手段,來共享各類基礎(chǔ)設(shè)施,降低數(shù)據(jù)中心PUE(Power Usage Effectiveness,能耗使用效率),從而減少單位算力的建設(shè)成本和維護成本,才能在激烈的市場競爭中取得優(yōu)勢地位。
據(jù)不完全統(tǒng)計,超大型算力資源池的單位算力成本只有普通算力池的10%~30%。因而,云市場中頭部效應(yīng)非常明顯,如國內(nèi)排行第一的云服務(wù)商約占50%的市場份額,并呈現(xiàn)越大越強的態(tài)勢。
但在強調(diào)分布式的邊緣計算領(lǐng)域,節(jié)點的規(guī)模嚴重受限。
絕大多數(shù)邊緣計算節(jié)點處于靠近用戶的網(wǎng)絡(luò)邊緣位置,分布在各種各樣的環(huán)境中,如電信運營商的接入機房、電力企業(yè)的變電站、小區(qū)物業(yè)的空閑房間等。這些節(jié)點空間受限,能容納的算力資源有限,不具備持續(xù)擴展的潛力,因此通過規(guī)模效應(yīng)來降低成本是不可能的。
從維護機制上來看,云計算節(jié)點由于設(shè)備高度集中,可以采用大量的智慧化運營手段。例如,可利用機器人進行機房巡檢,這樣可以大幅度減少人力成本,提高運營效率。
然而,這樣的方案并不適用于邊緣計算節(jié)點。在眾多離散的邊緣機房中,部署大量的智能化運營系統(tǒng)的效益非常低,投入的成本甚至高于機房能容納的設(shè)備成本。同時,這些智能化運營系統(tǒng)自身還需要精細的運維工作,其出問題的頻率甚至高于機房中其他類型的設(shè)備。
在短期內(nèi),利用大量人工進行日常巡檢工作是面對大量邊緣機房時的唯一解決方案。這也是某些云計算服務(wù)商和電信運營商的運維人員在數(shù)量上相差多個數(shù)量級的一個重要的原因。
因此,在涉及大量邊緣計算節(jié)點的邊緣計算中,采用類似云計算節(jié)點的建設(shè)和運營模式是不可取的,這就需要一種新的商業(yè)模式與技術(shù)體系,讓更多方參與到算力資源的提供與交易過程中來。
好在,隨著5G、全光網(wǎng)(網(wǎng)絡(luò)傳輸和交換過程全部通過光纖實現(xiàn))、SDN(Software Defined Network,軟件定義網(wǎng)絡(luò))等網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)已經(jīng)不再是瓶頸,能夠按需將用戶和資源池連接在一起。
于是,在新技術(shù)的支持下,解決方案應(yīng)運而生:將算力資源信息通過網(wǎng)絡(luò)進行分發(fā),在算力資源提供方與算力消費方之間搭建一個交易平臺,這就是算力網(wǎng)絡(luò)。
算力網(wǎng)絡(luò)≠云網(wǎng)融合
可能有人覺得,所謂的算力網(wǎng)絡(luò),不就是當下正在搞的云網(wǎng)協(xié)同(也有云網(wǎng)融合、云網(wǎng)一體等叫法)嘛?
其實兩者還是有區(qū)別的。
從資源匹配的角度來看,算力網(wǎng)絡(luò)與云網(wǎng)協(xié)同都可以做到將算力資源信息與網(wǎng)絡(luò)資源信息匹配,以實現(xiàn)多類資源的聯(lián)合優(yōu)化。
例如,在現(xiàn)有的云網(wǎng)協(xié)同方案下,用戶可以先選擇一個云服務(wù)節(jié)點,再根據(jù)云服務(wù)節(jié)點與用戶接入節(jié)點之間的網(wǎng)絡(luò)情況選擇最佳路徑;也可以根據(jù)網(wǎng)絡(luò)情況,選擇適合的云服務(wù)節(jié)點,再選擇連接路徑。粗略看來,算力網(wǎng)絡(luò)所做的事情也相差不大,但云網(wǎng)協(xié)同和算力網(wǎng)絡(luò)兩者在本質(zhì)上卻有很大的差異。
云網(wǎng)協(xié)同的核心在于以云為中心,網(wǎng)絡(luò)連接應(yīng)該根據(jù)云服務(wù)的特點進行調(diào)整,也稱為“網(wǎng)隨云動”。常見做法有以下兩種,一是網(wǎng)絡(luò)將能力開放給云管系統(tǒng),由云管系統(tǒng)統(tǒng)一調(diào)度算力資源、存儲資源和網(wǎng)絡(luò)資源等;二是由云管系統(tǒng)將網(wǎng)絡(luò)訴求發(fā)送給網(wǎng)絡(luò)控制單元,如網(wǎng)絡(luò)協(xié)同編排器等,由網(wǎng)絡(luò)控制單元根據(jù)云業(yè)務(wù)訴求來調(diào)度網(wǎng)絡(luò)。顯然,其關(guān)鍵是先選定云服務(wù),再確定網(wǎng)絡(luò)連接。所以一個云服務(wù)商可以連接多個網(wǎng)絡(luò),甚至可以利用SD-WAN(Software-Defined WAN,軟件定義廣域網(wǎng))等技術(shù)實現(xiàn)跨不同網(wǎng)絡(luò)運營商的跨域連接。
而算力網(wǎng)絡(luò)則是從另外一個角度來解決問題的。算力池將自身空閑的算力資源信息發(fā)送給網(wǎng)絡(luò)控制面,然后通過網(wǎng)絡(luò)控制面(集中式控制器或分布式路由協(xié)議)分發(fā)這些算力信息。當收到用戶的業(yè)務(wù)需求后,即可通過分析路由表中記錄的網(wǎng)絡(luò)信息與算力信息來選擇最合適的算力池與網(wǎng)絡(luò)路徑。顯然,算力網(wǎng)絡(luò)需要先選定網(wǎng)絡(luò),再選擇算力池(云計算服務(wù)節(jié)點或者邊緣計算服務(wù)節(jié)點)。
如果可選的網(wǎng)絡(luò)服務(wù)商只有一家,云服務(wù)商/算力提供方也只有一家,那么云網(wǎng)協(xié)同與算力網(wǎng)絡(luò)沒有太大的差異。但在現(xiàn)實中,網(wǎng)絡(luò)服務(wù)商有多家,云服務(wù)商/算力提供方就更多了,這時云網(wǎng)協(xié)同與算力網(wǎng)絡(luò)的差異就相當大了。
在云網(wǎng)協(xié)同方案中,用戶先選定云服務(wù)商,甚至選定具體的云資源池或邊緣計算節(jié)點,然后可以在多個網(wǎng)絡(luò)服務(wù)商中選擇最適合的網(wǎng)絡(luò)連接產(chǎn)品與最優(yōu)的網(wǎng)絡(luò)路徑。而在算力網(wǎng)絡(luò)方案中,則需要先確定網(wǎng)絡(luò)服務(wù)商,然后根據(jù)業(yè)務(wù)對時延等指標的要求,結(jié)合網(wǎng)絡(luò)情況從多個算力資源中選擇最合適的算力節(jié)點。
簡而言之,云網(wǎng)協(xié)同是“一云多網(wǎng)”,而算力網(wǎng)絡(luò)則是“一網(wǎng)多云(算)”。
算力網(wǎng)絡(luò),我們還要等多久
不過,盡管算力網(wǎng)絡(luò)的前景值得期待,從2019年至今,業(yè)界對算力網(wǎng)絡(luò)的研究也有近三年的時間,但不得不說,當前算力網(wǎng)絡(luò)的發(fā)展還處于初級階段。
算力網(wǎng)絡(luò)并不是簡單地將算力信息放到網(wǎng)絡(luò)中分發(fā),它還需要與算力交易、網(wǎng)絡(luò)訂購等業(yè)務(wù)關(guān)聯(lián)起來,形成一個體系架構(gòu),才能解決兩個層面的問題:一是資源關(guān)聯(lián),根據(jù)用戶的訴求將算力資源、網(wǎng)絡(luò)資源等進行有機的整合,以滿足用戶多樣化的需求;二是資源交易,讓用戶能夠根據(jù)自己對業(yè)務(wù)的要求及能夠承擔的成本,在算力交易平臺上購買最適合的算力資源與網(wǎng)絡(luò)資源。
因此,算力網(wǎng)絡(luò)體系要能包含諸多主體,如算力消費方、算力提供方、網(wǎng)絡(luò)運營方、算力網(wǎng)絡(luò)交易平臺、算力網(wǎng)絡(luò)控制面等。
算力網(wǎng)絡(luò)體系內(nèi)容,圖片來源@網(wǎng)絡(luò)
同時,算力網(wǎng)絡(luò)要想實現(xiàn)落地應(yīng)用,也需要多個技術(shù)領(lǐng)域的進一步突破。
中國移動提出的算力網(wǎng)絡(luò)技術(shù)圖譜,圖片來源@網(wǎng)絡(luò)
目前,算力網(wǎng)絡(luò)的研究工作主要圍繞以下幾個方面展開。
(1)算力度量。目前計算資源的衡量缺少一個統(tǒng)一且簡單的度量單位,因此如何評估不同類型算力資源的大小成為一個亟需解決的難題。
(2)信息分發(fā)。信息分發(fā)即如何將算力等資源信息通過網(wǎng)絡(luò)控制面廣而告之。
(3)資源視圖。如何給每個用戶生成以其為中心的資源視圖,讓其可以智能選擇最佳資源組合也是需要關(guān)注的內(nèi)容。
(4)可信交易。由于算力網(wǎng)絡(luò)中的各類資源歸屬不同所有者,算力網(wǎng)絡(luò)作為一個中間平臺,需要考慮如何確保資源交易真實有效且可溯源。
這其中,包括算力度量等在內(nèi)的算力網(wǎng)絡(luò)底層基礎(chǔ)技術(shù),并未實現(xiàn)真正的突破,所以從算力網(wǎng)絡(luò)概念的提出到真正的成熟推廣,估計還需要至少5年的時間。
總而言之,算力網(wǎng)絡(luò)固然值得我們關(guān)注,但還需冷靜看待,這也是我們看待其他新技術(shù)應(yīng)有的態(tài)度:既不忽視,也不盲從。
參考資料:
雷波,陳運清,等.邊緣計算與算力網(wǎng)絡(luò):5G+AI時代的新型算力平臺與網(wǎng)絡(luò)連接[M] .北京:電子工業(yè)出版社,2020.11