當手機拍照后,瞬間完成AI美顏;當無人駕駛汽車實時處理海量數(shù)據(jù);當智能安防系統(tǒng)毫秒級識別異常情況……這一切背后,是一場正在發(fā)生的云計算范式革命。
2006年,美國亞馬遜公司首次推出彈性計算云(Elastic Compute Cloud)服務,同年,谷歌前首席執(zhí)行官埃里克·施密特提出“云計算(Cloud Computing)”概念,自此,全球進入“風起云涌”的時代。
19年后,AI浪潮襲來,云計算來到新時代的入口。
從中心到邊緣,從集中到分布,AI推理模型的突破性發(fā)展推動計算模式迎來深刻變革,未來計算需要繪制一張新的“算力地圖”。
這一次,中國的電信運營商要“搶跑”。
2025年初,中國電信云計算研究院(以下簡稱云研院)率先提出構建新一代云計算技術體系——智能泛在云的六層架構,其核心是基于“云網(wǎng)融合”疊加人工智能能力,實現(xiàn)“云邊端一體”,將算力與智能更靈活地部署在各類業(yè)務場景中。

然而,智能泛在云的構建也面臨著重重技術挑戰(zhàn)。
CNCC2025(中國計算機大會)期間,云研院舉行了“基于智能泛在云的資源彈性調度與優(yōu)化”技術論壇(以下簡稱論壇),來自云研院、天翼云科技、華中科技大學、南京大學、上海交通大學、天津大學等產業(yè)界和高校的研究者們,一起為這場云計算的范式革命尋找答案。
“舊地圖”的邊界
云計算出現(xiàn)19年后,一張以數(shù)據(jù)中心為核心的“算力地圖”完成了全球普及,依靠建設超大規(guī)模數(shù)據(jù)中心、提供標準化虛擬機和存儲服務等,AWS、谷歌云、阿里云們走在了前列,中國電信天翼云、中國移動云等電信運營商云則后來居上。
然而,當AI以摧枯拉朽之勢席卷全球時,全球云服務商都站在了關鍵的轉折點,傳統(tǒng)的中心化云架構已無法滿足用戶實時響應的需求。
這張“地圖”遇到了它的邊界。
如果說集中式云的出現(xiàn)是云計算的第一次革命,分布式云出現(xiàn)是第二次云計算革命,那么,顯然,云計算迎來了第三次革命浪潮,云基礎設施正向真正的AI原生平臺演進。
“應用的計算負載和動態(tài)性顯著增強,推動云基礎設施從‘資源提供’向‘高效運行’模式轉型?!敝袊娦攀紫茖W家、中國電信云計算研究院院長吳杰指出,AI時代,資源負載呈現(xiàn)出高動態(tài)性的特征:訓練需要數(shù)萬張GPU以極低延時協(xié)同通信,推理需要在毫秒級響應;一個熱點新聞可能在五分鐘內讓某個網(wǎng)站流量暴增百倍;數(shù)據(jù)管道要處理PB級的非結構化數(shù)據(jù),企業(yè)用戶不再關心多少資源和帶寬,而是直接需要一個結果……這種動態(tài)性已經遠遠超出人工和簡單統(tǒng)計模型的應對能力。

另一方面,算力界的“巴別塔困境”越來越明顯。
英特爾的CPU、英偉達的GPU、谷歌的TPU、亞馬遜云科技(AWS)的Trainium、華為昇騰的NPU、沐曦的GPGPU……再加上FPGA、DPU等加速卡,如何讓這些說著不同“語言”的硬件高效協(xié)同工作?
尤其在中國市場,英偉達芯片在國內市場份額逐漸下降,國產算力百花齊放,中國的云服務商面臨比國外運營商更現(xiàn)實、更復雜的問題。
與此同時,計算資源類型也變得更加豐富,云計算、邊緣計算、IoT設備等多源異構資源的智能管理與調度,同樣是個全球性技術難題。
更棘手的是,通信正成為AI進一步發(fā)展的瓶頸。從卡間到數(shù)據(jù)中心內部再到跨數(shù)據(jù)中心,通信時延增加了多個數(shù)量級,如果說數(shù)據(jù)在單一數(shù)據(jù)中心內傳輸時延在微秒級,那么一旦走出數(shù)據(jù)中心,時延便變成毫秒級。另一方面,天翼云團隊測試發(fā)現(xiàn),如果通信丟包率增加4%,那么整個系統(tǒng)算效至少降低50%。

為了搶到AI時代的船票,頭部玩家們都在進行一場“嬗變”,構建一套從中心云到區(qū)域云、邊緣云、設備端的分布式云體系:AWS的Local Zones把數(shù)據(jù)中心建到離用戶更近的城市,Wavelength直接把計算能力部署到5G基站機房,Outposts甚至把AWS的機柜搬進客戶的數(shù)據(jù)中心;阿里云也在不久前的云棲大會上明確了新定位:全球領先的全棧人工智能服務商,并且認為“全球未來只有5~6臺超級計算機”。
事實上,云計算走到今天,其終極方向已隱隱可見:構建一個覆蓋全球、連接萬物、自主進化的智能計算網(wǎng)絡,這個全球超級系統(tǒng)將既有中心化系統(tǒng)的全局優(yōu)化能力,又有去中心化系統(tǒng)的本地響應速度,它需要一張新的“算力地圖”,一朵無處不在的云。
然而,當巨頭們試圖將能力下沉到邊緣時,卻會天然遇到一個難題:如何克服網(wǎng)絡的物理限制?

在剛剛結束的GTC上,英偉達宣布投資10億美元給諾基亞,便是試圖以通信的方式解決算力邊緣化的難題。其發(fā)布的AI原生6G無線協(xié)議棧——NVIDIA-ARC,最終希望用6G和AI升級數(shù)以百萬計的基站,從而讓算力下沉到基站。
中國電信的獨特坐標
“這是中國電信運營商獨有的優(yōu)勢?!眳墙芙邮堋禝T時報》記者采訪時表示,在下一代云計算架構的構建中,中國電信運營商有著獨特的坐標,它們天然掌控著從骨干網(wǎng)到城域網(wǎng)到接入網(wǎng)的全鏈路資源,擁有網(wǎng)絡資源和計算資源的聯(lián)合調度能力,而這恰恰是其他云廠商短期內難以復制的。

云計算正加速向泛在化、智能化發(fā)展。中國電信擁有覆蓋全國、通達全球的光纖骨干網(wǎng)和“2+4+31+X”泛在云基礎設施底座,數(shù)以百萬計的5G基站、近千個IDC機房和近60萬個機架,都是“算力地圖”上的星星之火,將云計算能力下沉到城市、縣城甚至社區(qū)的邊緣節(jié)點,讓算力真正觸手可及,讓每個終端都成為這張算力網(wǎng)絡的節(jié)點。
今年年初,云研院創(chuàng)新性地提出新一代“智能泛在云”概念,以泛在云網(wǎng)基礎設施為底座,以一體化調度為核心,以智能自驅為動力,以提供無處不在、高效智能、安全可靠的云計算服務為目的,這是以云網(wǎng)融合為基礎的中國電信向智能時代演進的重要技術路線。
吳杰將其分為六層架構:運維層聚焦全局可觀測與智能管理,保障系統(tǒng)運行的安全性與可靠性;基礎設施層整合云、網(wǎng)、邊、端多源異構資源,構建全面覆蓋的供給能力;調度層承擔多維資源的統(tǒng)一建模與一體化調配,實現(xiàn)真正意義上的云網(wǎng)一體;平臺層支撐分布式計算、數(shù)據(jù)融合與AI服務化,提升數(shù)據(jù)向智能轉換的效率;應用層則面向千行百業(yè)及新興場景,提供多樣化、敏捷化、可定制的智能服務;還有正在逐漸滲透所有場景的AI Agent。
泛在,意味著復雜。
當AI大模型成為新的生產力工具,當邊緣設備需要實時決策,當千行百業(yè)都在尋求算力支撐,云計算必須從簡單的資源供給者,進化為高效運行的智能調度者,邊緣智能協(xié)同、異構資源管理和動態(tài)負載優(yōu)化等技術難題的解決,都迫在眉睫。中國電信同樣也要面對前所未有的技術挑戰(zhàn)。
泛在,只是開始,智能化才是解題方向。
產學研共同解題
“如何應對資源負載的高動態(tài)性?如何解決異構資源利用率低的難題?跨地域資源調度時如何降低延遲?云邊協(xié)同又如何優(yōu)化?”論壇甫一開始,吳杰便拋出了智能泛在云構建過程中的四道待解難題。
挑戰(zhàn)一:異構資源的高效協(xié)同
上海交通大學計算機科學與工程系教授陳全指出,異構化帶來了三大核心挑戰(zhàn):如何自動適配不斷變化的負載、如何實現(xiàn)加速器的精準隔離共享、如何快速加載和執(zhí)行模型。
“池化”是關鍵詞?!斑@就像樂高積木,可以根據(jù)需要隨時拼裝出不同的形態(tài)。”陳全提出的方案是將所有計算資源——無論是加速器、內存還是存儲——都打散成一個資源池,通過軟件靈活組合。但新的問題是,資源通過網(wǎng)絡連接,數(shù)據(jù)在節(jié)點間傳輸,如何避免性能損耗?從此前的測試來看,通信開銷高達24%以上。
陳全團隊的答案是統(tǒng)一內存空間和零拷貝技術。傳統(tǒng)方法中,數(shù)據(jù)在不同模塊間傳遞需要多次冗余拷貝,就像接力賽跑時需要交接棒,而他們的方法是讓各模塊共享同一內存空間,省去了交接環(huán)節(jié),就像大家圍著同一張桌子工作,省去了交接的麻煩,從而使通信開銷大大降低。
挑戰(zhàn)二:邊緣智能的協(xié)同優(yōu)化
端側的泛在化,使手機、無人機、無人駕駛汽車都成為算力節(jié)點,但云邊協(xié)同優(yōu)化的挑戰(zhàn)最為復雜,它不只是技術點,而是整個架構范式的轉變。
一方面,受限于成本,算力有限,運行模型都相當困難,更不用說訓練;另一方面,終端AI化會帶來新的不公平,如果AI成為普遍的生產工具,那么無疑更高價值的終端設備將擁有更強的算力,生成更好的結果。
常見的做法是建設更多的節(jié)點,由邊緣節(jié)點承接用戶的需求,更激進的做法是將計算本身下沉到邊緣,比如Azure的Edge Zones直接把數(shù)據(jù)中心建在5G基站附近,延遲可以壓縮到10毫秒以內。
但這又帶來新的問題:如何在資源有限的邊緣節(jié)點上運行復雜的業(yè)務?或者出于數(shù)據(jù)安全的考量,用戶并不愿意在邊緣節(jié)點完成數(shù)據(jù)閉環(huán)。一個典型的場景是,視頻監(jiān)控進行AI分析時,原始視頻在邊緣做運動檢測和人臉識別(延遲敏感),但身份對比卻需要訪問全國數(shù)據(jù)庫。
華中科技大學計算機科學與技術學院教授何強團隊的解決之道是“切蛋糕”:將模型切分成兩部分,較小的部分放在終端設備上,較大的部分放在邊緣算力節(jié)點上,通過協(xié)同的方式完成訓練。然而,此時又會疊加通信延遲的挑戰(zhàn)。何強發(fā)現(xiàn),雖然5G網(wǎng)絡延遲可以降到10毫秒以下,但在AI大模型訓練的前向和后向傳播過程中,多次往返通信仍然會極大影響訓練效率。于是,何強團隊又設計了動態(tài)調整模型切割點,當網(wǎng)絡狀況好時,多讓邊緣服務器分擔;當信號弱時,由終端多承擔一些。
更智能的是,系統(tǒng)會監(jiān)控訓練管道的性能,如果通信性能持續(xù)惡化,終端設備會主動尋找并切換到更好的邊緣算力節(jié)點。比如當一個無人機逐漸飛離它的邊緣節(jié)點時,通訊聯(lián)系越來越弱,便可以自動切換新的算力節(jié)點。
“這有點像在高鐵上時,手機需要在不同基站間切換信號。”何強解釋,“但這里切換的是整個任務”。
挑戰(zhàn)三:毫秒級響應的冷啟動?
南京大學計算機科學與技術系特聘研究員顧榮和天津大學軟件學院教授趙來平關注的,都是“當紅炸子雞”——Serverless。
趙來平透露,2024年,已有31%的應用是通過 Serverless工作流構建。Serverless的核心是將計算資源以服務形式提供,其承諾很美好:用戶無需關心服務器,只需提交代碼,系統(tǒng)就會自動分配資源、處理擴縮容。但現(xiàn)實卻是,冷啟動的延遲可能長達數(shù)秒。
邊緣場景下,應用場景的需求讓這個矛盾變得更加尖銳。比如,一個智能安防應用需要在攝像頭捕捉到異常時,便立即啟動識別函數(shù),而在工業(yè)質檢場景下,產品在經過檢測點的瞬間便需完成AI推理。
顧榮團隊提出了預熱機制——提前啟動一定數(shù)量的函數(shù)實例,但這種方式對預測結果的精度要求很高。于是他將函數(shù)的請求轉化為排隊問題,在滿足冷啟動率要求(如不超過5%)的前提下,通過數(shù)學模型實現(xiàn)請求的動態(tài)平衡。
趙來平則設計了一套庫操作系統(tǒng),將策略決定和高級抽象的實現(xiàn)完全委托給用戶態(tài)的庫,從而減少用戶態(tài)和內核態(tài)的切換開銷,在滿足多租戶隔離性需求的基礎上,實現(xiàn)了工作流毫秒級冷啟動和函數(shù)間的高性能中間數(shù)據(jù)傳遞。
從資源池化到模型切分,從預熱機制到庫操作系統(tǒng),這些看似復雜而分散的技術探索,實則都指向同一個目標:讓計算發(fā)生在數(shù)據(jù)產生的地方,讓AI運行在每個人的設備上,讓邊緣計算真正“智能”起來。
從理論到田間 彌補三大鴻溝
“智能泛在云面臨著諸多技術挑戰(zhàn),只有合作才能共贏。”吳杰指出,此次論壇恰恰是一次產學研深度合作的最佳實踐,學術界提供前沿理論和算法,產業(yè)界提供真實場景和工程實踐,雙方碰撞才能產生真正改變世界的力量。
泛在意味著普惠。2024上海云網(wǎng)寬帶發(fā)展大會上,中國電信董事長柯瑞文首次提出AI時代“三大鴻溝”理論,他認為,全球的數(shù)字鴻溝已經發(fā)展為連接鴻溝、云計算鴻溝以及AI智能鴻溝,且后兩者面臨持續(xù)擴大的風險。
彌合鴻溝,電信運營商責無旁貸。2025年,中國電信正式啟動“云改數(shù)轉智惠”戰(zhàn)略升級,充分發(fā)揮云網(wǎng)融合優(yōu)勢,致力于將曾經“高不可攀”的新型數(shù)字信息基礎設施,轉化為千行百業(yè)觸手可及的“數(shù)字水電”。

一系列產業(yè)實踐的案例正讓技術有了溫度。
在中國的最北端,中國電信黑龍江公司面臨著獨特的挑戰(zhàn):冬季氣溫常常低至零下30℃,有著漫長的冬天和綿延的邊境線、廣袤的農墾區(qū)域、分散的城鎮(zhèn)布局,這些地理特征決定了傳統(tǒng)的云計算難以滿足需求,必須構建泛在化的算力網(wǎng)絡。
在北大荒集團建三江分公司的多個農場,中國電信將5G、云計算、物聯(lián)網(wǎng)和人工智能等新一代信息技術融入農業(yè)生產,將邊緣智能系統(tǒng)部署到田間地頭,通過在農田布設傳感器、攝像頭和無人機,借助5G專網(wǎng)與天翼云平臺匯聚分析農業(yè)數(shù)據(jù),實現(xiàn)水肥智能調控、病蟲害預警、農機遠程調度等功能,構建起覆蓋全流程的“農業(yè)數(shù)據(jù)大腦”。
以前農場發(fā)現(xiàn)病蟲害,只能等上報等專家,現(xiàn)在“農業(yè)物聯(lián)網(wǎng)應用基地”的系統(tǒng)自動識別異常,立即推送預警,馬上采取相應措施,從而將減產的誘因扼殺在幼蟲階段。
“從‘經驗種田’到‘數(shù)據(jù)種田’,這個案例為農業(yè)數(shù)字化轉型提供了可復制推廣的‘中國電信樣板’?!眳墙鼙硎尽?o:p>
北大荒只是智能泛在云“算力地圖”上的一個坐標。更多的場景正在被點亮。
“前兩個月,幾乎每天都有各種問題和挑戰(zhàn),每天。”時至今日,中國電信云操作系統(tǒng)專業(yè)首席專家,天翼云科技有限公司公有云事業(yè)部總經理楊鑫仍難忘當初任務攻堅時的焦慮,“大規(guī)模國產智算集群當時的技術成熟度有限,涉及百萬級器件的部署與調試,而給我們的時間只有三個月?!?o:p>
彼時,中國電信自研的萬億參數(shù)大模型星辰要在國產智算萬卡池中訓練,各種問題變成“每日例行”。在中國電信和華為的共同努力下,天翼云和天翼AI團隊硬是將系統(tǒng)穩(wěn)定性提升到全新高度。在國產智算集群上的大模型訓練性能達到業(yè)界主流算力的93%以上,訓練任務有效訓練時長達到98%以上,成功實現(xiàn)萬卡集群萬億參數(shù)大模型訓練的全國產化。
在廈門,天翼云為一家科技公司修建了一條封閉式的“數(shù)據(jù)磁懸浮列車”軌道,龐大的AI訓練數(shù)據(jù)被高效地送到天翼云的計算中心,而且計算資源可以按需彈性伸縮。這有點像當AI訓練需要一萬個處理器同時工作時,教室里就立刻出現(xiàn)一萬個座位;當任務量減少,只需要一百個處理器時,多余的九千九百個座位就馬上消失,避免了任何資源浪費……
智能泛在云不是一個高高在上的技術概念,而是改變生活、推動產業(yè)的現(xiàn)實力量。隨著這朵“無所不在云”逐步構建完成,算力將滲透到經濟社會的毛細血管中。
當智能可以在任何地方被喚醒,當千行百業(yè)、千家萬戶都能公平地獲得算力,三大鴻溝將被逐步彌合,人們才能真正享受科技帶來的福祉,數(shù)字時代的普惠承諾,才得以真正實現(xiàn)。