王恩東院士:疫情加速了經(jīng)濟活動的智能化變革
● ● ●
新冠肺炎疫情讓人們重新認識了新一代信息技術(shù)的價值,云、大數(shù)據(jù)、AI等信息技術(shù)不僅支撐著工作、生活、交流線上化,也滲透到人流體溫監(jiān)測、流行病學調(diào)查等疫情防控環(huán)節(jié)。新型基礎設施建設也為社會智慧化升級按下了“加速鍵”。
近日,中國工程院院士、浪潮集團首席科學家王恩東指出,當前人工智能計算需求正呈指數(shù)級增長,未來將占據(jù)80%以上的計算需求,承載這種需求的就是AI算力中心,即智算中心。智算中心是智慧時代最主要的計算力生產(chǎn)中心和供應中心。
以下是王恩東院士的觀點摘要:
疫情加速了經(jīng)濟活動的線上化變革
疫情加速了經(jīng)濟活動的線上化變革。企業(yè)選擇線上辦公,各種在線辦公平臺用戶規(guī)模指數(shù)級增長,其中釘釘平臺超過1000萬家企業(yè)、2億人協(xié)同辦公;騰訊會議系統(tǒng)上線僅兩月,日活躍用戶就超過千萬;學校選擇線上教學,其中釘釘平臺超過14萬所學校、1.2億學生在線上課;騰訊課堂有超過140萬老師,每天有2000萬中小學生在騰訊課堂上學習。工信部的數(shù)據(jù)顯示,20年春節(jié)期間,移動互聯(lián)網(wǎng)流量271.6萬TB,同比增長36.4%。經(jīng)濟活動的線上化變革,讓人們在這個過程中體驗到了信息科技的價值和效率。
第二個明顯的變化是社會服務和社會治理更加高效智能。疫情期間,運營商推出了“通信大數(shù)據(jù)行程卡”,可以對手機用戶14天內(nèi)到訪的地區(qū)進行證明,截至目前,累計查詢量已經(jīng)超過了4.5億;中國鐵路提供了確診病例密接者查詢服務。這些服務為社會防疫防控提供了有力支持。騰訊、阿里、浪潮提供的健康碼在山東、北京、廣東等省市陸續(xù)上線,幾乎覆蓋了所有出行人口??梢灶A想,健康碼必將成會成為未來傳染病防控的必備手段。
在工業(yè)生產(chǎn)方面,去年中國工業(yè)機器人裝機量占全球的36%,用于建設數(shù)字化車間和智能工廠,成為全球最大的智能制造市場,預計20年中國智能制造市場規(guī)模將超過2200億元,智能制造升級將進一步提速。這里面典型的例子就是浪潮智能工廠。整個生產(chǎn)制造過程彈性、透明、可追溯,智能技術(shù)貫穿了生產(chǎn)制造的全周期,實現(xiàn)同樣的產(chǎn)能,用工數(shù)量下降50%,生產(chǎn)效率提高3倍,訂單交付周期從18天縮短至5-7天。
智算中心是智慧時代的新型基礎設施
看得見的是各種智慧服務,看不見的是新型的基礎設施,支撐智慧化轉(zhuǎn)型的正是以云計算、大數(shù)據(jù)、人工智能為核心的智慧計算。疫情期間,騰訊和阿里每天都在擴充云計算資源,用于支撐視頻會議、在線辦公等業(yè)務。百度地圖則利用其每天響應位置服務請求千億次所產(chǎn)生的大數(shù)據(jù),通過數(shù)據(jù)定向、分析等途徑助力流行病學調(diào)查。
人們見證了智慧計算是如何在這場戰(zhàn)疫中發(fā)揮巨大作用。3月4日,中央決定對人工智能、大數(shù)據(jù)中心等新基建提速,這也是在為智慧計算的發(fā)展提速。計算力就是生產(chǎn)力,智慧計算改造升級了生產(chǎn)力三要素,最終驅(qū)動了人類社會的轉(zhuǎn)型升級。智慧計算將勞動者由人變成了人加上人工智能,勞動者可以呈現(xiàn)指數(shù)增長,將數(shù)據(jù)變成了一種新的生產(chǎn)資料,從有形到無形,生生不息,越用越多,將計算力驅(qū)動的信息化設備變成了生產(chǎn)工具,也是指數(shù)增長,生產(chǎn)力得到了前所未有的解放。
伴隨生產(chǎn)力的升級,社會基礎設施也在產(chǎn)生變化。農(nóng)業(yè)時代的基礎設施比較簡單,就是水利、交通等;工業(yè)時代,則是人們熟悉的鐵公機、電網(wǎng)等;那么智慧時代必將需要新型的基礎設施。和電力基礎設施做個類比。電力基礎設施提供電力服務,其核心是生產(chǎn)電力的地方,就是發(fā)電廠,像三峽電站、大亞灣核電站;智慧時代的新型基礎設施,要能夠?qū)ν馓峁└鞣N算力的服務、數(shù)據(jù)的服務和AI的服務等。那么其核心就是計算力的生產(chǎn)中心。
計算是在發(fā)展的,從最初的數(shù)值計算逐漸演變?yōu)榭茖W計算、關(guān)鍵計算和智慧計算。每種計算都有相應的計算力中心去支撐??茖W計算的算力中心是超算中心。承載當前企業(yè)應用、政府應用和個人應用的算力中心是數(shù)量眾多的各類數(shù)據(jù)中心。當前人工智能計算需求正呈指數(shù)級增長,未來將占據(jù)80%以上的計算需求,承載這種需求的就是AI算力中心,即智算中心。
智算中心是智慧時代最主要的計算力生產(chǎn)中心和供應中心,它以融合架構(gòu)計算系統(tǒng)為平臺,以數(shù)據(jù)為資源,能夠以強大算力驅(qū)動AI模型來對數(shù)據(jù)進行深度加工,源源不斷產(chǎn)生各種智慧計算服務,并通過網(wǎng)絡以云服務形式向組織及個人進行供應。它正在成為經(jīng)濟社會運行的重要基礎設施。
智算中心的基本要求:開放標準、集約高效和普適普惠
智算中心要成為新基建的源動力,必須滿足以下三個基本要求:開放標準、集約高效和普適普惠。開放標準,要求智算中心從硬件到軟件、從芯片到架構(gòu)、從建設模式到應用服務都應該是開放的、標準的;集約高效,要求智算中心的建設要有超大規(guī)模,要采用領(lǐng)先的技術(shù),保證自身的先進性;普適普惠,則要求智算中心發(fā)揮基礎設施的社會價值,服務大眾。
首先是開放標準。開放的邊界越來越廣闊,從最初的操作系統(tǒng)、數(shù)據(jù)庫、中間件的開源到云和大數(shù)據(jù)、算法框架等基礎軟件的開源,再到以Risc-V為代表的芯片的開放,以OCP、ODCC為代表的計算硬件的開放。由軟件到硬件,從芯片到數(shù)據(jù)中心,開放變革了IT產(chǎn)業(yè)的生產(chǎn)模式和應用服務模式,持續(xù)推動著信息技術(shù)的發(fā)展,促進了整個IT產(chǎn)業(yè)的生態(tài)繁榮。開源開放的IT,才是一個健康的IT。開源開放的軟硬件,才是智算中心建設的需要。
目前,幾乎所有頂級互聯(lián)網(wǎng)數(shù)據(jù)中心已經(jīng)大規(guī)模落地了開放計算服務器,通信、金融、能源等關(guān)鍵領(lǐng)域的TOP企業(yè)也紛紛加入這些開源組織并在數(shù)據(jù)中心建設中加以實踐。像OpenStack、K8S、Hadoop、TensorFlow等面向云計算、大數(shù)據(jù)、人工智能等場景的開源基礎軟件,已經(jīng)成為了智算中心軟件平臺的事實標準,超過80%的企業(yè)都在其數(shù)據(jù)中心中應用了開源軟件技術(shù)。
基礎設施必然要以規(guī)模效應來實現(xiàn)降本增效,要能夠快速建設。這就要求智算中心的建設就好比現(xiàn)在蓋房子一樣,采用預生產(chǎn)的、標準化模塊化的硬件來實現(xiàn)“裝配式”建設。從標準化的節(jié)點單元,到標準化的整機柜,到標準化的微模塊數(shù)據(jù)中心,再到整個智算中心,就像樂高積木一樣,層層組裝,快速建設。
作為基礎設施,要求不同的智算中心能夠互聯(lián)互通。包括管理上的互操作,統(tǒng)一的調(diào)度分發(fā)、監(jiān)控運維;業(yè)務上的互連接,包括網(wǎng)絡打通、業(yè)務遷移等;數(shù)據(jù)上的互流通,實現(xiàn)容災、數(shù)據(jù)共享等。
基礎設施的超大規(guī)模要求智算中心應該是集約高效的。首先,智算中心要整體設計,理念先進。技術(shù)上,融合架構(gòu)代表著數(shù)據(jù)中心體系結(jié)構(gòu)的未來發(fā)展方向。融合架構(gòu)從1.0到2.0,已經(jīng)實現(xiàn)了存儲資源和異構(gòu)計算資源的彈性組合?,F(xiàn)在的融合架構(gòu),正處于3.0階段,也就是通過連接、池化和重構(gòu)的技術(shù),實現(xiàn)不同計算資源的協(xié)同能力,通過軟件定義實現(xiàn)業(yè)務自動感知和資源自動重構(gòu),使計算的性能和效率大幅度的提升。
硬件層面,通過硬件重構(gòu)實現(xiàn)資源池化。CPU與GPU、FPGA、xPU等各種加速器將更加緊密結(jié)合,利用全互聯(lián)NVSwitch、CXL、Open CAPI等新型超高速內(nèi)外部互連技術(shù),實現(xiàn)異構(gòu)計算芯片的融合;CPU之間可以通過池化融合的方式實現(xiàn)靈活組合,可以根據(jù)業(yè)務場景動態(tài)形成1路到多路多種計算單元;異構(gòu)存儲介質(zhì),如NVMe,SSD,HDD等則通過高速互連形成存儲資源池。
在計算和存儲資源池中,除了傳統(tǒng)CPU、GPU等,還可以應用更多新型計算芯片、存儲介質(zhì)和互連技術(shù),進一步提升數(shù)據(jù)中心的處理能力。例如,谷歌專為人工智能設計的芯片TPU。與GPU相比,TPU采用低精度(8位)計算,以降低每步操作使用的晶體管數(shù)量,是同代CPU或者GPU速度的15-30倍。同時,TPU還可以進行池化,實現(xiàn)了TPU之間的高速互聯(lián),也就是TPU POD,并對外提供TPU算力服務。
存儲方面,非易失內(nèi)存DCPMM,既可以作為高速硬盤使用,也可以作為標準的內(nèi)存使用,當作為內(nèi)存使用時,其單條內(nèi)存容量最大可以到512GB,使得推理作業(yè)密度提升一倍,每單位作業(yè)成本下降近50%?;ミB方面,異構(gòu)芯片高速互連的技術(shù)CXL、open CAPI等,實現(xiàn)了CPU和設備、設備和設備之間的內(nèi)存共享,構(gòu)建高效池化的智算中心從理想照進了現(xiàn)實。
軟件層面,則通過軟件定義,在可重構(gòu)的硬件資源池基礎上,通過靈活的組織,將不同的資源池組成專業(yè)的服務器、存儲、網(wǎng)絡系統(tǒng),并實現(xiàn)資源的高效管理和調(diào)度以及數(shù)據(jù)在池化資源的靈動流轉(zhuǎn)。當AI與軟件定義結(jié)合后,賦予了軟件定義更高級的含義。從業(yè)務上,實現(xiàn)了基于業(yè)務特征感知的智能資源調(diào)度,讓合適的資源在合適的位置去執(zhí)行合適的任務,就像讓合適的人去干合適的事一樣。從管理上,實現(xiàn)了智能化的運維,也就是智算中心的無人巡檢、故障自愈等。
軟件定義一個典型的趨勢是軟硬件協(xié)同設計,由專用芯片、FPGA處理更多的業(yè)務負載,由軟件進行更智能化的管理和調(diào)度。例如,基于FPGA和NVMe組成資源池,以硬件輔助虛擬化的方式為虛擬機實例提供接近硬件性能的計算、存儲、網(wǎng)絡功能,性能損失從傳統(tǒng)軟件模擬方式的50%降低到1%左右,相同條件下可以百倍加速AI作業(yè)效率。
綠色節(jié)能是永恒的話題,從傳統(tǒng)的節(jié)點內(nèi)風冷,到機柜級冷板式液冷,再到數(shù)據(jù)中心的浸沒式液冷整體設計,配合余熱回收、相變儲能等循環(huán)節(jié)能技術(shù),可以實現(xiàn)PUE接近于1的目標,打造高效清潔的綠色智算中心。
智算中心作為基礎設施,要服務大眾,提供算力服務、數(shù)據(jù)服務和智能服務,支撐智慧城市、智能制造、智能家居以及智能醫(yī)療等行業(yè)的智慧化轉(zhuǎn)型。但是行業(yè)用戶的智慧轉(zhuǎn)型,仍然存在著一個巨大的技術(shù)鴻溝,這個鴻溝里,有如何選擇最合適的算法模型,有如何從軟、硬件兩方面對算法做性能優(yōu)化,有如何對面向特定領(lǐng)域的智能算法進行高效敏捷的開發(fā)部署等諸多問題。要填補這些鴻溝,需要智算中心提供整合的、易用的開放服務平臺。
基于智算中心先進的AI算力基礎平臺、AI算力調(diào)度平臺、AI算法模型來打造人工智能開放服務平臺,匯聚并賦能行業(yè)AI應用的開發(fā)者,加速開發(fā)各種各樣的行業(yè)智慧應用,加速行業(yè)AI化、加速產(chǎn)業(yè)AI化。