中國超算行穩方能致遠

2019年06月20日 09:31:55
來源: 中國科學報 作者: 趙廣立

  當地時間6月17日,新一期(第53屆)全球高性能計算機TOP500榜單作為國際超算大會(ISC19)的重頭戲在德國法蘭克福發布。昔日的最快超算、來自中國的“神威·太湖之光”和“天河二號”雖然被美國新升級的“頂點”和“山脊”搶去冠亞軍,但中國大陸仍以219臺超算上榜的總數蟬聯份額第一。

  這成為了國內各路媒體報道的標題。然而,在當天的TOP500超算榜單發布中,勞倫斯伯克利國家實驗室超算科學家、超算TOP500榜單聯合創始人埃里奇·斯特羅邁爾(Erich Strohmaier)在分析過這份榜單的TOP50和TOP100之后,留下了一個問題,引起了在現場的錢德沛、盧宇彤、張云泉等中國超算專家的關注。

  斯特羅邁爾的問題是:“中國是不是超算強國?”

  中國超算不夠“超”?

  斯特羅邁爾提出問題的出發點在于,榜單上的中國超算好像不那么“超”——“在全球超算TOP100之中,中國僅有9臺設備上榜”“在TOP50的超算設備中,僅有1臺來自中國的商用系統”。

  反映在整個榜單上,美國116臺超算占據了全榜單38.4%的計算性能,而中國大陸219臺超算所占的計算力只有不到30%。

  “在TOP500中我們數量最多,但在性能方面落后美國;而在TOP50之中,我們無論在性能還是數量上,都遠遠落后于美國、日本甚至歐洲的幾個國家。” 在由中國超算廠商中科曙光舉辦的“超算之夜”活動上,中山大學數據科學與計算機學院院長錢德沛就這一數據評論道:“這反映了中國超算的一個問題:和國外相比我們的應用類型、領域寬度等還有差距,中國超算的任務還很艱巨。”

  擔任本屆ISC19大會程序主席的國家超級計算廣州中心主任盧宇彤也關注到這一細節。在接受《中國科學報》采訪時她表示:“TOP50的超算設備中僅有1臺來自中國的商用系統”,就是說在大中型超算應用領域,中國的高性能計算廠商還沒有安裝一些大規模系統。

  “中國生產高性能計算機的能力很強,可以說超過了美國,但最尖端的還要差一些。TOP500榜單中中國數量最多,但不排除有廠商拿一堆小機器去充數。如果打榜的測試基準發生改變——這也正是組委會在考慮的問題——這些小機器能否上榜還是未知數。”在展會現場,一位超算專業人士告訴記者,在超算的金字塔尖,依次是美國、歐洲、日本,然后才是中國。

  “這些國家的整體實力在中國之上?”面對《中國科學報》的提問,這位專家的回答是:“第一梯隊中,我們還是弱一些。”

  硬件、軟件都要“趕”

  如果把高性能計算機“拆開”看,中國超算的弱勢就更加一覽無余。

  首先從驅動計算最關鍵的部件核心處理器來看,全球最快的500臺超算中,有488臺設備采用的是美國公司生產的芯片,其中芯片霸主英特爾的處理器出現在478臺設備中,另有7臺超算系統選用了IBM Power系列處理器、3臺系統選擇了AMD處理器;另外,全球超算TOP500名單上共有133個系統采用了加速器或協處理器技術,其中的122臺使用的是美國英偉達不同型號的GPU處理器。

  另外,在高性能計算機所需的存儲、通信等的高端核心芯片的選用上,中國超算還沒有多少可匹配的國產化產品的選擇。

  “中國的‘神威·太湖之光’‘天河二號’等高性能計算機在核心處理器的選擇上分別采用了申威、飛騰等國產芯片,總體而言,差距已經在縮小。”盧宇彤對記者說。

  中國超算在軟件方面的短板更加明顯。“中國超算軟件包括基礎軟件和應用軟件,對國外商用軟件的依賴程度非常大。”中科院軟件所一位要求匿名的研究員告訴《中國科學報》,軟件上的短板有很多因素,其中“重視不夠”是重要原因之一。

  “與美國相比,我國超算設備的采購機制還不完善。”在ISC19展會上,中科曙光高性能計算產品事業部首席科學家吉青告訴《中國科學報》,美國的超級計算機經費一般分為三部分:假設硬件設備需要3000萬美元,那么他們還有接近3000萬美元支撐所有相關人員在其上開發相關軟件和應用;另外還有一筆經費用于支持其他可能會用到的技術研發,“這種資金投入相對來說更為合理。”

  記者就這一問題在采訪盧宇彤時得到了同樣的答復。她對《中國科學報》表示,中國在超算軟件和應用開發上需要“與硬件開發相匹配的投入”。

  從超算到超算能力

  正如中國超算在TOP500榜單中的表現備受關注一樣,在ISC19的展會上,中科曙光、聯想、浪潮、華為等中國超算廠商也非常吸睛。記者在中科曙光展臺注意到,有不少國外友人“組團”前來參觀曙光今年在展臺上展出的“身高”2.6米的新一代硅立方高性能計算機,以及它所使用的曙光第四代液冷技術產品——全浸沒式相變液冷散熱系統。據介紹,利用該技術,系統的電能使用效率(PUE)值可降至1.04以下,相當于40瓦的功率冷卻1000瓦的設備,而傳統的風冷系統需要500~1000瓦。

  “以前都是我們組隊去看別人,今年我們都沒機會離開展臺,有許多機構來看我們的。”吉青對《中國科學報》說,外國友人向她提出的問題涉及到高性能計算機的方方面面,除了液冷技術,還包括能效比、通用性、網絡結構、運維管理,等等。

  “每回答一個問題,都代表著我們在這個領域的能力,這也是新一代‘硅立方’要展示的內容——中國廠商的超算設計能力和用好超算的能力。”吉青說,高性能計算機不僅是國之重器、超級計算工具,還是實驗最先進計算技術的平臺。因此,只有高性能計算機做到最好,才能支撐最“上乘”、最“高大上”的應用,才會有更好的人工智能、精準醫療、氣象模擬和預報。

  以曙光為代表,中國超算廠商正努力做到這一點。比如,曙光在新一代硅立方高性能計算機的架構上選擇了可廣泛兼容的異構結構,用戶可以根據所需選取不同的處理器和加速器;在通信方面支持業界主流的胖樹拓撲和6D-Torus高速網絡技術,力求系統網絡性能的高帶寬、低延時;曙光還成立一支專業隊伍組建“EasyOP在線運維平臺”,在提供超算用戶7×24小時的PaaS級運維的同時,還可根據用戶不同應用定制、分配甚至出售超算服務。

  “只有把高性能計算機的每一個環節都做好——搭好硬件、做好軟件、做好管理和運維,才能有最好的超算。”吉青說,這也是中科曙光發展超算的理念,行穩方能致遠。

  盧宇彤也告訴記者,中國超算的應用市場廣闊,僅“天河二號”注冊用戶就有3500多個,平均負載率在75%以上。而且,隨著超算應用越來越復雜,系統也會變得越來越復雜,超算廠商和應用科學家將逐漸形成為一個整體來共同構建超算系統。

  “我們有個提法叫做‘全軟件棧/系統的協同設計’,它要求系統設施提供方和應用方互相配合,系統去適配應用,應用也要適配系統,通過協同設計,建設用戶和系統之間的橋梁。”盧宇彤告訴記者,未來超算面貌可能發生的變化,對于中國超算而言既是挑戰也是機遇。

  吉青認為,通過協同攻關,中國超算有望實現從超算(Super Computer)到超算技術能力(Super Computing)的躍遷。

  當地時間6月19日,中科院計算技術研究所研究員、國家超算濟南中心主任張云泉在隨中科院代表團訪問斯洛文尼亞共和國盧布爾雅那大學的行程中,帶來一個好消息:“歐洲可能不會再堅持用Arm處理器研發歐洲E級系統,甚至不排除由中國為歐洲建設E級超算。”

  “如果實現,將是中國超算走向世界的一個里程碑。”張云泉對《中國科學報》表示,這代表著中國超算的研發、設計及產品、服務能力逐步得到國際的認可。

標簽 - 超算,核心處理器,風冷系統,液冷散熱
網站編輯 - 孫思清
龙江体彩6十奖金累