[DIGITIMES]雙子星推BDaaS方案 助台灣推展AI大數據應用
[:tw]
鄭斐文/2017-10-20/DIGITIMES企劃
2016年AlphaGo戰勝世界圍棋冠軍,帶給世人莫大震撼,使人工智慧(AI)迅速蔚為顯學,不僅成為產業界群起搶攻的商機題材,政府也期許將台灣打造為AI發展重鎮。
雙子星雲端運算公司(Gemini)執行長符儒嘉表示,對於政府誓言將AI打造成為台灣的下一個明星產業,他深表認同、亦看好發展前景,只因為台灣若能有效匯聚雲端、大數據、AI等多方技術能量,再結合一向擅長的硬體技術根基,孕育出諸如AI Appliance等整合性方案,確實是台灣適合前進的發展道路。
為順應AI趨勢浪潮,雙子星於日前舉辦技術論壇,以AI、機器學習、資料科學、大數據等講題內容,作為貫穿論壇活動的軸心。其間符儒嘉以「大數據下的雲端架構」為題發表演說,一方面細數近20年從高效能(HPC)、大數據而至AI的演進脈絡,二方面透過大數據雲(Big Data as a Service;BDaaS)概念之鋪陳,點出一個可望加速AI發展的重要方向。
大數據與雲端 開始有交集
符儒嘉說,過去20年內的多數時間,HPC∕大數據、雲端運算鮮少有交集,但隨著近年來諸多重大里程碑出現,已使情況產生變化。他認為經由AlphaGo示範效應,證明只要透過複雜的多層次神經元、搭配高效率平行處理,即可展現絕佳決策速度,而GPU無疑是加速深度神經網路(DNN)、機器學習等新技術發展的關鍵推手。
儘管GPU的助攻,使AI運算效率大躍進,但畢竟GPU資源的取得成本偏高,即使用戶僅是因應專案需求,在特定期間內透過公有雲虛擬機器(VM)運行GPU,依然不符經濟效益;換言之,儘管雲端憑藉虛擬化、多租戶等技術,使計算資源得以被彈性運用,帶動許多應用的發展,但舉凡AI、大數據或HPC,以往並不在受惠範圍之列。
可喜的是,伴隨2014年容器(Container)技術問世,隔年容器管理平台Kubernetes現身,開始讓情勢逆轉,在Kubernetes叢集內,可藉由單一Host統一支援CUDA Library,使個別容器均可載入不同Toolkit,分別支應TensorFlow、Caffe等等不同任務需求;自此GPU開始成為適合共享的資源,假設A使用者利用這些資源、跑完自己的Job,爾後這些資源將被快速釋放,以供B、C、D等等其他使用者接續採用,不同Job的轉換過程,Context Switch效率極高高,此即Utility Computing概念,讓「GPU as a Service」從不可能變成可能。
符儒嘉補充,GPU as a Service的落地實現,固然稱得上重大突破,但欲贏得資料科學家青睞,尚欠缺臨門一腳,主要是因為,這群使用者不熟悉雲端技術,且慣用Batch Job作業型態;所幸2014年AWS(Amazon Web Services)推出無伺服器運算服務Lambda,讓資料科學家只要把Job送上雲端,皆可透過預設條件觸發執行,不必隨侍在側緊盯Job的實際執行,只要Job作業結束,便能在第一時間接獲最終運算成果,這般運作模式,無論對資料科學家或HPC使用者,都具有莫大吸引力,讓他們原本對於GPU as a Service抱持的觀望態度,迅速消弭於無形。
透過BDaaS,催生大數據或AI服務
符儒嘉歸納,從GPU、Dockers容器、Kubernetes、無伺服器運算等一個個技術因子接踵而至,終於讓原先各走各路的HPC/大數據、雲端運算,開始出現交集。而深具OpenStack PaaS技術優勢的雙子星,也順應這股趨勢潮流,開始透過其Gemini Open Cloud(GOC)平台,提供大數據解決方案。
綜觀雙子星的GOC PaaS結構,箇中蘊含一大核心要素、即是Solution Foundry,可允許SI或第三方軟體廠商(ISV)藉由服務定義範本,定義自己想要的服務整合方式;除此之外,GOC PaaS支援Ansible、SaltStack等常見管理工具,確保用戶所需之大數據服務內容,可被自動安裝配置,雙子星亦提供支援客製化的服務入口網站,俾使三種類型的使用者,皆能即時掌握各自關切的資訊,比方說資料中心的維護者,可透過這個Portal了解硬體設備的健康狀態,服務提供者可了解預設的額度(Quota)是否用盡,至於資料科學家、資料分析師等最終使用者,則可藉此監控各項Job執行狀況。
雙子星植基於前述PaaS架構催生的大數據雲(BDaaS)解決方案,基本上是站在第三方角色,提供強大補給庫,幫助有志經營HPC、Big Data或AI雲端服務事業者開疆闢土。首先用戶(服務提供者)必須把前述的服務定義範本、即是GSP(Gemini Solution Package)檔案上傳GOC,此後GOC PaaS便根據範本,自動架設用戶所預期的TensorFlow、Spark或Hadoop等等服務架構,一旦架構底定,最終使用者(例如資料科學)就可隨需透過Portal快速啟動大數據運算叢集環境,像是建立ETL(Extract-Transform-Load)環境等繁瑣複雜的底層架構事務,皆可交由GOC PaaS自動執行,使他們能真正心無旁鶩聚焦在核心巨量分析演算法。
值得一提的,雙子星巧妙利用滾動更新(Rolling update)方式,讓大數據雲端服務商既能兼顧更新升級,亦可避免中斷服務。符儒嘉強調,由此顯而易見,雙子星想做的,並非如同許多國際大品牌般、僅止於雲端虛擬化方案的供應,而是一舉提供完整的雲端服務生命週期管理機能,從定義雲端服務、部署暨編排、Portal管理介面、監控暨報表,一直到SOP暨優化服務定義等整個正向循環,都可望透過GOC平台全面滿足。
瞄準雲端服務生命週期 提供完整管理功能
他進一步表示,截至目前,包括OpenStack、Hadoop,乃至於人工智慧、機器學習相關的諸多軟體技術,都具備開源特質,但用戶欲利用這些開源工具建構生產環境,依然需要顧及穩定性、高可用度、高效能等原則,並深切理解架構瓶頸何在,總體來說絕非輕鬆任務;惟雙子星擁有豐富的開源軟體安裝經驗,對於箇中技術細節均能深度掌握,更擅長查找潛在效能瓶頸,因此能夠為用戶提供的價值,並不是隨著VM順利開啟便了事,而是擴及整個生命週期管理,故而輕易與其他雲端虛擬化方案供應商產生區隔,建立差異化競爭優勢。
前述的差異化利基,單單從Service Portal即可表露無遺。據了解,不少雲端虛擬化方案供應商,並未將Portal列為基本配備,假使客戶有此需要,才動員旗下開發人員,臨時撰寫一套Web介面,不見得具備產品化的成熟度與穩定性,反觀雙子星,對於Service Portal精益求精的態度,顯得獨樹一格。
符儒嘉說,雙子星雲端運算團隊從早期工研院一路推進,迄今已累積逾3年歷練,也證明當初決定主攻PaaS、而非競爭慘烈的SaaS,乃是正確方向,今後仍將在PaaS這個既定方向持續精進。
目前雙子星已透過GOC PaaS基礎,推出BDaaS(大數據)、DRaaS(異地災備)、VSaaS(視訊監控)、ITaaS(企業IT數據)等四大應用方案,展望2018年,該公司將致力把這四大方案的內容,做得更加完備;但符儒嘉坦言,雙子星的最大強項並不在於發展應用解決方案,因此未來不排除透過異業結盟方式,與夥伴共同打造其他應用方案,例如雲端直播服務、雲端IoT服務等等。
以近期主推的BDaaS方案為例,現階段已在學術界開花結果,位在台南灣的國立成功大學、台南市教育網路中心皆已採用。然而雙子星不管為BDaaS或其他方案所設立的推廣目標,都不侷限於台灣本地市場,未來將透過不同接觸管道,爭取海外商機,讓台灣自主研發的雲端系統軟體站上世界舞台。
http://www.digitimes.com.tw/iot/article.asp?cat=130&id=0000515504_HJV6GZWGLX6P4Y5A5R5HF