新聞中心
UCloud AI Train公測(cè)上線,打造智能一體化訓(xùn)練平臺(tái)
作者:佚名 2018-04-03 13:20:40
云計(jì)算 UAI-Train靈活便捷的訓(xùn)練任務(wù)托管服務(wù),能夠幫助用戶擺脫資源采購運(yùn)維煩惱,降低AI使用門檻;同時(shí),平臺(tái)采用按需付費(fèi)模式,降低AI成本投入,避免閑置資源浪費(fèi)。

近日,UCloud推出了UAI-Train 智能一體化訓(xùn)練平臺(tái),結(jié)合此前已推出的UAI-Service、GPU及安全屋等AI系列產(chǎn)品,UCloud現(xiàn)已初步形成一站式AI全服務(wù)。
UAI-Train靈活便捷的訓(xùn)練任務(wù)托管服務(wù),能夠幫助用戶擺脫資源采購運(yùn)維煩惱,降低AI使用門檻;同時(shí),平臺(tái)采用按需付費(fèi)模式,降低AI成本投入,避免閑置資源浪費(fèi)。
AI模型訓(xùn)練的痛點(diǎn)
隨著人工智能產(chǎn)業(yè)的興起,人工智能技術(shù)已經(jīng)被廣泛運(yùn)用于各行各業(yè)。近年來,人工智能技術(shù)在圖像(物體識(shí)別、人臉識(shí)別等)、自然語言(語音識(shí)別、翻譯、對(duì)話機(jī)器人)、智能醫(yī)療、智能推薦(廣告、新聞、視頻)等領(lǐng)域取得了飛速發(fā)展。與此同時(shí),人工智能技術(shù)對(duì)計(jì)算資源的需求也快速增加,因而“云計(jì)算如何服務(wù)于人工智能產(chǎn)業(yè)的發(fā)展”已成為公有云服務(wù)的一個(gè)新方向。
通常來說,構(gòu)建人工智能服務(wù)包括三個(gè)步驟:大數(shù)據(jù)收集與處理、AI模型訓(xùn)練、AI模型在線服務(wù),其中的每一個(gè)環(huán)節(jié)都需要投入大量計(jì)算資源。
對(duì)于大數(shù)據(jù)處理,可通過采購一定數(shù)量的云主機(jī)或物理機(jī)來搭建一個(gè)數(shù)據(jù)處理集群 ,也可通過采用UHadoop產(chǎn)品來搭建Hadoop或Spark集群來處理數(shù)據(jù);對(duì)于AI在線服務(wù),可通過使用云主機(jī)搭建服務(wù)集群或直接使用UCloud UAI Service服務(wù),來快速部署AI在線推理服務(wù)。
然而對(duì)于AI模型訓(xùn)練,用戶通常需要高性能的GPU資源來滿足AI模型訓(xùn)練過程中所產(chǎn)生的龐大的浮點(diǎn)計(jì)算需求,以及處理隨之而來的諸多挑戰(zhàn)。
◆ 成本投入高
GPU硬件或GPU云主機(jī)的采購成本非常高。一塊P40 GPU的采購價(jià)格超過5萬,即使是租用P40云主機(jī),其成本也在4500元/月以上,因此使用GPU硬件一次性投入的成本非常高。
◆ 資源閑置
自行采購GPU還會(huì)面臨空閑資源閑置等問題。在AI算法研發(fā)、迭代過程中,算法設(shè)計(jì)、數(shù)據(jù)處理都需要花費(fèi)大量的時(shí)間,但此時(shí)GPU設(shè)備卻通常因?yàn)闊o法被充分利用而造成閑置,進(jìn)一步增加GPU的使用成本。
◆ 采購周期長(zhǎng)
GPU采購和備貨周期比普通CPU服務(wù)器更長(zhǎng)。即使使用公有云服務(wù)也無法像使用CPU云主機(jī)一樣,隨時(shí)隨地購買使用GPU云主機(jī)。
◆ 運(yùn)維成本高
訓(xùn)練環(huán)境配置、GPU資源調(diào)度、數(shù)據(jù)存儲(chǔ)、訓(xùn)練任務(wù)容災(zāi)等問題會(huì)隨著業(yè)務(wù)量的增加而增加,從而不斷提高GPU訓(xùn)練集群維護(hù)的運(yùn)維成本。
諸多問題表明,對(duì)于從事AI業(yè)務(wù)的公司來說,所面臨的挑戰(zhàn)非常嚴(yán)峻。研發(fā)人員可能手握很好的AI算法模型和解決方案,卻往往因?yàn)锳I技術(shù)的高門檻要求而導(dǎo)致研發(fā)成本增加、研發(fā)周期變長(zhǎng)。
為了幫助客戶解決AI模型訓(xùn)練過程面臨的四個(gè)關(guān)鍵問題,UCloud AI Train平臺(tái)基于UCloud性能強(qiáng)大的GPU云主機(jī)集群構(gòu)建,為AI訓(xùn)練任務(wù)提供充足的計(jì)算能力。同時(shí),提供一站式訓(xùn)練任務(wù)托管服務(wù),包括自動(dòng)實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)調(diào)度、訓(xùn)練環(huán)境準(zhǔn)備、數(shù)據(jù)上傳下載以及任務(wù)容災(zāi)等功能,能夠幫助用戶從繁雜的GPU資源采購、管理、運(yùn)維工作中解放出來。另外,UAI-Train平臺(tái)按照實(shí)際計(jì)算消耗付費(fèi),不但可以降低GPU的成本投入,而且可以避免閑置資源浪費(fèi)。
智能一體化訓(xùn)練平臺(tái)的三大核心優(yōu)勢(shì)
◆ 一站式任務(wù)托管,實(shí)時(shí)訓(xùn)練狀態(tài)追蹤
UAI-Train平臺(tái)提供一站式訓(xùn)練任務(wù)托管服務(wù),用戶只需要提供打包好的訓(xùn)練鏡像、數(shù)據(jù)源路徑、數(shù)據(jù)輸出路徑以及訓(xùn)練所需的參數(shù)就可以提交訓(xùn)練任務(wù)并等待任務(wù)結(jié)束。UAI-Train平臺(tái)將自動(dòng)進(jìn)行GPU資源調(diào)度、數(shù)據(jù)下載上傳和計(jì)算節(jié)點(diǎn)容災(zāi)。
同時(shí)UAI-Train平臺(tái)提供了圖形化的實(shí)時(shí)日志輸出,以及TensorBoard的實(shí)時(shí)展示(Tensorflow和Keras可用),用戶可以通過瀏覽器實(shí)時(shí)追蹤訓(xùn)練的狀態(tài)。
◆ 基于Docker容器技術(shù),強(qiáng)大的AI兼容性
UAI Train基于Docker容器技術(shù)提供兼容性極強(qiáng)的訓(xùn)練環(huán)境。用戶只需將AI模型訓(xùn)練算法打包至Docker鏡像中,即可以將訓(xùn)練任務(wù)提交至訓(xùn)練平臺(tái),訓(xùn)練平臺(tái)將會(huì)負(fù)責(zé):
>>>> 訓(xùn)練數(shù)據(jù)下載;
>>>> 訓(xùn)練任務(wù)執(zhí)行;
>>>> 訓(xùn)練結(jié)果輸出并保存。
完全無需用戶介入,整個(gè)過程如下圖所示:
為簡(jiǎn)化UAI-Train平臺(tái)的使用過程,UCloud提供了Python SDK和基礎(chǔ)Docker鏡像,以此來協(xié)助用戶封裝Docker鏡像。目前,UAI-Train平臺(tái)支持4種主流AI框架,包括鏡像一鍵打包和測(cè)試工具以及基礎(chǔ)鏡像(后續(xù)還將計(jì)劃增加對(duì)PyTorch、CNTK等開源框架的支持)。
同時(shí),UAI Train平臺(tái)也支持自定義Docker訓(xùn)練鏡像,并提供了預(yù)裝cuda和cudnn的基礎(chǔ)鏡像。
◆ 靈活配置選擇,超高性價(jià)比
UAI-Train平臺(tái)目前支持3種GPU節(jié)點(diǎn),按需使用收費(fèi),計(jì)費(fèi)精確到分鐘,具有極高的性價(jià)比。
UAI-Train平臺(tái)還計(jì)劃逐步推出種類更豐富的硬件加速計(jì)算設(shè)備,包括更新的GPU設(shè)備、Xeon Phi設(shè)備等,另外還將推出分布式訓(xùn)練集群支持。
四大核心應(yīng)用場(chǎng)景,助力企業(yè)AI業(yè)務(wù)發(fā)展
◆ 應(yīng)用場(chǎng)景一:快速AI轉(zhuǎn)型
AI模型訓(xùn)練任務(wù)執(zhí)行環(huán)境配置復(fù)雜(GPU驅(qū)動(dòng)、AI框架環(huán)境安裝等)、GPU資源采購周期長(zhǎng)、成本高、運(yùn)維工作繁雜等,這都成為企業(yè)快速轉(zhuǎn)型AI業(yè)務(wù)的絆腳石。使用UAI-Train訓(xùn)練服務(wù)可以無需擔(dān)心資源采購、環(huán)境配置、集群維護(hù)等問題,快速開展AI模型訓(xùn)練工作。
◆ 應(yīng)用場(chǎng)景二:降低AI成本
AI訓(xùn)練任務(wù)執(zhí)行需要花費(fèi)大量計(jì)算資源。GPU硬件采購成本高,閑置資源浪費(fèi)開銷大。使用UAI Train訓(xùn)練服務(wù)不僅可以獲得充足的GPU硬件資源,同時(shí)又可以按照實(shí)際計(jì)算消耗付費(fèi),使用較小的投入獲取充足的計(jì)算資源,具有極高的性價(jià)比,可以有效減低AI成本。
◆ 應(yīng)用場(chǎng)景三:簡(jiǎn)化AI運(yùn)維
大規(guī)模執(zhí)行AI模型訓(xùn)練任務(wù)需要處理計(jì)算資源調(diào)度、 任務(wù)管理、任務(wù)容災(zāi)等問題。 UAI-Train訓(xùn)練平臺(tái)自動(dòng)幫助使用者解決計(jì)算節(jié)點(diǎn)調(diào)度、任務(wù)管理、容災(zāi)等問題,更為使用者提供了圖形化界面展示訓(xùn)練任務(wù)狀態(tài)。
◆ 應(yīng)用場(chǎng)景四:共享GPU資源
使用GPU云主機(jī)、物理機(jī)很難在團(tuán)隊(duì)之間、部門之間以及各類使用者之間共享GPU資源。UAI-Train訓(xùn)練平臺(tái)則可以同時(shí)滿足成千上百個(gè)使用者共享整個(gè)GPU資源池, 同時(shí)又提供了資源隔離、配額管理功能,可以滿足GPU資源共享場(chǎng)景的需求。
在9月份由創(chuàng)新工場(chǎng)聯(lián)合搜狗、今日頭條發(fā)起的“AI Challenger全球AI挑戰(zhàn)賽”中,UCloud 便作為***的AI GPU合作方,為大賽獨(dú)家提供了AI模型訓(xùn)練服務(wù)(UCloud AI Train)。此次合作也驗(yàn)證UCloud在AI領(lǐng)域強(qiáng)大的研發(fā)實(shí)力、快速響應(yīng)服務(wù)以及自身平臺(tái)穩(wěn)定性,為大賽的成功舉辦保駕護(hù)航。
作為國(guó)內(nèi)領(lǐng)先的云計(jì)算服務(wù)商,UCloud將繼續(xù)深入研究AI訓(xùn)練平臺(tái)的功能與性能,致力為用戶提供更豐富的AI框架和分布式訓(xùn)練支持。同時(shí),UCloud還將結(jié)合UAI-Service 在線服務(wù)平臺(tái),打造從AI訓(xùn)練到AI在線服務(wù)的一體化解決方案,全方位提升面向AI產(chǎn)業(yè)的服務(wù)能力。
標(biāo)題名稱:UCloudAITrain公測(cè)上線,打造智能一體化訓(xùn)練平臺(tái)
URL網(wǎng)址:http://www.dlmjj.cn/article/ccisjeo.html


咨詢
建站咨詢
