新聞中心
【稿件】“初夏,你終于有機會去享受那寶貴的年假。海風(fēng)溫和,日光溫暖,你戴著墨鏡,閑情地看浪潮起落。此刻你正回憶,初入運維時那‘故障無情,假期無休’的日子……手機適時地響了——‘報警’。你不慌不忙,對著手機語音說了一句:‘回滾?!惴畔率謾C繼續(xù)看海,任海風(fēng)吹亂你的發(fā),而你的內(nèi)心正如遠(yuǎn)方的海一樣平靜。”

這是2017年4月15日“WOTA全球架構(gòu)與運維峰會”上,搜狗運維總監(jiān)張博描繪的未來運維的理想狀態(tài)。他當(dāng)天的演講深入介紹了當(dāng)下搜狗為實現(xiàn)理想運維(“智能運維”)而正在研究的方向。會后,我們有機會與張博先生進(jìn)行了深入交流與采訪。
張博·搜狗運維總監(jiān)
運維的三大痛點
運維之所以如此地渴望一個安心地假期,在張博看來這恰恰就是當(dāng)下運維痛點存在地突出體現(xiàn)。目前運維普遍存在三大痛點:操心成本、煩人成本、智商不夠用,這三個痛點也正是張博演講時反復(fù)提到的。
所謂操心成本即與相聲《扔靴子》所表達(dá)的主題相似——你并不知道“第二雙靴子什么時候扔下來”,運維也是同樣的道理,你并不知道故障什么時候來臨,所以你一直提心吊膽,惶惶不安。并且很多時候報警了,但是并不能反映真實情況,這都是運維操心成本范疇。
煩人成本則是保證線上可靠性所導(dǎo)致的,一旦出現(xiàn)問題,無論大小,運維人員是首先被問詢的,所以運維人員最容易被打擾,這導(dǎo)致運維人員并沒有大塊的時間去做運維開發(fā)(搜狗規(guī)定:運維人員不做開發(fā)將不允升職)以及開發(fā)效率過低。
第三個痛點:智商不夠用,很簡單,從字面便可理解。遇到故障了,但是并不一定能夠立即定位故障,特別是遇到復(fù)雜故障,如何找出故障是非常痛點的問題。
針對當(dāng)下運維的痛點問題,搜狗都做了哪些工作呢?張博與我們分享了正在進(jìn)行的三個項目,這三個項目共同組建了搜狗的智能運維體系。
智能熔斷實現(xiàn)原理
首先,是智能熔斷系統(tǒng)。這是目前搜狗針對運維操心成本正在研發(fā)的項目,其主要思路是:根據(jù)運維問題的時序性,做智能監(jiān)控,一旦發(fā)生問題,運維人員便可遠(yuǎn)程進(jìn)行操作,可采取熔斷回滾。這并非是什么新技術(shù)。在股票、醫(yī)學(xué)領(lǐng)域,基于時間軸的數(shù)據(jù)監(jiān)控早已被廣泛應(yīng)用。股市利用數(shù)據(jù)監(jiān)控預(yù)測股票漲跌,醫(yī)學(xué)可以利用數(shù)據(jù)監(jiān)控預(yù)測疾病的發(fā)生時間,這些特點與運維有高度的相似性。而這恰恰也是目前運維領(lǐng)域的挑戰(zhàn)所在,尖端人才大都集中在金融與醫(yī)學(xué)領(lǐng)域,IT領(lǐng)域寥寥無幾。
智能問答系統(tǒng)——維秘
第二,則是智能問答系統(tǒng)——維秘。這個問答系統(tǒng)已經(jīng)在搜狗內(nèi)部開始內(nèi)測,這也是為了解決運維的第二個痛點——煩人成本。運維人員每天需要解答各種各樣的問題,這個工作需要花費大量的瑣碎時間,而這個工作完全可以交由智能機器人來解決。
智能機器人
這個機器人有三個功能,一個是智能查單的功能,在搜狗內(nèi)部運維系統(tǒng)有很多工單,當(dāng)咨詢?nèi)藛T工單號,就能查到工單進(jìn)行到哪一步了,類似于在搜狗搜索里面,你輸入快遞單號就能顯示快遞狀態(tài)。第二個智能找人,咨詢?nèi)藛T提問后,可能并沒有命中知識庫(知識庫由運維人員提前編輯整理好),機器人沒法回答,但機器人可以判斷這個問題是屬于哪個領(lǐng)域,然后推薦此領(lǐng)域的專家,如問到硬盤的問題,則會推薦一位硬件領(lǐng)域?qū)<医獯饐栴}。而咨詢?nèi)藛T與專家的對話又將得以保存,并作為機器進(jìn)一步學(xué)習(xí)的資料。第三個就是最為常見的智能問答,咨詢?nèi)藛T提出問題,機器人直接根據(jù)知識庫來進(jìn)行解答。
第三,故障精確定位系統(tǒng)。這是搜狗目前已經(jīng)完成的項目。當(dāng)收到一個從用戶端訪問搜狗業(yè)務(wù)報警的時候,這說明搜狗的網(wǎng)站可靠性出了問題。以往解決問題往往都是基于經(jīng)驗,人肉定位。張博表示,如今搜狗的做法則是把問題抽離成一個規(guī)則的模板,抽離成一個規(guī)則的集合,然后基于特定業(yè)務(wù)架構(gòu)圖去分析,最終定位故障具體原因。
大致的算法是每一個探針的請求都帶一個ID,這個ID在各個模塊都是打通的。搜狗運維人員分析這個請求的ID在每個模塊里面它的表現(xiàn),根據(jù)這些規(guī)則模板看它是否命中設(shè)定規(guī)則模板,然后定位系統(tǒng)系統(tǒng)再根據(jù)這些規(guī)則模板的命中情況做一個決策,將故障定位。甚至可以定位它是屬于哪個模塊的哪個節(jié)點,這樣就可以快速的去處理這個故障。
這三個系統(tǒng)是張博與搜狗運維同仁為實現(xiàn)未來運維理想狀態(tài)——面朝大海,萬事OK,正做的努力,然而我們又要回歸到一個經(jīng)常被討論的問題,實現(xiàn)理想之后呢?運維會被自己創(chuàng)造出的人工智能代替嗎?
被問到這個問題,張博面露微笑,顯然他早有觀點,張博異常堅定地表示:“運維人員的工作肯定不會被代替!但是運維所從事的工作內(nèi)容會發(fā)生質(zhì)的改變。人工智能到來之前,運維人員從事的工作依舊是上線人肉操作。但是智能運維到來之后,運維人員則是負(fù)責(zé)智能運維引擎的研發(fā),讓引擎更聰明更穩(wěn)定,所以人工智能的到來不僅不會讓運維工程師失業(yè),而是讓運維工作升級。因為畢竟強大的不是人工智能,而是開發(fā)這些人工智能的人。”
這個觀點與遞歸神經(jīng)網(wǎng)絡(luò)之父、德國計算機科學(xué)家尤爾根·施米德胡貝觀點頗為相似:“人類總是很善于創(chuàng)造原本并不存在的那些工作……預(yù)測哪些工作崗位將會消失并不是難事,但預(yù)測未來將會出現(xiàn)什么新崗位就不容易了。在1980年代,誰會想到30年后會有人做職業(yè)視頻游戲玩家或者YouTube明星就能賺到數(shù)百萬美元呢?”
隨著人工智能的概念熱炒,任何領(lǐng)域都希望通過人工智能得到人力解放,“機器代替人”的爭論更是從無休止。人工智能的發(fā)展就目前而言,其初衷是解決機械重復(fù)性以及大規(guī)模運算類工作,而運維恰恰是這樣一個高密度工作強度的領(lǐng)域,這也是目前人工智能為何能夠率先應(yīng)用發(fā)力運維領(lǐng)域的因素所在。誠如張博所言,人工智能的到來并非代替運維人員,而是對運維工作進(jìn)行升級,而這恰恰也對運維人員提出了更高的要求——自我升級,與時俱進(jìn)。
【原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為.com】
分享標(biāo)題:搜狗張博:智能運維不是代替而是升級
本文地址:http://www.dlmjj.cn/article/ccesgio.html


咨詢
建站咨詢
