新聞中心
2022年2月4日至3月13日,北京順利舉辦了第24屆冬季奧林匹克運(yùn)動(dòng)會(huì)。時(shí)間拉回到2019年12月26日,北京2022年冬奧會(huì)和冬殘奧會(huì)官方網(wǎng)絡(luò)安全服務(wù)和殺毒軟件贊助商發(fā)布會(huì)在北京冬奧組委園區(qū)舉行,奇安信正式成為北京2022年冬奧會(huì)和冬殘奧會(huì)官方網(wǎng)絡(luò)安全服務(wù)和殺毒軟件贊助商。時(shí)至今日,已兩年有余。從成為冬奧會(huì)贊助商,到以零事故的成績(jī)圓滿完成冬奧會(huì)安全保障,離不開從零開始搭建到流暢運(yùn)轉(zhuǎn)的冬奧安全運(yùn)營(yíng)中心。

提到冬奧安全運(yùn)營(yíng)中心,離不開一個(gè)貫穿全程的人,奇安信冬奧項(xiàng)目的總工程師尹智清,大家都叫他老尹。“從2019年12月26日開始,奇安信正式成為北京2022年冬奧會(huì)和冬殘奧會(huì)官方贊助商。” 回顧冬奧項(xiàng)目設(shè)計(jì)階段,老尹提到,“早在2019年3月,冬奧項(xiàng)目的設(shè)計(jì)工作就已經(jīng)開始?!庇捎?月份冬奧組委還沒(méi)有正式發(fā)布應(yīng)征文件,所以第一版設(shè)計(jì)方案并沒(méi)有可參考的明確要求,其主要參考依據(jù)是奇安信多年的重保經(jīng)驗(yàn)。
老尹說(shuō),當(dāng)時(shí)參與做第一版方案的只有3個(gè)人,只能摸著石頭過(guò)河。即便沒(méi)有可參考的要求,這3個(gè)人的團(tuán)隊(duì)還是在7月份迭代了第二版方案。直到2019年9月份冬奧組委的應(yīng)征文件正式發(fā)布,才有了明確的方案要求,也就是從那時(shí)候開始正式進(jìn)入最終策劃階段。在數(shù)十人團(tuán)隊(duì)的共同努力下,直到最后中標(biāo),奇安信冬奧重保任務(wù)的第一階段的正式完成。
與以往重保不同的是,首先冬奧項(xiàng)目的網(wǎng)絡(luò)安全建設(shè)耗時(shí)非常長(zhǎng),前后歷時(shí)2年多,其次奇安信要全面承擔(dān)冬奧會(huì)網(wǎng)絡(luò)安全責(zé)任,從以往項(xiàng)目的甲乙方關(guān)系變成了合作伙伴關(guān)系,這一點(diǎn)的轉(zhuǎn)變非常關(guān)鍵,也給冬奧重保提出了更高的要求。
“冬奧組委對(duì)于我們的最核心要求就是,要對(duì)冬奧會(huì)的網(wǎng)絡(luò)安全承擔(dān)完全的、徹底的、端到端的責(zé)任,最終目標(biāo)就是零事故?!崩弦f(shuō)。
同步規(guī)劃 同步建設(shè) 同步運(yùn)營(yíng)
在正式成為冬奧贊助商之后,項(xiàng)目也即將進(jìn)入現(xiàn)場(chǎng)交付建設(shè)階段。
“冬奧項(xiàng)目有數(shù)十家贊助商及第三方云上云下業(yè)務(wù)系統(tǒng),涉及多個(gè)場(chǎng)館,要保障冬奧項(xiàng)目全盤業(yè)務(wù)系統(tǒng)安全運(yùn)行,就意味著,冬奧項(xiàng)目的網(wǎng)絡(luò)安全建設(shè)要與多個(gè)業(yè)務(wù)系統(tǒng)保持同步規(guī)劃、同步建設(shè)、同步運(yùn)營(yíng),這也是項(xiàng)目初期最大的難點(diǎn)?!倍瑠W安全運(yùn)營(yíng)中心現(xiàn)場(chǎng)項(xiàng)目經(jīng)理仝磊提到,幾十個(gè)利益相關(guān)方要保持協(xié)同、進(jìn)度計(jì)劃適配、技術(shù)對(duì)接、系統(tǒng)聯(lián)調(diào),往往安全建設(shè)總是被安排在業(yè)務(wù)系統(tǒng)之后,還要面臨著工期被壓縮等諸多壓力。不僅如此,在與有些業(yè)務(wù)相關(guān)方做技術(shù)對(duì)接的時(shí)候,還會(huì)遇到各種各樣的“非技術(shù)性難題”。
入場(chǎng)后面臨的第一個(gè)問(wèn)題就是定位。冬奧安全運(yùn)營(yíng)中心在設(shè)計(jì)之初包含三級(jí)指揮中心,即一個(gè)總指揮中心+三個(gè)賽區(qū)指揮中心+場(chǎng)館指揮中心,但由于冬奧沒(méi)有了賽區(qū)的概念,相應(yīng)賽區(qū)指揮中心也隨之取消,最終只有位于首鋼園區(qū)的總指揮中心——即冬奧安全運(yùn)營(yíng)中心。
而作為冬奧安全運(yùn)營(yíng)中心的核心安全監(jiān)測(cè)平臺(tái),需要匯集全量數(shù)據(jù),因此該平臺(tái)必須要擁有巨大的數(shù)據(jù)處理能力以及相應(yīng)的關(guān)聯(lián)分析能力,對(duì)所有安全事件集中展示,且總指揮中心所有安全監(jiān)測(cè)、分析人員都能夠通過(guò)一個(gè)平臺(tái)監(jiān)控、分析、處置安全事件。于是在多次評(píng)估和討論之后,奇安信態(tài)勢(shì)感知與安全運(yùn)營(yíng)平臺(tái)(NGSOC),順理成章成為了建設(shè)冬奧安全運(yùn)營(yíng)中心安全監(jiān)測(cè)平臺(tái)的核心。
與此同時(shí),為了提升效率,冬奧安全運(yùn)營(yíng)中心采用了全流程的標(biāo)準(zhǔn)化運(yùn)營(yíng),制定了涉及安全運(yùn)營(yíng)、安全運(yùn)維、應(yīng)急響應(yīng)的SOP(標(biāo)準(zhǔn)作業(yè)程序),以上每個(gè)環(huán)節(jié)的決策和動(dòng)作都對(duì)最終結(jié)果產(chǎn)生了重要影響。
“其實(shí)當(dāng)時(shí)選擇哪個(gè)產(chǎn)品作為核心安全監(jiān)測(cè)平臺(tái)并沒(méi)有那么順利?!崩弦貞浾f(shuō),“但作為總工程師,要對(duì)整體項(xiàng)目進(jìn)行考慮和負(fù)責(zé),總指揮中心人員有限,不可能讓他們分散去監(jiān)測(cè)多個(gè)設(shè)備,在事件處置上也無(wú)法做到及時(shí)和高效?!?作為冬奧安全運(yùn)營(yíng)中心核心安全監(jiān)測(cè)平臺(tái),NGSOC承載著從數(shù)據(jù)的接入、日常監(jiān)控、應(yīng)急管理、溯源分析、事件處置、態(tài)勢(shì)呈現(xiàn)等全流程動(dòng)作的對(duì)接和落地,因此需要最早一批進(jìn)場(chǎng)交付部署。
熬夜、紅牛,持續(xù)兩周的交付部署
在2020年那個(gè)炎熱的夏天,PNC機(jī)房剛剛完成建筑施工,在網(wǎng)絡(luò)條件還未完善的情況下,冬奧項(xiàng)目組幾位工程師就奔赴現(xiàn)場(chǎng),開始了第一次的平臺(tái)遷移、部署工作。當(dāng)入場(chǎng)的時(shí)候著實(shí)被嚇了一跳,交付團(tuán)隊(duì)的同學(xué)帶著防毒面具的在里面忙碌著。
機(jī)房建成初期里面充斥著粉塵和不確定是否有害的怪味氣體,冬奧安全運(yùn)營(yíng)中心項(xiàng)目的交付部署和建筑施工同步進(jìn)行工作,當(dāng)你認(rèn)為耳邊想起的轟隆聲是服務(wù)器聲音的時(shí)候,卻發(fā)現(xiàn)有可能是電鉆和榔頭,還有可能是空調(diào)調(diào)試的轟鳴聲。大家在機(jī)柜之間,豎起服務(wù)器紙箱子,作為電腦辦公桌、作為半蹲半坐的椅子、也作為走廊的“餐桌”。每隔一兩個(gè)小時(shí)就要出去室外換個(gè)氣、同時(shí)在夏日陽(yáng)光下“取暖”。
據(jù)其中一位工程師回憶,持續(xù)高強(qiáng)度的工作,身體稍微有點(diǎn)吃不消,印象最深刻的一次是在機(jī)房升級(jí)到晚上近凌晨1點(diǎn),按照升級(jí)流程一步步地進(jìn)行著,不停地敲擊著鍵盤,突然鼻血留在了鍵盤上。
“因?yàn)轫?xiàng)目工期比較緊,所以大家住在了離冬奧安全運(yùn)營(yíng)中心最近的旅館,早上8點(diǎn)進(jìn)場(chǎng)、凌晨一兩點(diǎn)離開,晚上大家為了提神,3個(gè)人每2天就會(huì)喝掉一箱紅牛,嗓子腫到1天只吃一頓飯,不敢喝太多、不敢吃太多,因?yàn)樯蠋ゲ畈欢?公里之外的地方,來(lái)回跑太耽誤事兒?!绷硪晃还こ處熝a(bǔ)充說(shuō)到。
即便如此,時(shí)間也顯得非常緊張。
NGSOC平臺(tái)的部署工作持續(xù)了大概2周的時(shí)間,工程師們克服了惡劣條件帶來(lái)的困難,解決了很多技術(shù)問(wèn)題,在保障冬奧組委業(yè)務(wù)使用的前提下,平滑穩(wěn)定地實(shí)現(xiàn)了平臺(tái)集群拓荒部署、平臺(tái)遷移、HA(Highly Available,是雙機(jī)集群系統(tǒng)簡(jiǎn)稱,提高可用性集群,是保證業(yè)務(wù)連續(xù)性的有效解決方案,一般有兩個(gè)或兩個(gè)以上的節(jié)點(diǎn),且分為主活動(dòng)節(jié)點(diǎn)及備用節(jié)點(diǎn))上線、HA初期技術(shù)驗(yàn)證等工作,為后續(xù)的安全建設(shè)工作提供了支撐。
高可靠、高安全,主備集群無(wú)縫切換
冬奧項(xiàng)目采用HA(雙機(jī)集群)的方式,這在NGSOC以前的項(xiàng)目中是沒(méi)有遇到過(guò)的,也給研發(fā)人員帶來(lái)了巨大的挑戰(zhàn)?!爸鱾浼旱呐浜峡梢杂行ПU蠘I(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行,通常我們完成主備切換需要30分鐘?!盢GSOC事業(yè)部研發(fā)總監(jiān)說(shuō),然而這個(gè)速度顯然還達(dá)不到冬奧標(biāo)準(zhǔn)。而隨著技術(shù)難關(guān)一個(gè)個(gè)被攻克,直到最后,主備切換不到10分鐘即可完成。
為了達(dá)到冬奧會(huì)零事故的要求,NGSOC研發(fā)團(tuán)隊(duì)從建設(shè)初期就開始研討高可靠、穩(wěn)定性和安全性要求,從架構(gòu)設(shè)計(jì)出發(fā)全面提升產(chǎn)品能力,目標(biāo)是達(dá)到冬奧會(huì)的高質(zhì)量標(biāo)準(zhǔn),打造冬奧標(biāo)準(zhǔn)NGSOC。
首先是高可靠。NGSOC借鑒了傳統(tǒng)安全產(chǎn)品的高可靠思路,通過(guò)主從的方式實(shí)現(xiàn)高可靠,但是很快就面臨困難,海量的數(shù)據(jù)如何能夠做到一致性關(guān)聯(lián)、高并發(fā)的告警處置過(guò)程如何實(shí)現(xiàn)狀態(tài)同步等。研發(fā)中心組建了攻堅(jiān)團(tuán)隊(duì),最終在架構(gòu)層面成功解決。通過(guò)唯一性ID生成算法,在HA主從集群實(shí)現(xiàn)一致性關(guān)聯(lián)。通過(guò)邏輯復(fù)制機(jī)制,實(shí)現(xiàn)告警處置過(guò)程的狀態(tài)同步,并且順利實(shí)現(xiàn)了可控的主從同步切換機(jī)制,在緊急故障情況下可實(shí)現(xiàn)業(yè)務(wù)不中斷。NGSOC平臺(tái)最終在日均35億日志高吞吐和50+人并發(fā)運(yùn)營(yíng)條件下,實(shí)現(xiàn)了數(shù)據(jù)的主從完全同步。
其次是穩(wěn)定性。NGSOC需要對(duì)自身的穩(wěn)定性以及輸入異常做出反應(yīng),避免自身陷入異常。在研發(fā)過(guò)程中實(shí)現(xiàn)了對(duì)核心組件進(jìn)行監(jiān)控,包括服務(wù)監(jiān)控、告警通知和自動(dòng)恢復(fù)機(jī)制。一旦某個(gè)核心業(yè)務(wù)組件出現(xiàn)異常,NGSOC可以自動(dòng)感知,并通過(guò)冬奧會(huì)短信網(wǎng)關(guān)及時(shí)通知7*24H待命的安全運(yùn)維人員及時(shí)介入并處置。同時(shí),在NGSOC能夠自動(dòng)恢復(fù)的情況下,會(huì)同時(shí)嘗試自動(dòng)恢復(fù)。其次是實(shí)現(xiàn)了對(duì)集群EPS負(fù)載進(jìn)行監(jiān)控,當(dāng)集群負(fù)載超出集群告警閾值的時(shí)候,NGSOC自動(dòng)短信通知監(jiān)控人員,通過(guò)冬奧應(yīng)急響應(yīng)SOP,按要求進(jìn)行降負(fù)載處置,避免數(shù)據(jù)積壓等問(wèn)題出現(xiàn)。還設(shè)計(jì)了限流保障機(jī)制,過(guò)載情況下也要確保NGSOC本身穩(wěn)定運(yùn)行。最終NGSOC在冬奧會(huì)和冬殘奧會(huì)期間7*24H小時(shí)持續(xù)穩(wěn)定運(yùn)行,做到了運(yùn)營(yíng)平臺(tái)零事故。
最后是安全性。NGSOC作為冬奧安全運(yùn)營(yíng)中心核心安全監(jiān)測(cè)平臺(tái),保障自身的安全至關(guān)重要。NGSOC冬奧研發(fā)項(xiàng)目組聯(lián)合奇安信集團(tuán)多位架構(gòu)師、攻防專家和研發(fā)人員,重點(diǎn)梳理了以下幾項(xiàng)工作:
第一是進(jìn)行源代碼審計(jì),從根源上找到所有可能被利用的攻擊漏洞,進(jìn)行徹底修復(fù)上線;
第二是參加冬奧會(huì)眾測(cè)專項(xiàng),將冬奧項(xiàng)目1:1環(huán)境搬到線上,接受滲透測(cè)試人員的攻擊測(cè)試,對(duì)所有發(fā)現(xiàn)的攻擊脆弱點(diǎn)進(jìn)行修復(fù)和驗(yàn)證;
第三是冬奧現(xiàn)網(wǎng)暴露面梳理,對(duì)NGSOC的所有訪問(wèn)路徑、賬號(hào)和權(quán)限進(jìn)行統(tǒng)一管理,權(quán)限做到最小化,將授權(quán)的訪問(wèn)路徑梳理出清單并統(tǒng)一管理,其余非授權(quán)的訪問(wèn)路徑全部設(shè)置封鎖阻斷策略。
第四是新增NGSOC自身安全性檢測(cè),安全從來(lái)不是絕對(duì)的,一旦NGSOC被攻擊,如何能夠快速而準(zhǔn)確地產(chǎn)生預(yù)警,以便最短時(shí)間內(nèi)介入處理就非常重要。除了通用的終端安全檢測(cè)、網(wǎng)絡(luò)攻擊檢測(cè)和APT檢測(cè)等攻擊檢測(cè)手段,還引入了NGSOC網(wǎng)絡(luò)白名單機(jī)制,非白名單的入站和出站均告警和阻截,最大限度避免NGSOC被攻擊或攻陷。此外,還給NGSOC平臺(tái)增加了300多條自身安全加固和檢測(cè)規(guī)則,讓NGSOC平臺(tái)在冬奧會(huì)和冬殘奧會(huì)期間實(shí)現(xiàn)零事故。
技術(shù)的困難可以靠人力解決,但項(xiàng)目進(jìn)行過(guò)程中遇到的困難不僅僅只是技術(shù)難題,比如從2020年2月開始開展HA項(xiàng)目研發(fā)開始,由于各方面原因,研發(fā)人員并不是一成不變的,每一次人員的更迭都需要消耗大量時(shí)間去培訓(xùn)和交接。
老尹還提到,除了NGSOC外,冬奧項(xiàng)目在2020年幾乎都在進(jìn)行安全產(chǎn)品能力提升和交付部署階段,直到2021年重心開始轉(zhuǎn)向運(yùn)營(yíng)。冬奧安全運(yùn)營(yíng)中心項(xiàng)目整體做下來(lái)也是了了一個(gè)夙愿,從加入奇安信開始一直在接觸和參與安全運(yùn)營(yíng)相關(guān)的工作,心里也一直有一個(gè)目標(biāo)和期待,就是通過(guò)標(biāo)準(zhǔn)化把常態(tài)化安全運(yùn)營(yíng)真正做起來(lái),事實(shí)也證明了做起來(lái)很有必要。冬奧項(xiàng)目經(jīng)歷了一個(gè)從極繁設(shè)計(jì)-不斷簡(jiǎn)化-不斷優(yōu)化-全部標(biāo)準(zhǔn)化的過(guò)程。考慮到全面性的同時(shí),又要兼顧效率,過(guò)于繁瑣的設(shè)計(jì)會(huì)大大降低效率。
標(biāo)題名稱:揭秘零事故背后的冬奧安全運(yùn)營(yíng)中心-規(guī)劃和建設(shè)篇
文章轉(zhuǎn)載:http://www.dlmjj.cn/article/djiiphj.html


咨詢
建站咨詢
