新聞中心
1.為什么要做大促保障
在討論大促質(zhì)量保障可以做些什么之前,我們先了解一下為什么要做大促質(zhì)量保障?

創(chuàng)新互聯(lián)為您提適合企業(yè)的網(wǎng)站設(shè)計(jì)?讓您的網(wǎng)站在搜索引擎具有高度排名,讓您的網(wǎng)站具備超強(qiáng)的網(wǎng)絡(luò)競(jìng)爭(zhēng)力!結(jié)合企業(yè)自身,進(jìn)行網(wǎng)站設(shè)計(jì)及把握,最后結(jié)合企業(yè)文化和具體宗旨等,才能創(chuàng)作出一份性化解決方案。從網(wǎng)站策劃到成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè), 我們的網(wǎng)頁設(shè)計(jì)師為您提供的解決方案。
一般而言,平臺(tái)大促即意味著流量暴漲和優(yōu)惠力度暴增,特別是每年的618、雙11和雙12等大促更是一場(chǎng)電商圈的狂歡;暴漲的流量對(duì)系統(tǒng)穩(wěn)定性的沖擊,高額優(yōu)惠對(duì)業(yè)務(wù)資損防控的考驗(yàn),都比平常要高出數(shù)倍,出現(xiàn)了問題也會(huì)被放大數(shù)倍;這是一場(chǎng)沒有硝煙的戰(zhàn)爭(zhēng),寧可準(zhǔn)備充足但毫無用武之地,也不能出現(xiàn)問題束手無策。
2.面臨的挑戰(zhàn)
既然大促保障如此重要,那么我們要準(zhǔn)備點(diǎn)什么來確保大促活動(dòng)的穩(wěn)定性,是我們要重點(diǎn)思考的問題。在得出答案之前,我們首先分析下大促活動(dòng)我們主要面臨的挑戰(zhàn)點(diǎn)到底有哪些,再針對(duì)性的一條條去準(zhǔn)備,去解決,便是當(dāng)下我們比較有效的方案。
2.1 系統(tǒng)穩(wěn)定性
在GMV增長(zhǎng)的欣喜之余,暴漲的流量的對(duì)系統(tǒng)的穩(wěn)定性沖擊,是首要面臨的一個(gè)挑戰(zhàn)點(diǎn);
由上圖可看出,在有活動(dòng)的20:00和00:00點(diǎn),都會(huì)有一波瞬時(shí)的流量高峰,0點(diǎn)的高峰相對(duì)于20:00點(diǎn)前的日常流量有至少3倍以上的增長(zhǎng)。那么這里有兩個(gè)不同類型的挑戰(zhàn)點(diǎn):
- 瞬時(shí)突增的流量高峰
- 數(shù)倍于平時(shí)的流量
與此同時(shí),增加的請(qǐng)求量對(duì)服務(wù)器和中間件的考驗(yàn)等都是我們需要面臨的挑戰(zhàn)點(diǎn)。
2.2 業(yè)務(wù)資損
刨除流量暴增對(duì)系統(tǒng)層面的影響之外,另一個(gè)需要我們重點(diǎn)關(guān)注的點(diǎn)就是業(yè)務(wù)資損問題。
流量的增長(zhǎng)對(duì)應(yīng)的就是我們訂單量的增長(zhǎng),此時(shí)如果發(fā)生資損問題,那么對(duì)應(yīng)的資損金額也會(huì)因?yàn)閱瘟吭黾佣环糯?;再加上大促的?jié)點(diǎn)一般優(yōu)惠的力度都會(huì)比平時(shí)要更大一些,就會(huì)更進(jìn)一步放大資損的金額。
3.應(yīng)對(duì)措施
首先從系統(tǒng)層面來說,對(duì)于一些核心的節(jié)點(diǎn)而言,最重要的是保障系統(tǒng)的高可用;在Google SRE中有一個(gè)層級(jí)模型來描述系統(tǒng)可靠性基礎(chǔ)和高層次需求,由下圖可見,金字塔最底層的基座就是監(jiān)控(Monitoring),再往上的層次是應(yīng)急響應(yīng)(Incident Response)和事后總結(jié)以及根因分析(Postmortem&Root Caue Analysis),也就是我們的復(fù)盤。
3.1 全局評(píng)估
- 大促業(yè)務(wù)時(shí)長(zhǎng):關(guān)注大促活動(dòng)的運(yùn)行周期,在活動(dòng)前做好一系列的準(zhǔn)備工作,包括各業(yè)務(wù)鏈路人員值班安排、全鏈路壓測(cè)時(shí)間安排以及緩存預(yù)熱等。
- 業(yè)務(wù)量預(yù)估體量:根據(jù)業(yè)務(wù)給出的預(yù)估業(yè)務(wù)體量來進(jìn)行系統(tǒng)容量規(guī)劃。
- 預(yù)估峰值日期:重點(diǎn)時(shí)間段重點(diǎn)保障。
3.2 監(jiān)控&告警
穩(wěn)定性金字塔的底座是監(jiān)控(Monitoring),這是一個(gè)系統(tǒng)對(duì)于穩(wěn)定性最基礎(chǔ)的要求;缺少監(jiān)控的系統(tǒng),如同蒙上眼睛狂奔的野馬,無從談及可控性,更遑論穩(wěn)定性。所以在針對(duì)于大促類的活動(dòng),前置就需要梳理出可能的系統(tǒng)及業(yè)務(wù)異常點(diǎn),做好監(jiān)控和告警。
在進(jìn)行大促穩(wěn)定性監(jiān)控梳理時(shí),要先脫離現(xiàn)有監(jiān)控,先從核心、資損鏈路開始,按照業(yè)務(wù)、應(yīng)用(中間件、JVM、DB)、系統(tǒng)三個(gè)層次梳理需要哪些監(jiān)控,再從根據(jù)這些索引找到對(duì)應(yīng)的監(jiān)控告警,如果不存在,則相應(yīng)補(bǔ)上;如果存在還要考慮閾值、時(shí)間、告警人是否合理。
另外針對(duì)一些可能的資損場(chǎng)景,我們也可以增加一些資損或數(shù)據(jù)核對(duì),做一個(gè)雙重的保障。
3.3 應(yīng)急響應(yīng)
發(fā)生了問題不可怕,可怕的是短時(shí)間內(nèi)不能恢復(fù)導(dǎo)致業(yè)務(wù)受損程度加大;這里就需要從另一層面來考量,這樣來進(jìn)行應(yīng)急響應(yīng),快速定位并解決問題。這里我們可以從以下幾點(diǎn)入手:
3.3.1 限流&降級(jí)
每一個(gè)系統(tǒng)或者應(yīng)用的承載能力都是有限的,如果有超出保障目標(biāo)之外的流量過來,風(fēng)險(xiǎn)就很高,限流能力是必須要有的。所以在大促類的活動(dòng)中,需要我們?cè)u(píng)估核心接口的承載能力,增加接口限流配置,防止突增的QPS把系統(tǒng)打掛。也需要增加降級(jí)配置,對(duì)鏈路中位置的異常進(jìn)行降級(jí)處理。
3.3.2 預(yù)案
預(yù)案就是對(duì)于突發(fā)情況的應(yīng)對(duì)處理,所謂有備無患,執(zhí)行時(shí)機(jī)和執(zhí)行動(dòng)作一定要清晰明確并記錄在文檔中,發(fā)生緊急情況時(shí),按照預(yù)案執(zhí)行步驟來操作。針對(duì)大促活動(dòng)的功能或系統(tǒng)預(yù)案前期一定要梳理并完善,大促期間封網(wǎng)無法執(zhí)行線上變更發(fā)布操作,預(yù)案是進(jìn)行線上操作的唯一入口。
有了預(yù)案,那么這個(gè)預(yù)案是否能解決相應(yīng)的問題,就需要我們對(duì)預(yù)案的有效性進(jìn)行驗(yàn)證,也就是我們的預(yù)案驗(yàn)證與演練,在我們的測(cè)試環(huán)境一定要完整的走一遍預(yù)案的流程。對(duì)于生產(chǎn)環(huán)境,我們可以視具體情況進(jìn)行相應(yīng)的演練驗(yàn)證。
3.3.3 功能預(yù)演
大促時(shí)所用到的業(yè)務(wù)能力,不一定是我們新增的業(yè)務(wù)功能,還有一部分是歷史沉淀的功能,對(duì)于這些能力則需要我們進(jìn)行一次有效的功能預(yù)演,確保我們的功能能夠穩(wěn)定運(yùn)行。
3.3.4 內(nèi)部灰測(cè)
像是我們每一次的大促活動(dòng),基本的都會(huì)有一些新增的功能提供,對(duì)于這些功能,在正式開放對(duì)外之前,需要我們進(jìn)行一次內(nèi)部小范圍灰測(cè),確保核心能力運(yùn)行正常。
3.3.5 主會(huì)場(chǎng)走查
大促的某些活動(dòng)往往都是由一個(gè)主會(huì)場(chǎng)來承載,在大促節(jié)點(diǎn),不僅僅要關(guān)注我們的核心大促活動(dòng)的單個(gè)能力,也要關(guān)注整個(gè)主會(huì)場(chǎng)的各模塊功能是否正常,體驗(yàn)是否良好等。對(duì)于主會(huì)場(chǎng)我們可以在上線對(duì)外之前由內(nèi)部產(chǎn)研和業(yè)務(wù)一起進(jìn)行一輪人工的走查;不過對(duì)于眾多的分會(huì)場(chǎng),我們沒有那么多的人力,可以借用我們當(dāng)前的自動(dòng)化巡檢能力來完成C端頁面的巡檢。
3.3.6 故障演練
我們還可以進(jìn)行故障演練,以此來提高系統(tǒng)、流程和人員在面對(duì)突發(fā)狀況的應(yīng)對(duì)能力,真正實(shí)現(xiàn)故障快速發(fā)現(xiàn),快速止損,快速恢復(fù),提升系統(tǒng)的整體的穩(wěn)定性。
4.案例分析
我們以營(yíng)銷活動(dòng)中常見的抽獎(jiǎng)功能為例,來看看我們?cè)诖蟠倩顒?dòng)中對(duì)這些穩(wěn)定性保障手段的實(shí)際應(yīng)用情況。這里說的抽發(fā)獎(jiǎng)能力也在我們2022年的周年慶及雙十一的大促活動(dòng)中承受住了考驗(yàn),主要功能是在指定的時(shí)間段內(nèi)定時(shí)去抽取部分參與活動(dòng)的用戶發(fā)放優(yōu)惠券,C端在指定的時(shí)間段內(nèi)連續(xù)公示中獎(jiǎng)用戶。整體的玩法流程如下:
4.1 核心功能
這里的抽發(fā)獎(jiǎng)流程中,結(jié)合我們的業(yè)務(wù)玩法來看,可以分析出比較重要的是連續(xù)的抽獎(jiǎng)能力和后續(xù)的發(fā)獎(jiǎng)能力,保障C端能夠連續(xù)的公示出最近中獎(jiǎng)的用戶。
以20:00-21:00時(shí)間段連續(xù)開獎(jiǎng)為例,實(shí)際上我們服務(wù)端會(huì)在19:55分即開始了第1輪次的抽獎(jiǎng),抽出20個(gè)中獎(jiǎng)的用戶,供C端在20:00開始每隔15s展示1個(gè)中獎(jiǎng)人。實(shí)際上也是為了留出5分鐘的應(yīng)急響應(yīng)時(shí)間。
4.2 穩(wěn)定性保障
4.2.1 全局評(píng)估
首先我們需要在上線前明確下我們活動(dòng)的運(yùn)行周期,比如我們這里的活動(dòng)是10.26-11.1運(yùn)行一周的時(shí)間,其中開獎(jiǎng)的時(shí)間是每天的10:00-20:00,那么在10.26活動(dòng)正式對(duì)外的時(shí)候,需要協(xié)調(diào)安排人員值班,關(guān)注線上會(huì)場(chǎng)運(yùn)行情況,每天的10:00-20:00開獎(jiǎng)時(shí)間段需要對(duì)應(yīng)研發(fā)測(cè)試全天候在線值班。
- 與業(yè)務(wù)方的溝通中了解到,在其中的某幾天會(huì)再購買首頁的中通位投放活動(dòng),那么這首頁透出的時(shí)間段需要研發(fā)同學(xué)關(guān)注系統(tǒng)水位,關(guān)注系統(tǒng)運(yùn)行情況,適時(shí)調(diào)整機(jī)器進(jìn)行縮擴(kuò)容操作。
4.2.2 監(jiān)控告警
- 接著來看看監(jiān)控告警這一塊,上面分析了我們的重點(diǎn)要保障的能力,那么我們業(yè)務(wù)層面的監(jiān)控就可以從重點(diǎn)能力來展開;以此我們可以得出以下幾個(gè)監(jiān)控點(diǎn):
- 開獎(jiǎng)結(jié)果監(jiān)控(成功/失?。?/li>
- 開獎(jiǎng)?lì)愋捅O(jiān)控(正常/兜底)
- 開獎(jiǎng)數(shù)量監(jiān)控(庫存比對(duì))
同時(shí)可以將一些非核心的關(guān)聯(lián)信息打印出來,方便有問題是可以直接獲取信息去排查。
4.2.3 應(yīng)急響應(yīng)
- 預(yù)案:
接下來重點(diǎn)關(guān)注下抽發(fā)獎(jiǎng)能力相關(guān)的預(yù)案,假設(shè)19:55分開獎(jiǎng)異常,那么在這5min的時(shí)間里,我們可以做哪些預(yù)案呢?下面我們按時(shí)間維度來分析一下:
如果滿足抽獎(jiǎng)資格的人數(shù)不足20人或其他原因?qū)е麻_出的中獎(jiǎng)人數(shù)不足20人,未完成當(dāng)前輪次的開獎(jiǎng),則會(huì)基于我們的預(yù)案,在接下來的19:56及19:57分再補(bǔ)開2次,只至開出足夠的數(shù)據(jù)。
這樣可以確保在短時(shí)發(fā)生了系統(tǒng)或業(yè)務(wù)異常時(shí)依然能夠持續(xù)開獎(jiǎng),保障C端用戶不受影響。
以上關(guān)于抽獎(jiǎng)這塊功能的預(yù)案,都屬于系統(tǒng)會(huì)自動(dòng)觸發(fā)的類型,無需人工操作,能有效的避免系統(tǒng)及業(yè)務(wù)異常帶來的負(fù)面影響。
預(yù)案準(zhǔn)備完成,那么我們測(cè)試環(huán)境就需要針對(duì)預(yù)案進(jìn)行驗(yàn)證,確保我們的預(yù)案能夠正常執(zhí)行,并實(shí)現(xiàn)預(yù)期的效果,避免在生產(chǎn)發(fā)生問題時(shí)無法及時(shí)處理。
- 灰測(cè)&走查:
在活動(dòng)上線之后,我們和業(yè)務(wù)方對(duì)活動(dòng)具體配置進(jìn)行溝通,按生產(chǎn)正式投放標(biāo)準(zhǔn)配置一場(chǎng)測(cè)試活動(dòng),用于整體功能在生產(chǎn)環(huán)境的驗(yàn)證,進(jìn)行一輪灰測(cè),確保小流量場(chǎng)景下的功能鏈路能夠正常走通。
灰測(cè)正常結(jié)束后也不代表就已經(jīng)完事大吉,業(yè)務(wù)方對(duì)于正式活動(dòng)的配置,也有可能出現(xiàn)差池,所以在正式活動(dòng)投放出去之前,還需要進(jìn)行一場(chǎng)功能預(yù)演。前期和業(yè)務(wù)方溝通達(dá)成一致,配置的活動(dòng)開始時(shí)間可以從25日下午開始,產(chǎn)研側(cè)可以一起確保配置數(shù)據(jù)正常,同時(shí)可以通過直接訪問H5網(wǎng)頁進(jìn)行業(yè)務(wù)功能驗(yàn)證及整體用戶體驗(yàn)的評(píng)估,確保整體體驗(yàn)無誤后,活動(dòng)會(huì)在26日0點(diǎn)正式投放對(duì)外。
5.總結(jié)
大促相關(guān)活動(dòng)的質(zhì)量保障壓力會(huì)更大一些,需要更多的思考業(yè)務(wù)異常點(diǎn)和對(duì)應(yīng)的解決方案,需要做更多的保障措施來保證業(yè)務(wù)及系統(tǒng)的穩(wěn)定性,需要更大范圍的去探索和實(shí)踐質(zhì)量保障的措施;這不僅僅是質(zhì)量保障團(tuán)隊(duì)需要考慮和落實(shí)的措施,也需要研發(fā)、產(chǎn)品、運(yùn)營(yíng)和業(yè)務(wù)團(tuán)隊(duì)共同參與,相互協(xié)同來保障整個(gè)業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行,帶來更高的價(jià)值產(chǎn)出。
文章題目:營(yíng)銷大促質(zhì)量保障都可以做些啥?
網(wǎng)址分享:http://www.dlmjj.cn/article/cdsieij.html


咨詢
建站咨詢
