新聞中心
隨著互聯(lián)網(wǎng)時代的到來,數(shù)據(jù)量的爆炸式增長使得傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法滿足業(yè)務(wù)需求,因此一種新的數(shù)據(jù)庫技術(shù)——分布式數(shù)據(jù)庫被廣泛應(yīng)用于各個領(lǐng)域。本文將簡要介紹分布式數(shù)據(jù)庫的誕生歷程與發(fā)展?fàn)顩r。

目前創(chuàng)新互聯(lián)建站已為上1000家的企業(yè)提供了網(wǎng)站建設(shè)、域名、雅安服務(wù)器托管、網(wǎng)站托管、服務(wù)器托管、企業(yè)網(wǎng)站設(shè)計、唐山網(wǎng)站維護(hù)等服務(wù),公司將堅持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。
一、分布式數(shù)據(jù)庫的誕生
分布式數(shù)據(jù)庫的起源可以追溯到20世紀(jì)50年代,當(dāng)時業(yè)界已經(jīng)開始討論如何利用計算機(jī)處理大量數(shù)據(jù),進(jìn)而推出了主流的集中式數(shù)據(jù)庫管理系統(tǒng)。之后,隨著企業(yè)規(guī)模擴(kuò)大、數(shù)據(jù)量逐漸增大,一些大型企業(yè)開始嘗試實現(xiàn)分布式存儲,以解決傳統(tǒng)中央集中式存儲系統(tǒng)的瓶頸問題。
1965年,MIT的Ferreira和Rodriguez提出了之一個分布式數(shù)據(jù)庫系統(tǒng)概念,他們提出將數(shù)據(jù)存儲在多個物理位置上,并通過通信手段連接起來,以實現(xiàn)分布式存儲。此后,Oracle, Informix, Sybase, IBM等企業(yè)陸續(xù)在分布式數(shù)據(jù)庫領(lǐng)域開展了研究,并推出了相應(yīng)的產(chǎn)品。其中,Oracle的Oracle Parallel Server可以被視為之一個商業(yè)化的分布式數(shù)據(jù)庫系統(tǒng)。
二、分布式數(shù)據(jù)庫的發(fā)展經(jīng)歷
在分布式數(shù)據(jù)庫的發(fā)展歷程中,一個主要問題是如何保證數(shù)據(jù)的一致性。為此,人們提出許多解決方案。1978年,IBM研究員C.J.Date提出了“兩階段提交協(xié)議”(Two Phase Commit,2PC),并在1981年形成了標(biāo)準(zhǔn),以保證分布式環(huán)境中數(shù)據(jù)的一致性。不過,由于2PC過于復(fù)雜,因此并沒有被廣泛應(yīng)用。
另外,為了提升分布式數(shù)據(jù)庫的性能和可用性,人們開始嘗試新的技術(shù),比如分片技術(shù)、緩存技術(shù)、負(fù)載均衡技術(shù)等等。分片技術(shù)(sharding)是指將一個大型數(shù)據(jù)庫分成多個較小的部分,每個部分存儲在不同的計算節(jié)點上。緩存技術(shù)則是指將訪問頻率高的數(shù)據(jù)存儲在內(nèi)存中,以提升查詢速度。負(fù)載均衡技術(shù)則是指將流量均衡地分配到多個節(jié)點上,以實現(xiàn)高可用性和高性能。
此外,自2023年以來,由于云計算和大數(shù)據(jù)技術(shù)的發(fā)展,分布式數(shù)據(jù)庫的應(yīng)用范圍已經(jīng)不僅限于企業(yè)內(nèi)部使用,而是廣泛應(yīng)用于互聯(lián)網(wǎng)和云計算領(lǐng)域,如Facebook、Twitter、Amazon等互聯(lián)網(wǎng)巨頭均在使用分布式數(shù)據(jù)庫系統(tǒng)。
三、分布式數(shù)據(jù)庫的未來發(fā)展趨勢
近年來,隨著、機(jī)器學(xué)習(xí)、區(qū)塊鏈等新技術(shù)的不斷涌現(xiàn),分布式數(shù)據(jù)庫技術(shù)也在逐步演化,走向更加智能化和自動化的方向。比如,分布式數(shù)據(jù)庫系統(tǒng)可以采用機(jī)器學(xué)習(xí)算法進(jìn)行負(fù)載均衡,通過分析歷史數(shù)據(jù)來決定將流量分配到哪些節(jié)點上。此外,還可以通過區(qū)塊鏈技術(shù)來保證數(shù)據(jù)的安全性,使得分布式數(shù)據(jù)庫可以廣泛應(yīng)用于金融和保險等領(lǐng)域。
總體來說,分布式數(shù)據(jù)庫在解決大規(guī)模數(shù)據(jù)存儲和管理問題方面具有重要意義。分布式數(shù)據(jù)庫在不斷發(fā)展完善的過程中,借助新硬件、新軟件、大數(shù)據(jù)和等新技術(shù)的支持,將會擁有更好的性能、更高的可用性以及更智能的管理方式。
相關(guān)問題拓展閱讀:
- 數(shù)據(jù)處理經(jīng)歷了哪幾個階段?
- 數(shù)據(jù)庫設(shè)計分為哪幾個步驟
數(shù)據(jù)處理經(jīng)歷了哪幾個階段?
數(shù)據(jù)庫的產(chǎn)生
計算機(jī)管理數(shù)據(jù)隨著計算機(jī)的雀豎發(fā)展而不斷發(fā)展,利用計算機(jī)對數(shù)據(jù)進(jìn)行處理經(jīng)歷了4個階段:即人工管理改歲褲階段、文件系統(tǒng)階核簡段、數(shù)據(jù)庫系統(tǒng)階段和分布式數(shù)據(jù)庫系統(tǒng)階段。
1.數(shù)據(jù)采集\x0d\x0a了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌,包括數(shù)據(jù)產(chǎn)生的時間、條件、格式、內(nèi)容、長度、限制條件等。這會幫助數(shù)據(jù)分析師更有針對性的控制數(shù)據(jù)生產(chǎn)和采集過程,避免由于違反數(shù)據(jù)采集規(guī)則導(dǎo)致的枝碧數(shù)據(jù)問題;同時,對數(shù)據(jù)采集邏輯的認(rèn)識增加了數(shù)據(jù)分猛禪舉析師對數(shù)據(jù)的理解程度,尤其是數(shù)據(jù)中的異常變化。\x0d\x0a在數(shù)據(jù)采集階段,數(shù)據(jù)分析師需要更多的了解數(shù)據(jù)生產(chǎn)和采集過程中的異常情況,如此才能更好的追本溯源。另外,這也能很大程度上避免“垃圾數(shù)據(jù)進(jìn)導(dǎo)致垃圾數(shù)據(jù)出”的問題。\x0d\x0a2.數(shù)據(jù)的加工整理\x0d\x0a在明確數(shù)據(jù)分析目標(biāo)基礎(chǔ)上收集到的數(shù)據(jù),往往還需要進(jìn)襲猜行必要的加工整理后才能真正用于分析建模。數(shù)據(jù)的加工整理通常包括數(shù)據(jù)缺失值處理、數(shù)據(jù)的分組、基本描述統(tǒng)計量的計算、基本統(tǒng)計圖形的繪制、數(shù)據(jù)取值的轉(zhuǎn)換、數(shù)據(jù)的正態(tài)化處理等,它能夠幫助人們掌握數(shù)據(jù)的分布特征,是進(jìn)一步深入分析和建模的基礎(chǔ)。\x0d\x0a3.數(shù)據(jù)分析\x0d\x0a數(shù)據(jù)分析相對于數(shù)據(jù)挖掘更多的是偏向業(yè)務(wù)應(yīng)用和解讀,當(dāng)數(shù)據(jù)挖掘算法得出結(jié)論后,如何解釋算法在結(jié)果、可信度、顯著程度等方面對于業(yè)務(wù)的實際意義,如何將挖掘結(jié)果反饋到業(yè)務(wù)操作過程中便于業(yè)務(wù)理解和實施是關(guān)鍵。\x0d\x0a4.數(shù)據(jù)展現(xiàn)\x0d\x0a數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化的部分,數(shù)據(jù)分析師如何把數(shù)據(jù)觀點展示給業(yè)務(wù)的過程。數(shù)據(jù)展現(xiàn)除遵循各公司統(tǒng)一規(guī)范原則外,具體形式還要根據(jù)實際需求和場景而定?;舅刭|(zhì)要求如下:\x0d\x0a工具:PPT、Excel、Word甚至郵件都是不錯的展現(xiàn)工具,任意一個工具用好都很強(qiáng)大。\x0d\x0a形式:圖文并茂的基本原則更易于理解,生動、有趣、互動、講故事都是加分項。\x0d\x0a原則:領(lǐng)導(dǎo)層喜歡讀圖、看趨勢、要結(jié)論,執(zhí)行層歡看數(shù)、讀文字、看過程。\x0d\x0a場景:大型會議PPT最合適,匯報說明Word最實用,數(shù)據(jù)較多時Excel更方便。\x0d\x0a最重要一點,數(shù)據(jù)展現(xiàn)永遠(yuǎn)輔助于數(shù)據(jù)內(nèi)容,有價值的數(shù)據(jù)報告才是關(guān)鍵。
數(shù)據(jù)治理流程是從數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)儲存管理到數(shù)據(jù)應(yīng)用整個流程的無序到有序的過程,也是標(biāo)準(zhǔn)化流程的構(gòu)建過程。
根據(jù)每一個過程的特點,我們可以將數(shù)據(jù)治理流程總結(jié)為四個字,即“理”、“采”、“存”、“用”。
1.理:梳理業(yè)務(wù)流程,規(guī)悶跡劃數(shù)據(jù)資源
對于企業(yè)來說,每天的實時數(shù)據(jù)都會超過TB級別,需要采集用戶的哪些數(shù)據(jù),這么多的數(shù)據(jù)放在哪里,如何放,以什么樣的方式放?
這些問題都是需要事先進(jìn)行規(guī)劃的,需要有一套從無序變?yōu)橛行虻牧鞒?,這個過程需要跨部門的協(xié)作,包括了前端、后端、數(shù)據(jù)工程師、數(shù)據(jù)分析師、項目經(jīng)理等角色的參與。仔爛
2.采:ETL采集、去重、脫敏、轉(zhuǎn)換、關(guān)聯(lián)、去除異常值
前后端將采集到的數(shù)據(jù)給到數(shù)據(jù)部門,數(shù)據(jù)部門通過ETL工念罩漏具將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,目的是將散落和零亂的數(shù)據(jù)集中存儲起來。
3.存:大數(shù)據(jù)高性能存儲及管理
這么多的業(yè)務(wù)數(shù)據(jù)存在哪里?這需要有一高性能的大數(shù)據(jù)存儲系統(tǒng),在這套系統(tǒng)里面將數(shù)據(jù)進(jìn)行分門別類放到其對應(yīng)的庫里面,為后續(xù)的管理及使用提供更大的便利。
4.用:即時查詢、報表監(jiān)控、智能分析、模型預(yù)測
數(shù)據(jù)的最終目的就是輔助業(yè)務(wù)進(jìn)行決策,前面的幾個流程都是為最終的查詢、分析、監(jiān)控做鋪墊。
這個階段就是數(shù)據(jù)分析師的主場,分析師們運用這些標(biāo)準(zhǔn)化的數(shù)據(jù)可以進(jìn)行即時的查詢、指標(biāo)體系和報表體系的建立、業(yè)務(wù)問題的分析,甚至是模型的預(yù)測。
1.數(shù)據(jù)采集
了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌,包括數(shù)據(jù)產(chǎn)生的時間、條件、格式、內(nèi)容、長度、限制條件等。這會幫助
數(shù)據(jù)分析師
更有針對性的控制數(shù)據(jù)生產(chǎn)和采集過程,避免由于違反數(shù)據(jù)采集規(guī)則導(dǎo)致的數(shù)據(jù)問題;同時,對數(shù)據(jù)采集邏輯的認(rèn)識增加了數(shù)據(jù)分析師對數(shù)據(jù)的理解程度,尤其是數(shù)據(jù)中的異常變化。
在數(shù)據(jù)采集階段,數(shù)據(jù)分析師需要更多的了解數(shù)據(jù)生產(chǎn)和采集過程中的異常情況,如此才能更好的追本溯源。另外,這也能很大程度上避免“垃圾數(shù)據(jù)進(jìn)導(dǎo)致垃圾數(shù)據(jù)出”的問題。
2.數(shù)據(jù)的加工整理
在明確數(shù)據(jù)分析目標(biāo)基礎(chǔ)上收集到的數(shù)據(jù),往往還需要進(jìn)行必要的加工整理后才能真正用于分析建模。數(shù)據(jù)的加工整理通常包括數(shù)據(jù)缺失值處理、數(shù)據(jù)的分組、基本描述統(tǒng)計量的計算、基本統(tǒng)計圖形的繪制、數(shù)據(jù)取值的轉(zhuǎn)換、數(shù)據(jù)的正態(tài)化處理等,它能夠幫助人們掌握數(shù)據(jù)的分布特征,是進(jìn)一步深入分析和建模的基礎(chǔ)。
3.數(shù)據(jù)分析
數(shù)據(jù)分析相對于
數(shù)據(jù)挖掘
更多的是偏向業(yè)務(wù)應(yīng)用和解讀碰閉,當(dāng)數(shù)據(jù)挖掘算法得出結(jié)論后,如何解釋算法在結(jié)果、可信度、顯著程度等方面對于業(yè)務(wù)的實際意義,如何將挖掘結(jié)果反饋到業(yè)務(wù)操作過程中便于業(yè)務(wù)理解和實施是關(guān)鍵。
4.數(shù)據(jù)展現(xiàn)
數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化的部分,數(shù)據(jù)分析師如何把數(shù)據(jù)觀點展笑卜裂示給業(yè)務(wù)的過程。數(shù)據(jù)展現(xiàn)除遵循各公司統(tǒng)一規(guī)范原則外,具體形式還要根據(jù)實際需求和場景弊察而定?;舅刭|(zhì)要求如下:
工具:PPT、Excel、Word甚至郵件都是不錯的展現(xiàn)工具,任意一個工具用好都很強(qiáng)大。
形式:圖文并茂的基本原則更易于理解,生動、有趣、互動、講故事都是加分項。
原則:領(lǐng)導(dǎo)層喜歡讀圖、看趨勢、要結(jié)論,執(zhí)行層歡看數(shù)、讀文字、看過程。
場景:大型會議PPT最合適,匯報說明Word最實用,數(shù)據(jù)較多時Excel更方便。
最重要一點,數(shù)據(jù)展現(xiàn)永遠(yuǎn)輔助于數(shù)據(jù)內(nèi)容,有價值的數(shù)據(jù)報告才是關(guān)鍵。
1.人工管理階段。特點:(1)數(shù)據(jù)不保存;(2)應(yīng)用程序管理數(shù)據(jù);(3)數(shù)據(jù)不共享;(4)數(shù)據(jù)不具有獨立性
2.文件系統(tǒng)階段。特點:(1)數(shù)據(jù)可以長期保存;(2)由文件系統(tǒng)管理數(shù)據(jù);(3)數(shù)據(jù)共享性差,冗余度大;(4)數(shù)據(jù)獨立性差
3.數(shù)據(jù)庫系統(tǒng)階段。特點:(1)數(shù)據(jù)結(jié)構(gòu)化;(團(tuán)廳2)數(shù)據(jù)的清或亂共享性高,冗余度低,易擴(kuò)充;(3)數(shù)據(jù)獨立答檔性高;(4)數(shù)據(jù)由DBMS統(tǒng)一管理和控制
數(shù)據(jù)庫設(shè)計分為哪幾個步驟
(1)存儲記錄結(jié)構(gòu)設(shè)計綜合分析數(shù)據(jù)存儲要求和應(yīng)用需求,設(shè)計存儲記錄格式
(2)存儲空間分配存儲空間分配有兩個原則:①存取頻度高的數(shù)據(jù)盡量安排在快速、隨機(jī)設(shè)備上,存取頻度低的數(shù)據(jù)則安排在速度較慢的設(shè)備上
②相互依賴性強(qiáng)的數(shù)據(jù)盡量存儲在同一臺設(shè)備上,且盡量安排在鄰近的存儲空間上
從提高系統(tǒng)性能方面考慮,應(yīng)將設(shè)計好的存儲記錄作為一個整體合理地分配物理存儲區(qū)域
盡可能充分利用物理順序特點,把不同類型的存儲記錄指派到不同的物理群中
(3)訪問方法的設(shè)計一個訪問方法包括存儲結(jié)構(gòu)和檢索機(jī)構(gòu)兩部分
存儲結(jié)構(gòu)限定了訪問存儲記錄時可以使用的訪問路徑;檢索機(jī)構(gòu)定義了每個應(yīng)用實際使用的訪問路徑
(4)物理設(shè)計的性能評價①查詢響應(yīng)時間從查詢開始到有結(jié)果顯示之間所經(jīng)歷的時間稱為查詢響應(yīng)時間
查詢響應(yīng)時間可進(jìn)一步細(xì)分為服務(wù)時間、等待時間和延遲時間
在物理設(shè)計過程中,要對系統(tǒng)的性能進(jìn)行評價
性能評價包括時間、空間、效率、開銷等各個方面
⊙CPU服務(wù)時間和I/O服務(wù)時間的長短取決于應(yīng)用程序設(shè)計
⊙CPU隊列等待時間和I/O隊列等待時間的長短受計算機(jī)系統(tǒng)作業(yè)的影響
⊙設(shè)計者可以有限度地控制分布式數(shù)據(jù)庫系統(tǒng)的通信延遲時間
②存儲空間存儲空間存放程序和數(shù)據(jù)
程序包括運行的應(yīng)用程序、DBMS子程序、OS子程序等
數(shù)據(jù)包括用戶工作區(qū)、DBMS工作區(qū)、OS工作區(qū)、索引緩沖區(qū)、數(shù)據(jù)緩沖區(qū)等
存儲空間分為主存空間和輔存空間
設(shè)計者只能有限度地控制主存空間,例如可指定緩沖區(qū)的分配等
但設(shè)計者能夠有效地控制輔存空間
③開銷與效率設(shè)計中還要考慮以下各種開銷,開銷增大,系統(tǒng)效率將下降
⊙事務(wù)開銷指從事務(wù)開始到事務(wù)結(jié)束所耗用的時間
更新事務(wù)要修改索引、重寫物理塊、進(jìn)行寫校驗等操作,增加了額外的開銷
更新頻度應(yīng)列為設(shè)計的考慮因素
⊙報告生成開銷指從數(shù)據(jù)輸入到有結(jié)果輸出這段時間
報告生成占用CPU及I/O的服務(wù)時間較長
設(shè)計中要進(jìn)行篩選,除去不必要的報告生成
⊙對數(shù)據(jù)庫的重組也是一項大的開銷
設(shè)計中應(yīng)考慮數(shù)據(jù)量和處理頻度這兩個因數(shù),做到避免或盡量減少重組數(shù)據(jù)庫
在物理設(shè)計階段,設(shè)計、評價、修改這個過程可能要反復(fù)多次,最終得到較為完善的物理數(shù)據(jù)庫結(jié)構(gòu)說明書
建立數(shù)據(jù)庫時,DBA依據(jù)物理數(shù)據(jù)庫結(jié)構(gòu)說明書,使用DBMS提供的工具可以進(jìn)行數(shù)據(jù)庫配置
在數(shù)據(jù)庫運行時,DBA監(jiān)察數(shù)據(jù)庫的各項性能,根據(jù)依據(jù)物理數(shù)據(jù)庫結(jié)構(gòu)說明書的準(zhǔn)則,及時進(jìn)行修正和優(yōu)化操作,保證數(shù)據(jù)庫系統(tǒng)能夠搜凱保持高效率地運行
程序編制及調(diào)試在邏輯數(shù)據(jù)庫漏卜結(jié)構(gòu)確定以后,應(yīng)用程序設(shè)計的編制就可以和物理設(shè)計并行地展開程序模塊代碼通常先在模擬的環(huán)境下通過初步調(diào)試,然后再進(jìn)行聯(lián)合調(diào)試
聯(lián)合調(diào)試的工作主要有以下幾點:(1)建立數(shù)據(jù)庫結(jié)構(gòu)根據(jù)邏輯設(shè)計和物理設(shè)計的結(jié)果,用DBMS提供的數(shù)據(jù)語言(DDL)編寫出數(shù)據(jù)庫的源模式,經(jīng)編譯得到目標(biāo)模式,執(zhí)行目標(biāo)模式即可建立實際的數(shù)據(jù)庫結(jié)構(gòu)
(2)調(diào)試運行數(shù)據(jù)庫結(jié)構(gòu)建立后,裝入試驗數(shù)據(jù),使數(shù)據(jù)庫進(jìn)入調(diào)試運行階段
運行應(yīng)用程序,測試(3)裝入實際的初始數(shù)據(jù)在數(shù)據(jù)庫正式投入運行之前,還要做好以下幾項工作:(1)制定數(shù)據(jù)庫重新組織的可行方案
(2)制定故障恢復(fù)規(guī)范(3)制定系統(tǒng)的安全規(guī)范7
運行和維護(hù)數(shù)據(jù)庫正式投入運行后,運行維護(hù)階段的主要工作是:(1)維護(hù)數(shù)據(jù)庫的安全性與完整性
按照制定的安全規(guī)范和故障恢復(fù)規(guī)范,在系統(tǒng)的安全出現(xiàn)問題時,及時調(diào)整授權(quán)和更改密碼
及時發(fā)現(xiàn)返漏穗系統(tǒng)運行時出現(xiàn)的錯誤,迅速修改,確保系統(tǒng)正常運行
把數(shù)據(jù)庫的備份和轉(zhuǎn)儲作為日常的工作,一旦發(fā)生故障,立即使用數(shù)據(jù)庫的最新備份予以恢復(fù)
(2)監(jiān)察系統(tǒng)的性能
運用DBMS提供的性能監(jiān)察與分析工具,不斷地監(jiān)控著系統(tǒng)的運行情況
當(dāng)數(shù)據(jù)庫的存儲空間或響應(yīng)時間等性能下降時,立即進(jìn)行分析研究找出原因,并及時采取措施改進(jìn)
例如,可通修改某些參數(shù)、整理碎片、調(diào)整存儲結(jié)構(gòu)或重新組織數(shù)據(jù)庫等方法,使數(shù)據(jù)庫系統(tǒng)保持高效率地正常運作
(3)擴(kuò)充系統(tǒng)的功能在維持原有系統(tǒng)功能和性能的基礎(chǔ)上,適應(yīng)環(huán)境和需求的變化,采納用戶的合理意見,對原有系統(tǒng)進(jìn)行擴(kuò)充,增加新的功能
關(guān)于分布式數(shù)據(jù)庫的產(chǎn)生過程的介紹到此就結(jié)束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關(guān)注本站。
香港服務(wù)器選創(chuàng)新互聯(lián),2H2G首月10元開通。
創(chuàng)新互聯(lián)(www.cdcxhl.com)互聯(lián)網(wǎng)服務(wù)提供商,擁有超過10年的服務(wù)器租用、服務(wù)器托管、云服務(wù)器、虛擬主機(jī)、網(wǎng)站系統(tǒng)開發(fā)經(jīng)驗。專業(yè)提供云主機(jī)、虛擬主機(jī)、域名注冊、VPS主機(jī)、云服務(wù)器、香港云服務(wù)器、免備案服務(wù)器等。
新聞名稱:分布式數(shù)據(jù)庫的誕生歷程簡析(分布式數(shù)據(jù)庫的產(chǎn)生過程)
分享鏈接:http://www.dlmjj.cn/article/ccsgepg.html


咨詢
建站咨詢
