日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
nosql的起源,簡述nosql

數(shù)據(jù)庫軟件都有那些?

企業(yè)里常用的數(shù)據(jù)庫軟件有Mysql、PostgreSQL、Microsoft SQL Server、Oracle數(shù)據(jù)庫、MongoDB。

創(chuàng)新互聯(lián)建站是一家集網(wǎng)站建設(shè),革吉企業(yè)網(wǎng)站建設(shè),革吉品牌網(wǎng)站建設(shè),網(wǎng)站定制,革吉網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,革吉網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

1、Mysql。

MySQL原本是一個(gè)開放源碼的關(guān)系數(shù)據(jù)庫管理系統(tǒng),原開發(fā)者為瑞典的MySQL AB公司,該公司于2008年被升陽微系統(tǒng)(Sun Microsystems)收購。2009年,甲骨文公司(Oracle)收購升陽微系統(tǒng)公司,MySQL成為Oracle旗下產(chǎn)品。

MySQL由于性能高、成本低、可靠性好,已經(jīng)成為最流行的開源數(shù)據(jù)庫,因此被廣泛地應(yīng)用在Internet上的中小型網(wǎng)站中。隨著MySQL的不斷成熟,它也逐漸用于更多大規(guī)模網(wǎng)站和應(yīng)用。

2、PostgreSQL。

PostgreSQL 可以說是目前功能最強(qiáng)大、特性最豐富和結(jié)構(gòu)最復(fù)雜的開源數(shù)據(jù)庫管理系統(tǒng),其中有些特性甚至連商業(yè)數(shù)據(jù)庫都不具備。這個(gè)起源于加州大學(xué)伯克利分校的數(shù)據(jù)庫,現(xiàn)已成為一項(xiàng)國際開發(fā)項(xiàng)目,并且擁有廣泛的用戶群,尤其是在海外,目前國內(nèi)使用者也越來越多。

PostgreSQL 基本上算是見證了整個(gè)數(shù)據(jù)庫理論和技術(shù)的發(fā)展歷程,由 UCB 計(jì)算機(jī)教授 Michael Stonebraker 于 1986 年創(chuàng)建。在此之前,Stonebraker 教授主導(dǎo)了關(guān)系數(shù)據(jù)庫 Ingres 研究項(xiàng)目,88 年,提出了 Postgres 的第一個(gè)原型設(shè)計(jì)。

MySQL 號稱是使用最廣泛的開源數(shù)據(jù)庫,而 PG 則被稱為功能最強(qiáng)大的開源數(shù)據(jù)庫。

3、Microsoft SQL Server。

SQL Server 是 Microsoft 開發(fā)的一個(gè)關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS),現(xiàn)在是世界上最為常用的數(shù)據(jù)庫。SQL Server?現(xiàn)在是包括內(nèi)置的商務(wù)智能工具,以及一系列的分析和報(bào)告工具,可以創(chuàng)建數(shù)據(jù)庫、備份、復(fù)制、安全性更好以及更多。

SQL Server 是一個(gè)高度可擴(kuò)展的產(chǎn)品,可以從一個(gè)單一的筆記本電腦上運(yùn)行的任何東西或以高倍云服務(wù)器網(wǎng)絡(luò),或在兩者之間任何東西。雖然說是“任何東西”,但是仍然要滿足相關(guān)的軟件和硬件的要求。

4、Oracle數(shù)據(jù)庫。

Oracle數(shù)據(jù)庫系統(tǒng)是美國Oracle(甲骨文)公司提供的以分布式數(shù)據(jù)庫為核心的一組軟件產(chǎn)品,是目前最流行的客戶/服務(wù)器(Client/Server,C/S)或?yàn)g覽器/服務(wù)器(Browser/Server,B/S)體系結(jié)構(gòu)的數(shù)據(jù)庫之一。

Oracle數(shù)據(jù)庫是目前世界上使用最為廣泛的數(shù)據(jù)庫管理系統(tǒng),作為一個(gè)通用的數(shù)據(jù)庫系統(tǒng),它具有完整的數(shù)據(jù)管理功能;作為一個(gè)關(guān)系數(shù)據(jù)庫,它是一個(gè)完備關(guān)系的產(chǎn)品;作為分布式數(shù)據(jù)庫它實(shí)現(xiàn)了分布式處理功能。

5、MongoDB

mongoDB是一個(gè)介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的開源產(chǎn)品,是最接近于關(guān)系型數(shù)據(jù)庫的NoSQL數(shù)據(jù)庫。它在輕量級JSON交換基礎(chǔ)之上進(jìn)行了擴(kuò)展,即稱為BSON的方式來描述其無結(jié)構(gòu)化的數(shù)據(jù)類型。盡管如此它同樣可以存儲較為復(fù)雜的數(shù)據(jù)類型。

參考資料來源:百度百科——Mysql

參考資料來源:百度百科——PostgreSQL

參考資料來源:百度百科——Microsoft SQL Server

參考資料來源:百度百科——Oracle數(shù)據(jù)庫

參考資料來源:百度百科——MongoDB

B樹和二叉排序樹,B樹和B+樹的區(qū)別

一、B樹的起源

B樹,最早是由德國計(jì)算機(jī)科學(xué)家Rudolf Bayer等人于1972年在論文 《Organization and Maintenance of Large Ordered Indexes》提出的,不過我去看了看原文,發(fā)現(xiàn)作者也沒有解釋為什么就叫B-trees了,所以把B樹的B,簡單地解釋為Balanced或者Binary都不是特別嚴(yán)謹(jǐn),也許作者就是取其名字Bayer的首字母命名的也說不定啊……

二、B樹長啥樣

還是直接看圖比較清楚,圖中所示,B樹事實(shí)上是一種平衡的多叉查找樹,也就是說最多可以開m個(gè)叉(m=2),我們稱之為m階b樹,為了體現(xiàn)本博客的良心之處,不同于其他地方都能看到2階B樹,這里特意畫了一棵5階B樹 。

總的來說,m階B樹滿足以下條件:

每個(gè)節(jié)點(diǎn)至多可以擁有m棵子樹

根節(jié)點(diǎn),只有至少有2個(gè)節(jié)點(diǎn)(要么極端情況,就是一棵樹就一個(gè)根節(jié)點(diǎn),單細(xì)胞生物,即是根,也是葉,也是樹)

非根非葉的節(jié)點(diǎn)至少有的Ceil(m/2)個(gè)子樹(Ceil表示向上取整,圖中5階B樹,每個(gè)節(jié)點(diǎn)至少有3個(gè)子樹,也就是至少有3個(gè)叉)

非葉節(jié)點(diǎn)中的信息包括[n,A0,K1,A1,K2,A2,…,Kn,An],,其中n表示該節(jié)點(diǎn)中保存的關(guān)鍵字個(gè)數(shù),K為關(guān)鍵字且KiKi+1,A為指向子樹根節(jié)點(diǎn)的指針

從根到葉子的每一條路徑都有相同的長度,也就是說,葉子節(jié)在相同的層,并且這些節(jié)點(diǎn)不帶信息,實(shí)際上這些節(jié)點(diǎn)就表示找不到指定的值,也就是指向這些節(jié)點(diǎn)的指針為空

B樹的查詢過程和二叉排序樹比較類似,從根節(jié)點(diǎn)依次比較每個(gè)結(jié)點(diǎn),因?yàn)槊總€(gè)節(jié)點(diǎn)中的關(guān)鍵字和左右子樹都是有序的,所以只要比較節(jié)點(diǎn)中的關(guān)鍵字,或者沿著指針就能很快地找到指定的關(guān)鍵字,如果查找失敗,則會(huì)返回葉子節(jié)點(diǎn),即空指針

例如查詢圖中字母表中的K

從根節(jié)點(diǎn)P開始,K的位置在P之前,進(jìn)入左側(cè)指針

左子樹中,依次比較C、F、J、M,發(fā)現(xiàn)K在J和M之間

沿著J和M之間的指針,繼續(xù)訪問子樹,并依次進(jìn)行比較,發(fā)現(xiàn)第一個(gè)關(guān)鍵字K即為指定查找的值

三、Plus版——B+樹

作為B樹的加強(qiáng)版,B+樹與B樹的差異在于:

有n棵子樹的節(jié)點(diǎn)含有n個(gè)關(guān)鍵字(也有認(rèn)為是n-1個(gè)關(guān)鍵字)

所有的葉子節(jié)點(diǎn)包含了全部的關(guān)鍵字,及指向含這些關(guān)鍵字記錄的指針,且葉子節(jié)點(diǎn)本身根據(jù)關(guān)鍵字自小而大順序連接

非葉子節(jié)點(diǎn)可以看成索引部分,節(jié)點(diǎn)中僅含有其子樹(根節(jié)點(diǎn))中的最大(或最?。╆P(guān)鍵字

請點(diǎn)擊輸入圖片描述

B+樹的查找過程,與B樹類似,只不過查找時(shí),如果在非葉子節(jié)點(diǎn)上的關(guān)鍵字等于給定值,并不終止,而是繼續(xù)沿著指針直到葉子節(jié)點(diǎn)位置。因此在B+樹,不管查找成功與否,每次查找都是走了一條從根到葉子節(jié)點(diǎn)的路徑

網(wǎng)絡(luò)安全未來發(fā)展怎么樣?

在信息化的現(xiàn)代,網(wǎng)絡(luò)安全產(chǎn)業(yè)成為保障“新基建”安全的重要基石,我國網(wǎng)絡(luò)安全行業(yè)市場規(guī)模一直呈現(xiàn)高速增長態(tài)勢。未來,隨著5G網(wǎng)絡(luò)、人工智能、大數(shù)據(jù)等新型網(wǎng)絡(luò)技術(shù)在各個(gè)領(lǐng)域的深入開展,其將為網(wǎng)絡(luò)安全企業(yè)的發(fā)展提供新的機(jī)遇。

隨著科技的進(jìn)步和社會(huì)的發(fā)展,網(wǎng)絡(luò)安全的概念和內(nèi)涵不斷演進(jìn)。其發(fā)展歷程可分為起源期、萌芽期、成長期和加速期四個(gè)時(shí)期,分別對應(yīng)通信加密時(shí)代、計(jì)算機(jī)安全時(shí)代、信息安全時(shí)代以及網(wǎng)絡(luò)空間安全時(shí)代。

目前網(wǎng)絡(luò)安全正處于網(wǎng)絡(luò)空間安全時(shí)代的加速期:2014年中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組成立后,網(wǎng)絡(luò)安全法、等保2.0等政策不斷出臺,網(wǎng)絡(luò)安全上升為國家戰(zhàn)略。

與信息安全時(shí)代的區(qū)別在于網(wǎng)絡(luò)邊界逐漸模糊或消失,僅憑傳統(tǒng)的邊界安全已不能做到有效防護(hù),防護(hù)理念和技術(shù)發(fā)生深刻改變,主動(dòng)安全逐漸興起。安全解決方案和安全服務(wù)也越來越被重視。

從我國網(wǎng)絡(luò)安全市場規(guī)模來看,2013年開始,隨著國家在科技專項(xiàng)上的支持加大、用戶需求擴(kuò)大、企業(yè)產(chǎn)品逐步成熟和不斷創(chuàng)新,網(wǎng)絡(luò)安全產(chǎn)業(yè)依然處在快速成長階段,近年來,受下游需求及政府政策的推動(dòng),我國網(wǎng)絡(luò)安全企業(yè)數(shù)量不斷增加,網(wǎng)絡(luò)安全產(chǎn)業(yè)規(guī)模也不斷發(fā)展。

根據(jù)中國網(wǎng)絡(luò)安全產(chǎn)業(yè)聯(lián)盟(CCIA)披露數(shù)據(jù),2015-2019年,市場規(guī)模增速始終保持在17%以上,2019年我國網(wǎng)絡(luò)安全市場規(guī)模達(dá)到478億元,CCIA預(yù)計(jì)2020年我國網(wǎng)絡(luò)安全市場規(guī)模為553億元,同比增長15.69%。

按照產(chǎn)品結(jié)構(gòu)劃分,網(wǎng)絡(luò)安全可以劃分為安全硬件、安全軟件及安全服務(wù)三大類,而每一大類產(chǎn)品包含眾多的細(xì)分市場,如安全硬件包括防火墻、VPN、入侵檢測與防御等,安全軟件包括防病毒軟件、終端安全軟件、郵件安全軟件等,安全服務(wù)包括咨詢、集成、培訓(xùn)、運(yùn)維等。

IDC表示,2020年,安全硬件在中國整體網(wǎng)絡(luò)安全支出中將繼續(xù)占據(jù)絕對主導(dǎo)地位,占比高達(dá)59.1%,安全軟件和安全服務(wù)支出比例分別為18.4%和22.5%。

網(wǎng)絡(luò)安全行業(yè)的發(fā)展一直是威脅、技術(shù)和監(jiān)管等方面相互博弈的結(jié)果,最終達(dá)到一個(gè)均衡。新的威脅、技術(shù)以及新的監(jiān)管要求,都會(huì)帶來市場需求的增長。而對安全企業(yè)來說,需要密切關(guān)注這些力量的變化,推出適合的產(chǎn)品和服務(wù),這樣才能在市場上處于不敗之地。

隨著國家政策對我國網(wǎng)絡(luò)安全行業(yè)的保駕護(hù)航,以及網(wǎng)絡(luò)安全需求日益快速增加,政府、企業(yè)、個(gè)人在網(wǎng)絡(luò)安全保障方面的投入都將不斷增加,產(chǎn)業(yè)發(fā)展的驅(qū)動(dòng)力強(qiáng)勁;多重利好因素促使我國網(wǎng)絡(luò)安全行業(yè)市場規(guī)模保持著較快的增速增長。

結(jié)合IDC、CCIA等的預(yù)測,預(yù)計(jì)到2026年我國網(wǎng)絡(luò)安全行業(yè)市場規(guī)模將持續(xù)增長到1444億元,年復(fù)合增長率約為17.6%。

—— 以上數(shù)據(jù)及分析請參考于前瞻產(chǎn)業(yè)研究院《中國網(wǎng)絡(luò)安全行業(yè)發(fā)展前景預(yù)測與投資戰(zhàn)略規(guī)劃分析報(bào)告》

數(shù)據(jù)挖掘中數(shù)據(jù)存儲的重要性

隨著互聯(lián)網(wǎng)的蓬勃興起,物聯(lián)網(wǎng),云計(jì)算,大數(shù)據(jù),人工智能在大眾視野出現(xiàn)的越來越頻繁了。

?

云計(jì)算相當(dāng)于人的大腦,是物聯(lián)網(wǎng)的神經(jīng)中樞。云計(jì)算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。

大數(shù)據(jù)相當(dāng)于人的大腦從小學(xué)到大學(xué)記憶和存儲的海量知識,這些知識只有通過消化,吸收、再造才能創(chuàng)造出更大的價(jià)值。

人工智能打個(gè)比喻為一個(gè)人吸收了人類大量的知識(數(shù)據(jù)),不斷的深度學(xué)習(xí)、進(jìn)化成為一方高人。人工智能離不開大數(shù)據(jù),更是基于云計(jì)算平臺完成深度學(xué)習(xí)進(jìn)化。

而物聯(lián)網(wǎng)是互聯(lián)網(wǎng)的應(yīng)用拓展,類似以前的“互聯(lián)網(wǎng)+”,也就是結(jié)合互聯(lián)網(wǎng)的業(yè)務(wù)和應(yīng)用,核心是以用戶體驗(yàn)為核心的應(yīng)用創(chuàng)新。

我們主要講一下其中的“大數(shù)據(jù)”。

大數(shù)據(jù)的定義

在 2001 年左右,Gartner 就大數(shù)據(jù)提出了如下定義(目前仍是關(guān)于大數(shù)據(jù)的權(quán)威解釋):大數(shù)據(jù)指高速 (Velocity) 涌現(xiàn)的大量 (Volume) 的多樣化 (Variety) 數(shù)據(jù)。這一定義表明大數(shù)據(jù)具有 3V 特性。

簡而言之,大數(shù)據(jù)指越來越龐大、越來越復(fù)雜的數(shù)據(jù)集,特別是來自全新數(shù)據(jù)源的數(shù)據(jù)集,其規(guī)模之大令傳統(tǒng)數(shù)據(jù)處理軟件束手無策,卻能幫助我們解決以往非常棘手的業(yè)務(wù)難題。

?

大數(shù)據(jù)的價(jià)值和真實(shí)性

在過去幾年里,大數(shù)據(jù)的定義又新增加了兩個(gè) "V":價(jià)值 (Value) 和 真實(shí)性 (Veracity)。

首先,數(shù)據(jù)固然蘊(yùn)含著價(jià)值,但是如果不通過適當(dāng)方法將其價(jià)值挖掘出來,數(shù)據(jù)就毫無用處。其次,只有真實(shí)、可靠的數(shù)據(jù)才有意義。

如今,大數(shù)據(jù)已成為一種資本,全球各個(gè)大型技術(shù)公司無不基于大數(shù)據(jù)工作原理,在各種大數(shù)據(jù)用例中通過持續(xù)分析數(shù)據(jù)提高運(yùn)營效率,促進(jìn)新產(chǎn)品研發(fā),他們所創(chuàng)造的大部分價(jià)值無不來自于他們掌握的數(shù)據(jù)。

目前,眾多前沿技術(shù)突破令數(shù)據(jù)存儲和計(jì)算成本呈指數(shù)級下降。相比過去,企業(yè)能夠以更低的經(jīng)濟(jì)投入更輕松地存儲更多數(shù)據(jù),而憑借經(jīng)濟(jì)、易于訪問的海量大數(shù)據(jù),您可以輕松做出更準(zhǔn)確、更精準(zhǔn)的業(yè)務(wù)決策。

然而,從大數(shù)據(jù)工作原理角度來講,大數(shù)據(jù)價(jià)值挖掘是一個(gè)完整的探索過程而不僅僅是數(shù)據(jù)分析,它需要富有洞察力的分析師、業(yè)務(wù)用戶和管理人員在大數(shù)據(jù)用例中有針對性地提出有效問題、識別數(shù)據(jù)模式、提出合理假設(shè)并準(zhǔn)確開展行為預(yù)測。

大數(shù)據(jù)的歷史

雖然大數(shù)據(jù)這個(gè)概念是最近才提出的,但大型數(shù)據(jù)集的起源卻可追溯至 1960 - 70 年代。當(dāng)時(shí)數(shù)據(jù)世界正處于萌芽階段,全球第一批數(shù)據(jù)中心和首個(gè)關(guān)系數(shù)據(jù)庫便是在那個(gè)時(shí)代出現(xiàn)的。

2005 年左右,人們開始意識到用戶在使用 Facebook、YouTube 以及其他在線服務(wù)時(shí)生成了海量數(shù)據(jù)。同一年,專為存儲和分析大型數(shù)據(jù)集而開發(fā)的開源框架 Hadoop 問世,NoSQL 也在同一時(shí)期開始慢慢普及開來。

Hadoop 及后來 Spark 等開源框架的問世對于大數(shù)據(jù)的發(fā)展具有重要意義,正是它們降低了數(shù)據(jù)存儲成本,讓大數(shù)據(jù)更易于使用。在隨后幾年里,大數(shù)據(jù)數(shù)量進(jìn)一步呈爆炸式增長。時(shí)至今日,全世界的“用戶”— 不僅有人,還有機(jī)器 — 仍在持續(xù)生成海量數(shù)據(jù)。

隨著物聯(lián)網(wǎng) (IoT) 的興起,如今越來越多的設(shè)備接入了互聯(lián)網(wǎng),它們大量收集客戶的使用模式和產(chǎn)品性能數(shù)據(jù),而機(jī)器學(xué)習(xí)的出現(xiàn)也進(jìn)一步加速了數(shù)據(jù)量的增長。

然而,盡管已經(jīng)出現(xiàn)了很長一段時(shí)間,人們對大數(shù)據(jù)的利用才剛剛開始。今天,云計(jì)算進(jìn)一步釋放了大數(shù)據(jù)的潛力,通過提供真正的彈性 / 可擴(kuò)展性,它讓開發(fā)人員能夠輕松啟動(dòng) Ad Hoc 集群來測試數(shù)據(jù)子集。

大數(shù)據(jù)和數(shù)據(jù)分析的優(yōu)勢:

1.大數(shù)據(jù)意味著更多信息,可為您提供更全面的洞察。

2.更全面的洞察意味著更高的可靠性,有助于您開發(fā)全新解決方案。

其次,大數(shù)據(jù)還具有大量、高速、多樣化、密度低四大特性。

大量性:大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最大的差異在于資料量,資料量遠(yuǎn)大于傳統(tǒng)數(shù)據(jù),例如抖音數(shù)據(jù)流、百度點(diǎn)擊流,面對的是海量低密度的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)量通常高達(dá)數(shù)十PB。也因?yàn)橘Y料量大,無法以傳統(tǒng)的方式儲存處理,因此衍生出大數(shù)據(jù)這一新興科學(xué)。

高速性:大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最大的不同點(diǎn),就是生成速度快。由于網(wǎng)際網(wǎng)路興起與資訊設(shè)備普及,以用戶突破20億人的臉書為例,如果每個(gè)用戶每天發(fā)一條消息,就會(huì)有20億筆資料。每一個(gè)人隨時(shí)隨地都可以創(chuàng)造數(shù)據(jù),數(shù)據(jù)生成的速度已非過去可比擬。

多樣性:多樣化是指可用的數(shù)據(jù)類型眾多,隨著大數(shù)據(jù)的興起,文本、音頻和視頻等數(shù)據(jù)類型不斷涌現(xiàn),它們需要經(jīng)過額外的預(yù)處理操作才能真正提供洞察和支持性元數(shù)據(jù)。由于形式多元復(fù)雜,大數(shù)據(jù)儲存也需要不同于傳統(tǒng)數(shù)據(jù)的儲存技術(shù)。

密度低:數(shù)據(jù)價(jià)值密度相對較低,隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。

大數(shù)據(jù)的挑戰(zhàn)

1.安全挑戰(zhàn)

盡管大數(shù)據(jù)由于應(yīng)用范圍廣泛,已成為各領(lǐng)域的發(fā)展趨勢,但數(shù)據(jù)的公布有時(shí)會(huì)伴隨使用者隱私的曝光,比如FaceBook資料外泄、Google+個(gè)人外泄風(fēng)波等因數(shù)據(jù)外泄而引發(fā)隱私問題的事件層出不窮。用戶的哪些數(shù)據(jù)是可以獲取、哪些是不允許讀取,始終存在侵犯用戶隱私的法律風(fēng)險(xiǎn)。

2..技術(shù)創(chuàng)新

大數(shù)據(jù)需要從底層芯片到基礎(chǔ)軟件再到應(yīng)用分析軟件等信息產(chǎn)業(yè)全產(chǎn)業(yè)鏈的支撐,無論是新型計(jì)算平臺、分布式計(jì)算架構(gòu),還是大數(shù)據(jù)處理、分析和呈現(xiàn)方面與國外均存在較大差距,對開源技術(shù)和相關(guān)生態(tài)系統(tǒng)的影響力仍然較弱,總體上難以滿足各行各業(yè)大數(shù)據(jù)應(yīng)用需求。

3.成本過高

運(yùn)營商需要處理的數(shù)據(jù)量巨大,基本都是以PB為單位,處理這些數(shù)據(jù)需要巨大的投入。

4.實(shí)時(shí)性

具有實(shí)時(shí)性的數(shù)據(jù)才有價(jià)值,存儲的數(shù)據(jù)數(shù)據(jù)時(shí)間越長,數(shù)據(jù)的價(jià)值就越低。在如今這個(gè)快節(jié)奏的社會(huì),每一天的市場都瞬息萬變,品牌商通過大數(shù)據(jù)分析用戶的需求,如果得到的用戶數(shù)據(jù)太過陳舊,參考這些數(shù)據(jù)來規(guī)劃產(chǎn)品的方向,可能會(huì)對企業(yè)的發(fā)展造成毀滅性的打擊。

無論哪個(gè)行業(yè),想要在當(dāng)今的形勢下取得成功,都必須能夠不斷地從數(shù)據(jù)中挖掘業(yè)務(wù)價(jià)值,因此數(shù)據(jù)的保護(hù)離不開存儲器,當(dāng)下市面上用于大數(shù)據(jù)的存儲器主要有固態(tài)硬盤,混合硬盤,傳統(tǒng)硬盤。

固態(tài)硬盤(SSD),由控制單元和存儲單元,組成。固態(tài)硬盤的接口規(guī)格、定義、功能和用途與普通硬盤相同,形狀和尺寸也與普通硬盤相同。廣泛應(yīng)用于軍事、車輛、工業(yè)控制、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、網(wǎng)絡(luò)終端、電力、醫(yī)療、航空、導(dǎo)航設(shè)備等領(lǐng)域。

優(yōu)點(diǎn):讀寫速度快;震動(dòng);低功耗。無噪音;工作溫度范圍廣;缺點(diǎn):容量??;壽命有限;價(jià)格高。

混合硬盤是一種由傳統(tǒng)硬盤和閃存模塊組成的大容量存儲設(shè)備。閃存處理存儲器中最常寫入或恢復(fù)的數(shù)據(jù)。許多公司都在提供不同的技術(shù),他們希望這些技術(shù)能在高端系統(tǒng)中流行起來,特別是筆記本電腦和掌上電腦。

與傳統(tǒng)硬盤相比,混合硬盤具有許多優(yōu)勢:更快的數(shù)據(jù)存儲和恢復(fù)應(yīng)用程序,如文字處理器;縮短系統(tǒng)啟動(dòng)時(shí)間;降低功耗;減少熱量產(chǎn)生;延長硬盤壽命;筆記本電腦和筆記本電腦電池壽命;降低噪音水平:

傳統(tǒng)硬盤指的是機(jī)械硬盤(HDD),電腦最基本的內(nèi)存,我們常說電腦硬盤C盤,D盤是磁盤分區(qū),屬于硬盤。目前普通硬盤的容量有80G、128g、160g、256g、320g、500g、750g、1TB、2TB等,按容量可分為3.5英寸、2.5英寸、1.8英寸、5400rpm/7200rpm/10000rpm等。

通過物聯(lián)網(wǎng)產(chǎn)生、收集海量的數(shù)據(jù)存儲于云平臺,再通過大數(shù)據(jù)分析,甚至更高形式的人工智能為人類的生產(chǎn)活動(dòng),生活所需提供更好的服務(wù),這一切所產(chǎn)生的數(shù)據(jù)承載者——存儲器,在第四次工業(yè)革命進(jìn)化的方向中,存儲行業(yè)也將是一顆亮眼的星。

大數(shù)據(jù)時(shí)代發(fā)展歷程是什么?

大數(shù)據(jù)技術(shù)發(fā)展史:大數(shù)據(jù)的前世今生

今天我們常說的大數(shù)據(jù)技術(shù),其實(shí)起源于Google在2004年前后發(fā)表的三篇論文,也就是我們經(jīng)常聽到的“三駕馬車”,分別是分布式文件系統(tǒng)GFS、大數(shù)據(jù)分布式計(jì)算框架MapReduce和NoSQL數(shù)據(jù)庫系統(tǒng)BigTable。

你知道,搜索引擎主要就做兩件事情,一個(gè)是網(wǎng)頁抓取,一個(gè)是索引構(gòu)建,而在這個(gè)過程中,有大量的數(shù)據(jù)需要存儲和計(jì)算。這“三駕馬車”其實(shí)就是用來解決這個(gè)問題的,你從介紹中也能看出來,一個(gè)文件系統(tǒng)、一個(gè)計(jì)算框架、一個(gè)數(shù)據(jù)庫系統(tǒng)。

現(xiàn)在你聽到分布式、大數(shù)據(jù)之類的詞,肯定一點(diǎn)兒也不陌生。但你要知道,在2004年那會(huì)兒,整個(gè)互聯(lián)網(wǎng)還處于懵懂時(shí)代,Google發(fā)布的論文實(shí)在是讓業(yè)界為之一振,大家恍然大悟,原來還可以這么玩。

因?yàn)槟莻€(gè)時(shí)間段,大多數(shù)公司的關(guān)注點(diǎn)其實(shí)還是聚焦在單機(jī)上,在思考如何提升單機(jī)的性能,尋找更貴更好的服務(wù)器。而Google的思路是部署一個(gè)大規(guī)模的服務(wù)器集群,通過分布式的方式將海量數(shù)據(jù)存儲在這個(gè)集群上,然后利用集群上的所有機(jī)器進(jìn)行數(shù)據(jù)計(jì)算。 這樣,Google其實(shí)不需要買很多很貴的服務(wù)器,它只要把這些普通的機(jī)器組織到一起,就非常厲害了。

當(dāng)時(shí)的天才程序員,也是Lucene開源項(xiàng)目的創(chuàng)始人Doug Cutting正在開發(fā)開源搜索引擎Nutch,閱讀了Google的論文后,他非常興奮,緊接著就根據(jù)論文原理初步實(shí)現(xiàn)了類似GFS和MapReduce的功能。

兩年后的2006年,Doug Cutting將這些大數(shù)據(jù)相關(guān)的功能從Nutch中分離了出來,然后啟動(dòng)了一個(gè)獨(dú)立的項(xiàng)目專門開發(fā)維護(hù)大數(shù)據(jù)技術(shù),這就是后來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計(jì)算引擎MapReduce。

當(dāng)我們回顧軟件開發(fā)的歷史,包括我們自己開發(fā)的軟件,你會(huì)發(fā)現(xiàn),有的軟件在開發(fā)出來以后無人問津或者寥寥數(shù)人使用,這樣的軟件其實(shí)在所有開發(fā)出來的軟件中占大多數(shù)。而有的軟件則可能會(huì)開創(chuàng)一個(gè)行業(yè),每年創(chuàng)造數(shù)百億美元的價(jià)值,創(chuàng)造百萬計(jì)的就業(yè)崗位,這些軟件曾經(jīng)是Windows、Linux、Java,而現(xiàn)在這個(gè)名單要加上Hadoop的名字。

如果有時(shí)間,你可以簡單瀏覽下Hadoop的代碼,這個(gè)純用Java編寫的軟件其實(shí)并沒有什么高深的技術(shù)難點(diǎn),使用的也都是一些最基礎(chǔ)的編程技巧,也沒有什么出奇之處,但是它卻給社會(huì)帶來巨大的影響,甚至帶動(dòng)一場深刻的科技革命,推動(dòng)了人工智能的發(fā)展與進(jìn)步。

我覺得,我們在做軟件開發(fā)的時(shí)候,也可以多思考一下,我們所開發(fā)軟件的價(jià)值點(diǎn)在哪里?真正需要使用軟件實(shí)現(xiàn)價(jià)值的地方在哪里?你應(yīng)該關(guān)注業(yè)務(wù)、理解業(yè)務(wù),有價(jià)值導(dǎo)向,用自己的技術(shù)為公司創(chuàng)造真正的價(jià)值,進(jìn)而實(shí)現(xiàn)自己的人生價(jià)值。而不是整天埋頭在需求說明文檔里,做一個(gè)沒有思考的代碼機(jī)器人。

Hadoop發(fā)布之后,Yahoo很快就用了起來。大概又過了一年到了2007年,百度和阿里巴巴也開始使用Hadoop進(jìn)行大數(shù)據(jù)存儲與計(jì)算。

2008年,Hadoop正式成為Apache的頂級項(xiàng)目,后來Doug Cutting本人也成為了Apache基金會(huì)的主席。自此,Hadoop作為軟件開發(fā)領(lǐng)域的一顆明星冉冉升起。

同年,專門運(yùn)營Hadoop的商業(yè)公司Cloudera成立,Hadoop得到進(jìn)一步的商業(yè)支持。

這個(gè)時(shí)候,Yahoo的一些人覺得用MapReduce進(jìn)行大數(shù)據(jù)編程太麻煩了,于是便開發(fā)了Pig。Pig是一種腳本語言,使用類SQL的語法,開發(fā)者可以用Pig腳本描述要對大數(shù)據(jù)集上進(jìn)行的操作,Pig經(jīng)過編譯后會(huì)生成MapReduce程序,然后在Hadoop上運(yùn)行。

編寫Pig腳本雖然比直接MapReduce編程容易,但是依然需要學(xué)習(xí)新的腳本語法。于是Facebook又發(fā)布了Hive。Hive支持使用SQL語法來進(jìn)行大數(shù)據(jù)計(jì)算,比如說你可以寫個(gè)Select語句進(jìn)行數(shù)據(jù)查詢,然后Hive會(huì)把SQL語句轉(zhuǎn)化成MapReduce的計(jì)算程序。

這樣,熟悉數(shù)據(jù)庫的數(shù)據(jù)分析師和工程師便可以無門檻地使用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理了。Hive出現(xiàn)后極大程度地降低了Hadoop的使用難度,迅速得到開發(fā)者和企業(yè)的追捧。據(jù)說,2011年的時(shí)候,F(xiàn)acebook大數(shù)據(jù)平臺上運(yùn)行的作業(yè)90%都來源于Hive。

隨后,眾多Hadoop周邊產(chǎn)品開始出現(xiàn),大數(shù)據(jù)生態(tài)體系逐漸形成,其中包括:專門將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入導(dǎo)出到Hadoop平臺的Sqoop;針對大規(guī)模日志進(jìn)行分布式收集、聚合和傳輸?shù)腇lume;MapReduce工作流調(diào)度引擎Oozie等。

在Hadoop早期,MapReduce既是一個(gè)執(zhí)行引擎,又是一個(gè)資源調(diào)度框架,服務(wù)器集群的資源調(diào)度管理由MapReduce自己完成。但是這樣不利于資源復(fù)用,也使得MapReduce非常臃腫。于是一個(gè)新項(xiàng)目啟動(dòng)了,將MapReduce執(zhí)行引擎和資源調(diào)度分離開來,這就是Yarn。2012年,Yarn成為一個(gè)獨(dú)立的項(xiàng)目開始運(yùn)營,隨后被各類大數(shù)據(jù)產(chǎn)品支持,成為大數(shù)據(jù)平臺上最主流的資源調(diào)度系統(tǒng)。

同樣是在2012年,UC伯克利AMP實(shí)驗(yàn)室(Algorithms、Machine和People的縮寫)開發(fā)的Spark開始嶄露頭角。當(dāng)時(shí)AMP實(shí)驗(yàn)室的馬鐵博士發(fā)現(xiàn)使用MapReduce進(jìn)行機(jī)器學(xué)習(xí)計(jì)算的時(shí)候性能非常差,因?yàn)闄C(jī)器學(xué)習(xí)算法通常需要進(jìn)行很多次的迭代計(jì)算,而MapReduce每執(zhí)行一次Map和Reduce計(jì)算都需要重新啟動(dòng)一次作業(yè),帶來大量的無謂消耗。還有一點(diǎn)就是MapReduce主要使用磁盤作為存儲介質(zhì),而2012年的時(shí)候,內(nèi)存已經(jīng)突破容量和成本限制,成為數(shù)據(jù)運(yùn)行過程中主要的存儲介質(zhì)。Spark一經(jīng)推出,立即受到業(yè)界的追捧,并逐步替代MapReduce在企業(yè)應(yīng)用中的地位。

一般說來,像MapReduce、Spark這類計(jì)算框架處理的業(yè)務(wù)場景都被稱作批處理計(jì)算,因?yàn)樗鼈兺ǔa槍σ浴疤臁睘閱挝划a(chǎn)生的數(shù)據(jù)進(jìn)行一次計(jì)算,然后得到需要的結(jié)果,這中間計(jì)算需要花費(fèi)的時(shí)間大概是幾十分鐘甚至更長的時(shí)間。因?yàn)橛?jì)算的數(shù)據(jù)是非在線得到的實(shí)時(shí)數(shù)據(jù),而是歷史數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)離線計(jì)算。

而在大數(shù)據(jù)領(lǐng)域,還有另外一類應(yīng)用場景,它們需要對實(shí)時(shí)產(chǎn)生的大量數(shù)據(jù)進(jìn)行即時(shí)計(jì)算,比如對于遍布城市的監(jiān)控?cái)z像頭進(jìn)行人臉識別和嫌犯追蹤。這類計(jì)算稱為大數(shù)據(jù)流計(jì)算,相應(yīng)地,有Storm、Flink、Spark Streaming等流計(jì)算框架來滿足此類大數(shù)據(jù)應(yīng)用的場景。 流式計(jì)算要處理的數(shù)據(jù)是實(shí)時(shí)在線產(chǎn)生的數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)實(shí)時(shí)計(jì)算。

在典型的大數(shù)據(jù)的業(yè)務(wù)場景下,數(shù)據(jù)業(yè)務(wù)最通用的做法是,采用批處理的技術(shù)處理歷史全量數(shù)據(jù),采用流式計(jì)算處理實(shí)時(shí)新增數(shù)據(jù)。而像Flink這樣的計(jì)算引擎,可以同時(shí)支持流式計(jì)算和批處理計(jì)算。

除了大數(shù)據(jù)批處理和流處理,NoSQL系統(tǒng)處理的主要也是大規(guī)模海量數(shù)據(jù)的存儲與訪問,所以也被歸為大數(shù)據(jù)技術(shù)。 NoSQL曾經(jīng)在2011年左右非?;鸨楷F(xiàn)出HBase、Cassandra等許多優(yōu)秀的產(chǎn)品,其中HBase是從Hadoop中分離出來的、基于HDFS的NoSQL系統(tǒng)。

我們回顧軟件發(fā)展的歷史會(huì)發(fā)現(xiàn),差不多類似功能的軟件,它們出現(xiàn)的時(shí)間都非常接近,比如Linux和Windows都是在90年代初出現(xiàn),Java開發(fā)中的各類MVC框架也基本都是同期出現(xiàn),Android和iOS也是前腳后腳問世。2011年前后,各種NoSQL數(shù)據(jù)庫也是層出不群,我也是在那個(gè)時(shí)候參與開發(fā)了阿里巴巴自己的NoSQL系統(tǒng)。

事物發(fā)展有自己的潮流和規(guī)律,當(dāng)你身處潮流之中的時(shí)候,要緊緊抓住潮流的機(jī)會(huì),想辦法脫穎而出,即使沒有成功,也會(huì)更加洞悉時(shí)代的脈搏,收獲珍貴的知識和經(jīng)驗(yàn)。而如果潮流已經(jīng)退去,這個(gè)時(shí)候再去往這個(gè)方向上努力,只會(huì)收獲迷茫與壓抑,對時(shí)代、對自己都沒有什么幫助。

但是時(shí)代的浪潮猶如海灘上的浪花,總是一浪接著一浪,只要你站在海邊,身處這個(gè)行業(yè)之中,下一個(gè)浪潮很快又會(huì)到來。你需要敏感而又深刻地去觀察,略去那些浮躁的泡沫,抓住真正潮流的機(jī)會(huì),奮力一搏,不管成敗,都不會(huì)遺憾。

正所謂在歷史前進(jìn)的邏輯中前進(jìn),在時(shí)代發(fā)展的潮流中發(fā)展。通俗的說,就是要在風(fēng)口中飛翔。

上面我講的這些基本上都可以歸類為大數(shù)據(jù)引擎或者大數(shù)據(jù)框架。而大數(shù)據(jù)處理的主要應(yīng)用場景包括數(shù)據(jù)分析、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。數(shù)據(jù)分析主要使用Hive、Spark SQL等SQL引擎完成;數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)則有專門的機(jī)器學(xué)習(xí)框架TensorFlow、Mahout以及MLlib等,內(nèi)置了主要的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。

此外,大數(shù)據(jù)要存入分布式文件系統(tǒng)(HDFS),要有序調(diào)度MapReduce和Spark作業(yè)執(zhí)行,并能把執(zhí)行結(jié)果寫入到各個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù)庫中,還需要有一個(gè)大數(shù)據(jù)平臺整合所有這些大數(shù)據(jù)組件和企業(yè)應(yīng)用系統(tǒng)。

圖中的所有這些框架、平臺以及相關(guān)的算法共同構(gòu)成了大數(shù)據(jù)的技術(shù)體系,我將會(huì)在專欄后面逐個(gè)分析,幫你能夠?qū)Υ髷?shù)據(jù)技術(shù)原理和應(yīng)用算法構(gòu)建起完整的知識體系,進(jìn)可以專職從事大數(shù)據(jù)開發(fā),退可以在自己的應(yīng)用開發(fā)中更好地和大數(shù)據(jù)集成,掌控自己的項(xiàng)目。

希望對您有所幫助!~


當(dāng)前名稱:nosql的起源,簡述nosql
網(wǎng)站URL:http://www.dlmjj.cn/article/hdjdoe.html