日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
大數(shù)據(jù)究竟是什么?大數(shù)據(jù)有哪些技術(shù)呢?(mongodb查詢時(shí)快時(shí)慢怎么解決)

大數(shù)據(jù)究竟是什么?大數(shù)據(jù)有哪些技術(shù)呢?

大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報(bào)告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。 [6] 大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒(méi)有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來(lái)很難收集和使用的數(shù)據(jù)開(kāi)始容易被利用起來(lái)了,通過(guò)各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。

海城網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)建站,海城網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為海城上千余家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站建設(shè)公司要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的海城做網(wǎng)站的公司定做!

想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,著手從三個(gè)層面來(lái)展開(kāi):

第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。

第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程。

第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來(lái)描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。

就以悟空問(wèn)答為例說(shuō)說(shuō)大數(shù)據(jù)的故事。以下說(shuō)的數(shù)字都不是真實(shí)的,都是我的假設(shè)。

比如每天都有1億的用戶在悟空問(wèn)答上回答問(wèn)題或者閱讀問(wèn)答。

假設(shè)平均有1000萬(wàn)的用戶每天回答一個(gè)問(wèn)題。一個(gè)問(wèn)題平均有1000的字, 平均一個(gè)漢字占2個(gè)字節(jié)byte,三張圖片, 平均一帳圖片300KB。那么一天的數(shù)據(jù)量就是:

文字總量:10,000,000 * 1,000 * 2 B = 20 GB

圖片總量: 10,000,000 * 3 * 300KB = 9 TB

為了收集用戶行為,所有的進(jìn)出悟空問(wèn)答頁(yè)面的用戶。點(diǎn)擊,查詢,停留,點(diǎn)贊,轉(zhuǎn)發(fā),收藏都會(huì)產(chǎn)生一條記錄存儲(chǔ)下來(lái)。這個(gè)量級(jí)更大。

所以粗略估計(jì)一天20TB的數(shù)據(jù)量. 一般的PC電腦配置大概1TB,一天就需要20臺(tái)PC的存儲(chǔ)。

如果一個(gè)月的,一年的數(shù)據(jù)可以算一下有多少。傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)在量上就很難做到。

另外這些數(shù)據(jù)都是文檔類型的數(shù)據(jù)。需要各種不同的存儲(chǔ)系統(tǒng)支持,比如NoSQL數(shù)據(jù)庫(kù)。

我有幸做了有五六七八年的大數(shù)據(jù)吧,談?wù)勛约旱目捶?。?jiǎn)單來(lái)說(shuō),就是現(xiàn)在各個(gè)APP,網(wǎng)站產(chǎn)生的數(shù)據(jù)越來(lái)越多,越來(lái)越大,傳統(tǒng)的數(shù)據(jù)庫(kù)比如MySQL Oracle之類的,已經(jīng)處理不過(guò)來(lái)了。所以就產(chǎn)生了大數(shù)據(jù)相關(guān)的技術(shù)來(lái)處理這些龐大的數(shù)據(jù)。

第一,首先要把這些大數(shù)據(jù)都可靠的存儲(chǔ)起來(lái),經(jīng)過(guò)多年的發(fā)展,hdfs已經(jīng)成了一個(gè)數(shù)據(jù)存儲(chǔ)的標(biāo)準(zhǔn)。

第二,既然有了這么多的數(shù)據(jù),我們可以開(kāi)始基于這些數(shù)據(jù)做計(jì)算了,于是從最早的MapReduce到后來(lái)的hive,spark,都是做批處理的。

第三, 由于像hive這些基于MapReduce的引擎處理速度過(guò)慢,于是有了基于內(nèi)存的olap查詢引擎,比如impala,presto。

第四,由于批處理一般都是天級(jí)別或者小時(shí)級(jí)別的,為了更快的處理數(shù)據(jù),于是有了spark streaming或者flink這樣的流處理引擎。

第五,由于沒(méi)有一個(gè)軟件能覆蓋住所有場(chǎng)景。所以針對(duì)不同的領(lǐng)域,有了一些特有的軟件,來(lái)解決特定場(chǎng)景下的問(wèn)題,比如基于時(shí)間序列的聚合分析查詢數(shù)據(jù)庫(kù),inflexdb opentsdb等。采用預(yù)聚合數(shù)據(jù)以提高查詢的druid或者kylin等,

第六,還有其他用于數(shù)據(jù)削峰和消費(fèi)訂閱的消息隊(duì)列,比如kafka和其他各種mq

第七,還有一些其他的組件,比如用于資源管理的yarn,協(xié)調(diào)一致性的zookeeper等。

第八,由于hdfs 處理小文件問(wèn)題不太好,還有為了解決大數(shù)據(jù)update和insert等問(wèn)題,引入了數(shù)據(jù)湖的概念,比如hudi,iceberg等等。

第九,業(yè)務(wù)方面,我們基于大數(shù)據(jù)做一些計(jì)算,給公司的運(yùn)營(yíng)提供數(shù)據(jù)支撐。做一些推薦,給用戶做個(gè)性化推薦。機(jī)器學(xué)習(xí),報(bào)警監(jiān)控等等。

到此,以上就是小編對(duì)于mongodb查詢速度慢的問(wèn)題就介紹到這了,希望這1點(diǎn)解答對(duì)大家有用。


文章標(biāo)題:大數(shù)據(jù)究竟是什么?大數(shù)據(jù)有哪些技術(shù)呢?(mongodb查詢時(shí)快時(shí)慢怎么解決)
轉(zhuǎn)載注明:http://www.dlmjj.cn/article/cocgdid.html