新聞中心
學(xué)習(xí)大數(shù)據(jù)難易程度如何?
看到這個(gè)問題,忍不住的想說兩句,主要是想說說自己最近學(xué)習(xí)大數(shù)據(jù)的感受!原先一直想學(xué)習(xí)大數(shù)據(jù),但總感覺忙抽不出時(shí)間學(xué)習(xí),從去年開始下定決心,開始學(xué)習(xí)大數(shù)據(jù)。下面說一個(gè)個(gè)人的一些感受!

最初,認(rèn)為從官網(wǎng)下載一些資料學(xué)習(xí)學(xué)習(xí)就可以了。于是下載了hadoop開始進(jìn)行環(huán)境搭建。搭建了單機(jī)、偽分布式和分布式??纯碒adoop主要包含哪些東西。從官網(wǎng)看了些資料,看完之后,感覺還是不怎么理解,感覺這要學(xué)的東西太多了。
感覺學(xué)了一段時(shí)間,效果不佳,開始找資料。從51cto、CSDN等找資料學(xué)習(xí),學(xué)習(xí)之后有了一個(gè)大體的了解?;緦W(xué)完了common、hdfs、mapReduce(mr)、yarn等幾部分,以及這幾部分的關(guān)系。
大數(shù)據(jù)不是一個(gè)框架,大數(shù)據(jù)是一個(gè)生態(tài),需要學(xué)習(xí)的東西,比想象的要多的多。后面就開始找視頻資料進(jìn)行系統(tǒng)的學(xué)習(xí)。逐漸了解到大數(shù)據(jù)需要掌握的基礎(chǔ)知識包括java編程基礎(chǔ)、Linux基礎(chǔ)知識。hadoop的hdfs、mr以及yarn。后面的數(shù)據(jù)倉庫Hive,序列號編解碼Avro、Protobuf。分布式框架zookeeper。大數(shù)據(jù)數(shù)據(jù)庫Hbase。大數(shù)據(jù)日志采集Flume。消息隊(duì)列Kafka。大數(shù)據(jù)實(shí)時(shí)處理Storm。大數(shù)據(jù)實(shí)時(shí)計(jì)算spark及其相關(guān)編程語言scala。一般還要web開發(fā)的ssh或ssm框架等。
最后,想說知識雖然多,但只要堅(jiān)持學(xué)習(xí),總會有所收獲。編程需要多動手,多實(shí)踐,有助于你學(xué)習(xí)知識,加深理解。
本人具有多年的java開發(fā)經(jīng)驗(yàn),熟悉多種框架,熟悉網(wǎng)絡(luò)編程,熟悉java安全編程,熟悉大數(shù)據(jù),熟悉多種安全協(xié)議,熟悉并發(fā)編程,有興趣的同學(xué)可以互相關(guān)注,互相學(xué)習(xí)!??!
大數(shù)據(jù)的學(xué)習(xí)還是挺難的,因?yàn)樯婕暗臇|西比較廣比較多,你要學(xué)習(xí)統(tǒng)計(jì)學(xué)的相關(guān)知識,還有學(xué)習(xí)人工智能方面的。比如一些數(shù)據(jù)庫管理系統(tǒng)MySQL, MongoDB,開源、支持網(wǎng)絡(luò)、基于內(nèi)存、鍵值對存儲數(shù)據(jù)庫Redis,還有python,liunx,hadoop等等。勤能補(bǔ)拙,路漫漫,好好學(xué)習(xí),發(fā)展很好。
大數(shù)據(jù)技術(shù)的體系龐大而且復(fù)雜,涉及的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、并行計(jì)算、可視化等各種技術(shù)范疇和不同的技術(shù)層面。如果真的決定入行大數(shù)據(jù),需要做好長期的攻堅(jiān)準(zhǔn)備。
mysql數(shù)據(jù)表規(guī)模九千萬左右,怎么優(yōu)化查詢?
是一張表九千萬了嗎?
建議:
第一、表讀居多還是寫?讀的話數(shù)據(jù)庫引擎用myisam ,寫的話InnoDB 而不是MyISAM,因?yàn)镸yISAM有太多鎖。
第二、升級到MySQL 5.5 ,確保使用buffering功能。
第三,索引確保使用正確,且都在內(nèi)存中,移除沒有必要的索引。
第四、寫場景多嗎? 設(shè)置innodb_buffer_pool_size足夠大來確保更快的寫操作。
第五、按業(yè)務(wù)id取模,分表。
最后,花錢加機(jī)器內(nèi)存和用ssd磁盤吧。
我不清楚答題的大部分人是否有真正實(shí)踐過,特別是用mysql實(shí)踐過。大部分說是加索引、調(diào)整參數(shù)不是說不正確,有效果,但是不能很好的解決問題。說說個(gè)人想法:
部分答主的方案的確不敢茍同,糾正如下:
1、select count(*) 和 select count(主鍵) 在現(xiàn)階段的mysql 沒有太大區(qū)別,新版mysql這個(gè)對性能影響可以忽略。
2、強(qiáng)烈反對使用存儲過程,后面介紹了使用分表分庫的方案,就更不要用存儲過程了。
3、單表行數(shù)和表數(shù)量,需要找到平衡點(diǎn)。表太多,性能也會下降。
我的回答:
1、單表9000w數(shù)據(jù),mysql存儲不了,想辦法分表分庫。500w數(shù)據(jù)的時(shí)候,你就該有這個(gè)想法了。只加索引解決不了問題,9000w的單表數(shù)據(jù),很難平衡查找和插入性能,索引稍微多了插入性能也很低。
2、不要再說select count了,放棄匯總查詢的想法,根本查不了。
到此,以上就是小編對于mongodb 查詢速度的問題就介紹到這了,希望這2點(diǎn)解答對大家有用。
分享題目:學(xué)習(xí)大數(shù)據(jù)難易程度如何?(mongodb單機(jī)查詢速度怎么提高)
文章出自:http://www.dlmjj.cn/article/dhgjcoi.html


咨詢
建站咨詢
