日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產(chǎn)品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
這份寶典火了,小哥學后加薪30W+

數(shù)據(jù)科學該怎么學?必備技能有哪些?

我們提供的服務有:成都網(wǎng)站設計、做網(wǎng)站、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、子洲ssl等。為近1000家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務,是有科學管理、有技術的子洲網(wǎng)站制作公司

最近,一份數(shù)據(jù)科學領域的學習寶典在推特上火了,吸引點贊1k+。

之所以能夠引起大家的關注,是因為這份教程將數(shù)據(jù)科學廣而雜的知識內(nèi)容,梳理成了14個方面及各自要點,同時解答了許多學習中的常見疑問。

比如“用什么語言比較好”、“哪些工具最適合”。

這份學習寶典的作者為Matt Dancho,他是一個數(shù)據(jù)科學學習網(wǎng)站的創(chuàng)始人。

那么,具體這份干貨到底講了什么?是否真的如此神奇?

我們一起來看。

更推薦R語言

進入正題之前,我們先來淺聊一下數(shù)據(jù)科學 (Data Science)。

數(shù)據(jù)科學是指通過挖掘數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù),從而得到有用信息的技術和研究,再將這些信息應用到不同領域的各個方面。

該學科結合了諸多領域中的理論和技術,包括應用數(shù)學、統(tǒng)計、模式識別、機器學習、數(shù)據(jù)可視化、數(shù)據(jù)倉庫以及高性能計算等,覆蓋知識面非常廣。

作者表示想要掌握這些技能,大概每周要投入10個小時來學習。

那么在開始真正學習之前,先來看一個最關鍵的問題——

用什么語言?

在這里,作者認為選擇R語言或者Python都可以。

如果從從業(yè)角度出發(fā),他會考慮以下三個因素:

  • 編程語言對數(shù)據(jù)科學的影響有多大?
  • 就業(yè)市場的需求如何?
  • 就業(yè)市場的競爭力如何?

第一方面,作者直接將二者進行了對比。

Python非常適合機器學習和深度學習。但是在市場報告方面的優(yōu)勢不大,能用于統(tǒng)計經(jīng)濟學等重要領域的庫比較少。

R語言在業(yè)務分析、數(shù)據(jù)科學方面都擁有完善的工具支持,在深度學習方面的應用比較弱。

不過作者認為,深度學習在數(shù)據(jù)科學中的應用不多,而且在需要深度學習或者其他API時,R語言可以和Python集合。

再從就業(yè)市場角度來看。

作者統(tǒng)計了美國招聘市場上的數(shù)據(jù)。

結果顯示,Python方面在招職位的數(shù)量,是R語言的2.4倍。

但是了解、掌握Python的人,也比掌握R語言的更多。

可能達到4-32倍。

最終作者認為,選擇R語言更有優(yōu)勢。

那么還有一些其他基礎技能呢?

比如推薦使用Excel嗎?

作者認為,雖然Excel的使用人群更廣、商務人士非常喜愛,但是它在處理機器學習、大數(shù)據(jù)方面都不具有優(yōu)勢,而且單元格中的函數(shù)也容易報錯。

所以,建議大家慎重使用Excel。

而在選用什么開發(fā)工具方面,作者展開了一項小調(diào)查。

針對喜歡使用R語言的人群,RStudio是大家最喜愛的開發(fā)工具。

Python方面,JupyterVSCode更受人們歡迎。

在這里作者沒有給出明確的推薦,大家可以按照喜好選擇。

只需4步,上手數(shù)據(jù)科學

接下來,就到了正式學習的環(huán)節(jié)。

大致可以分為4個步驟:

  1. 掌握基礎技能
  2. 學習建模
  3. 學習時間序列分析
  4. 將模型集成到應用程序

所需要點亮的技能樹如下所示:

看到這里,先不要頭皮發(fā)麻……作者給出了一些具體的學習tips。

第一,從基礎技能學起。

可能很多人一上來就想搞定機器學習,但這可能會影響學習興趣&效率。

作者用R語言進行了示范,列舉了一些基礎技能:

  • 導入數(shù)據(jù):使用數(shù)據(jù)庫,連接到SQL,readr包, readxl包;
  • 轉(zhuǎn)換數(shù)據(jù):處理異常值、缺失數(shù)據(jù)、重塑數(shù)據(jù)、聚合、過濾等;
  • 可視化數(shù)據(jù):靜態(tài)/交互式數(shù)據(jù)可視化,ggplot2以及plotly;
  • 處理文本數(shù)據(jù)、函數(shù)式編程……

如果以上這些基礎技能都掌握后,接下來就可以學習機器學習了。

在這里,可能有人會疑惑,不應該先學習數(shù)學、統(tǒng)計和算法嗎?

對此作者認為,如果從頭開始學習如何編寫算法,可能并不是快速上手數(shù)據(jù)分析。

所以,他更推薦從實戰(zhàn)中學習這些技能。

簡單來看可以分為三步:

  • 把機器學習應用在實際問題上;
  • 嘗試使用不同的算法;
  • 對比不同的應用結果。

在這方面需要用到哪些工具呢?

TidymodelsH2O是作者推薦的兩個軟件包。

另外,Recipes中具有很多預處理工具,可以轉(zhuǎn)換數(shù)據(jù)、創(chuàng)建數(shù)據(jù)特征。

接下來,作者推薦你開始學習時間序列分析

因為這個技能意味著你可以對未來的一些數(shù)據(jù)進行預測,掌握這項技能也會使你成為大廠手中炙手可熱的人才。

在這方面,你需要掌握的技能如下:

  • 時間序列分析:處理日期/日期時間數(shù)據(jù)、聚合、轉(zhuǎn)換、可視化時間序列、使用timetk
  • 預測:ARIMA、指數(shù)平滑、Prophet、機器學習(XGBoost、隨機森林、GLMnet 等)、深度學習(GluonTS)、集成、調(diào)整超參數(shù)、擴展預測、modeltime包。

進行到這一步后,你就可以嘗試去創(chuàng)建一個模型并投入使用了。

在這里,作者推薦了一個能夠?qū)⒛P图傻綉贸绦蛑械墓ぞ摺?strong>Shiny。

這個程序包可以用來創(chuàng)建交互式Web應用程序,代碼可以在本地或服務器上托管。

One More Thing

看完這份技能樹后,也有網(wǎng)友提出了疑問:

為什么沒有看到深度學習?

作者回復表示:針對商業(yè)應用,機器學習會更實用。

作者表示,有位小哥在他們網(wǎng)站選擇了快速進修的課程后,得到了微軟機器學習工程師的offer。

當然,這份完整的學習計劃是可以白嫖的(鏈接請見文末)。

學習清單:

https://www.business-science.io/r-cheatsheet


新聞標題:這份寶典火了,小哥學后加薪30W+
URL鏈接:http://www.dlmjj.cn/article/djdicio.html