新聞中心
本文通過國外KDnuggets論壇上Simplilearn的統(tǒng)計結果和國內(nèi)某知名招聘網(wǎng)站的招聘要求信息進行分析,詳細介紹在數(shù)據(jù)科學的工作中,需要掌握哪一些技能以及工具,以及當下數(shù)據(jù)科學工作中,哪些技能和工具是從業(yè)人員的學習首選。

10年積累的網(wǎng)站設計、網(wǎng)站制作經(jīng)驗,可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你,你也不認識我。但先網(wǎng)站設計后付款的網(wǎng)站建設流程,更有慈溪免費網(wǎng)站建設讓你可以放心的選擇與我們合作。
國外KDnuggets網(wǎng)站曾發(fā)起民意測驗調(diào)查,提出了以下問題:
1)您目前擁有哪些與數(shù)據(jù)科學/機器學習相關的技能?
2)您想學習或進修哪些技能?
KDnuggets調(diào)查結果分析
該民意調(diào)查獲得了1500份以上有效的答卷,樣本足夠大,由此做出來的推論是比較有參考意義的。本次調(diào)查僅有兩個問題,我們將通過這兩個問題的結果:現(xiàn)已掌握&計劃學習這兩個指標進行分析。調(diào)查結果顯示,平均每個人具有10種技能,平均每個人希望學習或進修6.5種技能。
下面的圖1顯示了主要發(fā)現(xiàn),X軸顯示已有技能,對應第一個調(diào)查問題的結果,Y軸顯示想要技能,對應第二個調(diào)查問題的結果。每個圓圈的大小與擁有該技能的人數(shù)的比例成正比,而顏色則取決于需求/已有的比率(紅色高-大于1,藍色低-小于1)。
我們注意到此圖中的兩個主要類別。 圖表右側藍色虛線矩形中的第一類中包含了擁有率超過40%的技能,其需要/擁有的比率小于1。我們稱其為核心數(shù)據(jù)科學技能。
其中,最需要增加或改進的技能是機器學習(41%)和Python(37%)。增長最少的技能是Excel-只有7%的人希望增加或提高其Excel技能。
第二個集群,是圖1左側用紅色邊框標記的那些,包括當前不那么受歡迎(%Have <30%),但是使用比例可能卻在增長的技能,需求/已有比超過1。我們稱其新興的數(shù)據(jù)科學技能。
有趣的是,盡管有觀點認為Hadoop在下降,但在這次調(diào)查中,有更多的人希望學習Hadoop,而不是已經(jīng)知道的東西,因此它仍可能越來越流行。
盡管Julia的需求/已有率高達3.4,但我們并未將其包括在熱門/新興技能中,因為僅有2%的總占比,比例太低,沒有有效的數(shù)據(jù)支撐。
其余技能劃分為第三類,包含了XGBoost,軟件工程,Java,MATLAB,SAS,雖然占比在10%至30%間,使用率并不算低,但并沒有增長,需求/已有比率<1。
具體技能的排名情況如下所示,分別以已有率和需求率的高低進行排序展示。
我們可以發(fā)現(xiàn),當前和有抱負的數(shù)據(jù)科學家最想要學習的進修的技能是深度學習,Tensorflow,機器學習和Python。
根據(jù)調(diào)查,我們發(fā)現(xiàn)有一些核心的、穩(wěn)定的數(shù)據(jù)科學技能,它們有些是使用率很高,有些是當前非常重要、熱門的技能。
技術技能:計算機科學
1、教育
數(shù)據(jù)科學家受過高等教育,并且有高達88%的人至少具有碩士學位,46%的人擁有博士學位。盡管有例外,但通常需要非常強的教育背景,以發(fā)展成為數(shù)據(jù)科學家所需的知識深度。要成為數(shù)據(jù)科學家,您可以獲得計算機科學,社會科學,物理科學和統(tǒng)計學的學士學位。最常見的研究領域是數(shù)學和統(tǒng)計學(32%),其次是計算機科學(19%)和工程學(16%)。這些課程中的任何一個學位都將為您提供處理和分析大數(shù)據(jù)所需的技能。 完成學位課程后,并不意味著已經(jīng)成功。事實是,大多數(shù)數(shù)據(jù)科學家都擁有碩士學位或博士學位,并且他們還接受在線培訓以學習特殊技能,例如如何使用Hadoop或大數(shù)據(jù)查詢。因此,可以通過學習數(shù)據(jù)科學,數(shù)學,天體物理學或任何其他相關領域的碩士學位課程。利用在大學學到的技能使您輕松過渡到數(shù)據(jù)科學。 除了課堂學習之外,您還可以通過構建應用程序,創(chuàng)建博客或探索數(shù)據(jù)分析來練習在課堂上學到的知識,以使您學到更多。比如CSDN、Github、Kaggle等。
2、R編程
在過去,通常首選R語音作為對數(shù)據(jù)科學的分析工具。R是有統(tǒng)計學家,專門為數(shù)據(jù)科學需求而設計的。可以使用R解決在數(shù)據(jù)科學中遇到的任何問題。實際上,現(xiàn)在有43%的數(shù)據(jù)科學家正在使用R來解決統(tǒng)計問題。但是,R具有陡峭的學習曲線。
相對現(xiàn)在非常熱門的python而言,R很難學習,尤其是如果您已經(jīng)掌握了編程語言。但是,互聯(lián)網(wǎng)上有大量資源可以幫助學習,對于有抱負的數(shù)據(jù)科學家來說,這是一個巨大的資源。
3、Python編碼
不同于Java,Perl或C / C ++,Python是數(shù)據(jù)科學工作中通常使用到的最常見的編碼語言。對于數(shù)據(jù)科學家而言,Python是一種很棒的編程語言。這就是為什么接受調(diào)查的受訪者中有40%表示,使用Python作為其主要編程語言的原因。
由于它的多功能性,使用者幾乎可以將Python用于數(shù)據(jù)科學過程中涉及的所有步驟。它可以采用各種格式的數(shù)據(jù),并且使用者可以輕松地將SQL表導入代碼中??梢詣?chuàng)建數(shù)據(jù)集,并且可以在Google上找到所需要的任何類型的數(shù)據(jù)集。
4、Hadoop平臺
盡管Hadoop并不是必需的,因為他是大數(shù)據(jù)平臺,但在許多情況下,它是首選。擁有Hive或Pig的經(jīng)驗也是一個強項。熟悉諸如Amazon S3之類的云工具也可能會有所幫助。在對3490個數(shù)據(jù)科學工作者進行的一項研究調(diào)參中,Hadoop以49%的占比被評選為數(shù)據(jù)科學家第二重要技能。 作為數(shù)據(jù)科學家,可能會遇到這樣一種情況,即擁有的數(shù)據(jù)量超出了系統(tǒng)的內(nèi)存,或者需要將數(shù)據(jù)發(fā)送到其他服務器,這就是Hadoop的用武之地。使用者可以使用Hadoop來快速將數(shù)據(jù)傳輸?shù)礁鞣N服務器。同時可以使用Hadoop進行數(shù)據(jù)探索,數(shù)據(jù)過濾,數(shù)據(jù)采樣和匯總等各項工作。
5、數(shù)據(jù)庫/SQL編碼
盡管NoSQL和Hadoop已經(jīng)成為數(shù)據(jù)科學的重要組成部分,但仍需要能夠在SQL中編寫和執(zhí)行復雜的查詢。SQL(結構化查詢語言)是一種編程語言,可以執(zhí)行數(shù)據(jù)庫中添加,刪除和提取數(shù)據(jù)之類的操作。它還可以執(zhí)行分析功能和轉換數(shù)據(jù)庫結構。 作為數(shù)據(jù)科學家,需要精通SQL。這是因為SQL是專門為訪問、通信和處理數(shù)據(jù)而設計的。它具有簡潔的命令,可以節(jié)省時間并減少執(zhí)行困難查詢所需的編程量。
6、Apache Spark
Apache Spark正在成為全球很受歡迎的大數(shù)據(jù)技術。就像Hadoop一樣,它是一個大數(shù)據(jù)計算框架。唯一的區(qū)別是Spark比Hadoop快。這是因為Hadoop讀寫磁盤,這使其速度變慢,但是Spark將其計算緩存在內(nèi)存中。 Spark專為數(shù)據(jù)科學而設計,可幫助更快地運行其復雜算法。處理大量數(shù)據(jù)時,它有助于傳播數(shù)據(jù)處理,從而節(jié)省時間。它還可以幫助數(shù)據(jù)科學家處理復雜的非結構化數(shù)據(jù)集。可以在一臺或多臺計算機上使用它。
Spark使數(shù)據(jù)科學家可以防止數(shù)據(jù)科學中的數(shù)據(jù)丟失。Spark的優(yōu)勢在于其速度和平臺,這使得執(zhí)行數(shù)據(jù)科學項目變得容易。使用Spark,可以進行從數(shù)據(jù)獲取到分布式計算的分析。
7、機器學習與人工智能
大量數(shù)據(jù)科學家并不精通機器學習領域和技術。這包括神經(jīng)網(wǎng)絡,強化學習,對抗學習等。如果您想在其他數(shù)據(jù)科學家中脫穎而出,則需要了解機器學習技術,例如監(jiān)督機器學習,決策樹,邏輯回歸等。這些技能將幫助您解決基于主要組織成果預測的不同數(shù)據(jù)科學問題。 數(shù)據(jù)科學需要在機器學習的不同領域中應用技能。Kaggle在其一項調(diào)查中顯示,一小部分數(shù)據(jù)專業(yè)人員具備高級機器學習技能,例如有監(jiān)督的機器學習,無監(jiān)督的機器學習,時間序列,自然語言處理,離群值檢測,計算機視覺,推薦引擎,生存能力分析,強化學習和對抗學習。
8、數(shù)據(jù)可視化
商業(yè)世界經(jīng)常產(chǎn)生大量數(shù)據(jù)。需要將這些數(shù)據(jù)轉換為易于理解的格式。人們自然比原始數(shù)據(jù)更了解圖表和圖形形式的圖片。 作為數(shù)據(jù)科學家,必須能夠借助數(shù)據(jù)可視化工具(例如ggplot、BI、Matplottlib和Tableau)可視化數(shù)據(jù)。這些工具將幫助您將項目中的復雜結果轉換為易于理解的形式。例如很多人不了解序列相關性或p值等專業(yè)性的較強的詞匯所表達的意思。您需要直觀地向他們展示這些術語在您的結果中代表什么。 數(shù)據(jù)可視化使組織能夠直接使用數(shù)據(jù),可以快速掌握見解,從而幫助他們把握新的商機并保持競爭優(yōu)勢。
9、非結構化數(shù)據(jù)
數(shù)據(jù)科學家能夠處理非結構化數(shù)據(jù)至關重要。非結構化數(shù)據(jù)是不適合數(shù)據(jù)庫表的未定義內(nèi)容。例如包括視頻,博客文章,客戶評論,社交媒體文章,視頻供稿,音頻等。它們是復雜的文本、音頻匯集在一起。 因為這些類型的數(shù)據(jù)沒有被簡化,所以很難對其進行排序。 由于非結構化數(shù)據(jù)的復雜性,大多數(shù)人將其稱為“黑暗分析”。使用非結構化數(shù)據(jù)可幫助您揭示對決策有用的見解。作為數(shù)據(jù)科學家,必須具備理解和操縱非結構化數(shù)據(jù)的能力。
非技術技能
10、求知欲
“我沒有特殊才能。我只是充滿好奇。” --愛因斯坦。 好奇心可以定義為獲取更多知識的愿望。作為數(shù)據(jù)科學家,需要能夠提出有關數(shù)據(jù)的問題,因為數(shù)據(jù)科學家花費大約80%的時間來發(fā)現(xiàn)和準備數(shù)據(jù)。這是因為數(shù)據(jù)科學領域是一個發(fā)展迅速的領域,數(shù)據(jù)科學家必須學習更多以跟上步伐。 數(shù)據(jù)科學家需要通過在線閱讀內(nèi)容并閱讀有關數(shù)據(jù)科學趨勢的相關書籍來定期更新知識。不要被遍布互聯(lián)網(wǎng)的龐大數(shù)據(jù)量所淹沒,數(shù)據(jù)科學家必須要能夠知道如何理解所有數(shù)據(jù)。好奇心是成功成為數(shù)據(jù)科學家所需的技能之一。例如,他可能不會對所收集的數(shù)據(jù)有太多了解,但好奇心使他可以篩選數(shù)據(jù)以找到答案和更多見解。
11、商業(yè)頭腦
要成為數(shù)據(jù)科學家,需要對自身所從事的行業(yè)有扎實的了解,并且知道本公司正在試圖解決哪些業(yè)務問題。在數(shù)據(jù)科學方面,除了確定業(yè)務應該利用其數(shù)據(jù)的新方法之外,還要能夠辨別哪些問題對于業(yè)務而言至關重要。 為此,必須了解解決的問題是如何影響業(yè)務的。
12、溝通技巧
尋找強大數(shù)據(jù)科學家的公司正在尋找可以清楚,流利地將其技術發(fā)現(xiàn)轉化到非技術團隊的人員,例如市場或銷售部門。數(shù)據(jù)科學家除了了解非技術同事的需求以適當?shù)卣頂?shù)據(jù)外,還必須通過用量化的見解武裝他們來使企業(yè)做出決策。 除了說公司所能理解的相同語言外,還需要使用數(shù)據(jù)講故事進行交流。作為數(shù)據(jù)科學家,必須知道如何圍繞數(shù)據(jù)創(chuàng)建故事情節(jié),以使任何人都易于理解。例如,呈現(xiàn)數(shù)據(jù)表,并不像以講故事的方式共享來自那些數(shù)據(jù)的見解那樣有效。講故事將幫助您正確地將您的發(fā)現(xiàn)傳達給您的雇主。交流時,請注意在分析數(shù)據(jù)中嵌入結果和值。大多數(shù)企業(yè)所有者不希望知道您所分析的內(nèi)容,而是對它如何對他們的業(yè)務產(chǎn)生積極影響感興趣。學會專注于通過交流傳遞價值并建立持久的關系。
13、團隊合作
數(shù)據(jù)科學家不能獨自工作。必須得和公司高管一起制定戰(zhàn)略,與產(chǎn)品經(jīng)理和設計師一起創(chuàng)造更好的產(chǎn)品,與市場人員一起開展轉換效果更好的活動,與客戶和服務器軟件開發(fā)商一起創(chuàng)建數(shù)據(jù)管道并改善工作流程。實際上,數(shù)據(jù)科學家將必須與公司中的每個人,甚至包括客戶一起工作。 本質(zhì)上,數(shù)據(jù)科學家將與團隊成員合作開發(fā)數(shù)據(jù)產(chǎn)品,了解解決問題所需的業(yè)務目標和數(shù)據(jù)。并且需要知道解決問題的正確方法,解決問題所需的數(shù)據(jù)以及如何將結果轉換和呈現(xiàn)為所涉及的每個人都易于理解的內(nèi)容。
數(shù)據(jù)分析某知名招聘網(wǎng)站的招聘信息
相對于國外的情況,國內(nèi)的情況又是如何呢?進行數(shù)據(jù)分析相關工作又需要哪些工作技能呢?為此,特意爬取某招聘網(wǎng)站的有關數(shù)據(jù)分析相關職位的相關信息來進行分析,探索國內(nèi)數(shù)據(jù)分析工作的技能要求。
將工具提取出來制作成詞云圖,其中字體越大,顏色越深的工具出現(xiàn)的頻率越高,說明也越多企業(yè)希望能招到掌握此技能的員工。可以很明顯的看出,python是其中需求較高的技能,其次還有SQL、Spark、Hadoop、Excel等。
根據(jù)工具與其出現(xiàn)的詞頻,繪制成條形圖:
- python作為近年來最熱門的編程語言,在數(shù)據(jù)科學領域也有這舉足輕重的地位,在所有招聘數(shù)據(jù)分析工作者的崗位中,有多達1329家企業(yè)明確希望找到能使用python的員工。
- 而作為傳統(tǒng)統(tǒng)計分析編程軟件的R,位列第六,崗位需求僅有不到800,遠不及python的需求量。
- 同為編程語言的Hadoop和Spark分別位列第二、第四,均有1000上下的需求,說明當前大數(shù)據(jù)方向在數(shù)據(jù)科學中的重要性,市場對擁有大數(shù)據(jù)分析技能的人才有著很大的需求。
- 作為非傳統(tǒng)數(shù)據(jù)處理、清洗、分析的編程軟件Java和C語言,同樣在這一領域有這不少的需求量,也在側面說明了編程能力對于數(shù)據(jù)科學領域是一個重要的能力。
- 在數(shù)據(jù)庫方面,Hive、Hbase、MySQL、Oracle出現(xiàn)的頻數(shù)較高,sql作為數(shù)據(jù)庫的編程語句,并不屬于一種獨立的軟件,其實也包括了MySQL、Oracle在內(nèi)的一些數(shù)據(jù)庫,所以MySQL和Oracle實際會有更高的市場人才需求。
- Excel、SAS、SPSS也是數(shù)據(jù)分析工作中較多人使用的工具,目前市場上對掌握此類技能的人才也有這大量的需求。
網(wǎng)頁名稱:從事數(shù)據(jù)科學工作需要掌握哪些技能?
轉載源于:http://www.dlmjj.cn/article/cdcdhcg.html


咨詢
建站咨詢
