Data Science學習資源推薦

Hi大家,好久不見,希望在這個疫情之下你們和你們的家人都過得非常健康,讓我們好好的待在家中,度過這次可怕的疫情,以及趕快打到疫苗。
先推廣一下我的電子報Newletter,主要會分享關於我每兩個禮拜的所有在Data Science或生活學習到或體驗到的相關內容,都非常歡迎您的訂閱!
在學習0資料科學的這三四年的過程中,從學生到現在擔任資料科學家,使用了非常多相關的資料分析學習資源,當然有好的也有沒有到那麼好的,每個學習資源都能使你在資料分析的專業上更進一步,只是CP值會有落差而以。
今天,我會根據資料科學幾乎所有的內容組成,根據不同的領域去提供一些我覺得在學習該領域內容時含有最高CP值的課程和書籍。
資料科學可以概括成一下領域
- 資料分析
- 機器學習
- 程式與視覺化能力
想要當一個Junior的資料科學家,對於資料分析就必須要有一點的認識,包含數據怎麼解讀,我應該用哪種統計方法去閱讀這份資料,我要怎麼做A/B測試,怎麼去定義產品的問題,指標要如何建立等等會在未來工作後深入你腦內的知識點
1. 資料分析
(1) 統計
這是一大堆人的老本行,但其實所需具備的統計能力也不一定要非常高深,但是對常見的機率分配,與統計量都必須要有一定程度的熟悉,知道該用在甚麼場景,是否能將後面相對複雜的統計公式用白話的語言解釋給之前沒有相關的知識的人們聽。
推薦資源 : Practical Statistics for Data Scientists: 50 Essential Concepts博客來(英文版) : https://www.books.com.tw/products/F013774944博客來(中文版) : https://www.books.com.tw/products/CN11586350推薦原因 : 這真的是一本很棒的書,我目前會使用到的統計知識裡面幾乎都有包含或提到,當然,更細的內容,
(2) A/B測試
這部分的內容對學生來說可能會有點玄,因為真的缺乏對產品做資料分析的經驗,但是我認為,透過學習A/B測試的流程和裡面的細節,對於你在學習任何新知和處理事情更甚至做人處事上面都非常有幫助。而對正在做相關資料分析工作的來說,A/B測試能讓你更加思考哪個方案、族群或只是哪個指標對公司現在這個階段會最有幫助。
推薦資源 : 產品數據分析 — 打造網路產品的決策引擎 (大維&辰禧)課程網址 : https://hahow.in/courses/5e689828e612310028027876/main?item=5ed85f4c0a10827b98a41d28這堂課程我真的十分推薦,幾乎講了做產品的資料分析應該學習以及注意的一切內容,在面試前我也都是把這個課程當成聖經在讀,你可以透過不斷咀嚼他們裡面所講過的知識點以及相關例子來不斷強化你在溝通數據和解釋結果的能力,真的非常有幫助。
(3) 資料分析的思維
這個部分有點像是你在面對一個商業問題出來之後你會怎麼想?除了你在這一行業的專業知識外,你要怎麼去拆解問題,有很多的分析方法是你可以在第一次碰到問題就馬上使用的。
推薦資源 : https://www.bilibili.com/video/BV1a7411f7Vi?p=4這個系列影片介紹了很多種可以拆解問題的方法以及資料分析的思維技巧,很適合在不同的階段不斷的複習,每次都匯給我新的收穫。
2. 機器學習
(1) 先瞭解有甚麼領域
在機器學習中,有非常多的應用場景,例如機器學習(Machine Learning),計算機視覺(Computer Vision)或自然語言處理(Natural Language Procressing)等等不同的領域,再繼續鑽研某個特定領域前,你也必須先瞭解哪個領域會是你真正想要做的。
推薦資源 : 網路直接搜尋關鍵字
你可以透過在網路直接搜尋「機器學習」等關鍵字,到很多不同的網站看他們對於不同關鍵字所給的定義以及所補充的資料,這邊我不會特別推薦一個資源,每個人都會用自己的角度去詮釋那個領域的定義、相關知識點或者是未來前景。
(2) 演算法推導
機器學習演算法的推導對於想要在機器學習領域上更進一步的同學們都是必備的一環,在跑模型訓練的時候,如果你知道背後複雜的演算法邏輯是怎麼運作,你會更好的去根據不同的資料集和不同的domain知識進行參數調整,你具備的專業知識也須在模型訓練上只能提升1%,但是放在實際應用層面上,就有可能讓公司多準確預測100萬個使用者,想想還是非常可觀的。
推薦資源:
1. 林軒田 : https://www.youtube.com/watch?v=nQvpFSMPhr0&list=PLXVfgk9fNX2I7tB6oIINGBmW50rrmFTqf2. 李宏毅 : https://www.youtube.com/watch?v=CXgbekl66jc&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49這兩個真的是在用中文學習機器學習演算法推導的最好的兩個學習資源,想要聽進階的還是入門的都非常推薦,我自己認為可以先從李宏毅老師的課先上,再上林軒田老師的,全部上完並且時刻複習,你對你的機器學習相關面試就會無往不利了喔!
(3) 機器學型模型應用
大部分的演算法都熟悉以後,一定會想找幾個專案學習一下怎麼訓練或預測吧,並且看看有甚麼不同的運用,或者是在丟進模型前的資料,會經過什麼樣的處理,這部份真的很重要,從蒐集資料到最後套到模型裡面之前,我個人覺得是最花時間的,因為這裡才是最吃domain的地方,你要怎麼去調整資料的樣態,是不是有些資料會有資訊洩漏的問題,或者某些變數是否合併後會讓模型的變得更好,這些都是要考量的
推薦資源 : Hands-On Machine Learning with Scikit-Learn and TensorFlow(英文版) : https://www.oreilly.com/library/view/hands-on-machine-learning/9781491962282/(中文版) : https://www.books.com.tw/products/CN11571870這本應該就是一本我覺得真的很適合給想熟悉整個資料科學框架的人們,從一開始的例子,以及之後各個演算法在scikit-learn上的應用以及一些資料處理的部分,還有tensorflow的部分可以一起學,真的很推薦!
3. 程式與視覺化能力
這部分就是硬功夫了,我認為這個的擅長程度能夠決定你將你的資料科學想法付諸實現的速度,怎麼能夠用最佳和最省資源的code來完成一個專案以及未來專案的需求,都會取決於你在這方面的投入程度,在這邊領域,我認為投入多少時間並不代表你會有多少收穫,但是會給你一種能夠想到甚麼有趣的分析想法也能馬上用程式來完成專案的能力,也能區別你在相同領域人才之間的差別度。
(1) Python
當下最火的程式語言,學習起來真的沒有你想像中的難,但要到達一定的程度也沒有你想像中的簡單,你必須花時間,以及你真的覺得學習這個程式語言可以解決你目前遇到的問題,而不是為了學而學。
學習資源 :
1. (付費版) : https://www.datacamp.com/
我之前是它們的忠實會員,如果你是一個學生,想要在一年內瘋狂學習把相關的技能都學好,可以直接訂閱一年的會員(這樣省最多),好好的照它們上面根據不同的track來學習2. (免費版) : https://www.codecademy.com/
我認為這可以當作確定你有沒有興趣寫程式的好學習資源,上過幾堂免費課之後,如果你真的感覺很厭惡Python,那可以考慮是不是R會更適合你。(2) SQL
這應該也是我最常接觸的語言,一個主要使用在提取在資料庫裏面資料的一種程式語言,所有我們想要看的資料都是透過SQL來得到的,到最後分析報告的產出,你可能不需要用到任何的Python,但是一定會有SQL
學習資源 :
w3school : https://www.w3schools.com/sql/default.asp
hackerrank : https://www.hackerrank.com/domains/sql
LeetCode : https://leetcode.com/problemset/database/上面三個都不錯,學習流程可以是,透過w3school大概看過語法以及怎麼寫之後,再使用hackerrank和leetcode去解題。
(3) Tableau
視覺化工具相信大家都有聽過Tableau,當然學習視覺化工具也不僅限於Tableau,也有PowerBI, Google Data studio等可以學習。
學習資源:
Tableau官方課程 : https://www.tableau.com/learn/learning-paths/data-scientist觸手可及的大數據分析工具 : Tableau案例集 : https://www.books.com.tw/products/CN11283025以上的這些學習資源,都是我真的使用過也自身認為擁有在該領域最佳CP值的學習資源,對於初學或是進階的人都可以有所成長。
同樣的,如果有任何問題都非常歡迎與我聯絡,我的email是[email protected],謝謝!祝你們身體健康。
