
如果你對數(shù)據(jù)科學(xué)家的職業(yè)感興趣,并且你正處于該領(lǐng)域的研究階段,那么你可能遇到過“統(tǒng)計(jì)學(xué)習(xí)”這個術(shù)語。
有許多專業(yè)的數(shù)據(jù)科學(xué)家也不知道統(tǒng)計(jì)學(xué)習(xí)的定義,以及它與其他類型的學(xué)習(xí)(如機(jī)器學(xué)習(xí))的區(qū)別。盡管如此,如果您準(zhǔn)備在數(shù)據(jù)科學(xué)領(lǐng)域工作,這是一個需要注意的重要主題。
在這篇文章中,我們將討論統(tǒng)計(jì)學(xué)習(xí)的定義,它是如何工作的,它與其他類型的學(xué)習(xí)之間的區(qū)別,以及你可以在課程中了解到什么。讓我們開始吧。
什么是統(tǒng)計(jì)學(xué)習(xí)?
根據(jù)維基百科關(guān)于該主題的文章,統(tǒng)計(jì)學(xué)習(xí)是“一個從統(tǒng)計(jì)和函數(shù)分析領(lǐng)域中提取的機(jī)器學(xué)習(xí)框架”。換句話說,統(tǒng)計(jì)學(xué)習(xí)使用的技術(shù)可以讓數(shù)據(jù)科學(xué)家更好地理解他們所處理的數(shù)據(jù)。當(dāng)數(shù)據(jù)科學(xué)家查看數(shù)據(jù)時,他們考慮兩種類型的數(shù)據(jù):自變量和因變量。
自變量指的是無法控制的數(shù)據(jù),而因變量指的是你有更多控制權(quán)的東西。作為一名數(shù)據(jù)科學(xué)家,你的工作通常是更好地理解數(shù)據(jù),這樣你就可以發(fā)現(xiàn)自變量和因變量是如何一起工作的,以及它們是如何相互作用的。統(tǒng)計(jì)學(xué)習(xí)的作用在于揭示這兩類變量之間特殊關(guān)系的隱藏數(shù)據(jù)。統(tǒng)計(jì)學(xué)習(xí)使用數(shù)學(xué)概念和機(jī)器學(xué)習(xí)來根據(jù)數(shù)據(jù)創(chuàng)建假設(shè)。
統(tǒng)計(jì)學(xué)習(xí)理論是如何起作用的?
為了更好地理解統(tǒng)計(jì)學(xué)習(xí)是如何工作的,在實(shí)踐中觀察它是很重要的。從本質(zhì)上講,統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)是使機(jī)器學(xué)習(xí)更加可靠,以便能夠重現(xiàn)結(jié)果。
如何做到這一點(diǎn)是通過使用統(tǒng)計(jì)定義來概括被認(rèn)為是模糊或抽象的概念。數(shù)據(jù)分析師和科學(xué)家一次測試一件事,以測試他們的假設(shè)并創(chuàng)建新的算法。他們首先花時間觀察一個特定的現(xiàn)象,然后建立一個模型,最后用這個模型做出更精確的預(yù)測。
雖然這個過程似乎需要一段時間,但統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)是將其自動化,以便計(jì)算機(jī)上的程序可以從中學(xué)習(xí)。隨著計(jì)算機(jī)多次這樣做并處理越來越多的數(shù)據(jù),它最終將提高預(yù)測的準(zhǔn)確性,以優(yōu)化解決方案。
統(tǒng)計(jì)學(xué)習(xí)vs機(jī)器學(xué)習(xí)
我們已經(jīng)在這里提到過幾次機(jī)器學(xué)習(xí),雖然統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)的元素是相似的,但這兩個概念之間有一些關(guān)鍵的區(qū)別。
對于初學(xué)者來說,機(jī)器學(xué)習(xí)關(guān)注的是沒有明確編程指令的數(shù)據(jù),而統(tǒng)計(jì)學(xué)習(xí)關(guān)注的是基于規(guī)則的編程,就像我們之前看到的那樣。
一般來說,統(tǒng)計(jì)學(xué)習(xí)是基于更小的數(shù)據(jù)集,而機(jī)器學(xué)習(xí)可以分析大量的觀察結(jié)果。這也意味著統(tǒng)計(jì)學(xué)習(xí)更側(cè)重于數(shù)學(xué),以便得出解決方案,但機(jī)器學(xué)習(xí)則會查看數(shù)據(jù)中的模式來得出結(jié)論。
以下是統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)之間的一些主要區(qū)別:
統(tǒng)計(jì)學(xué)習(xí)關(guān)注假設(shè),而機(jī)器學(xué)習(xí)不太關(guān)注假設(shè),往往會忽略它們。統(tǒng)計(jì)學(xué)習(xí)主要是關(guān)于推理,換句話說,通過推理得出結(jié)論,但機(jī)器學(xué)習(xí)關(guān)注不同的因素,如預(yù)測,以及監(jiān)督和無監(jiān)督學(xué)習(xí)。統(tǒng)計(jì)學(xué)習(xí)基于數(shù)學(xué),它著眼于系數(shù)估計(jì)器,并依賴于對數(shù)據(jù)的扎實(shí)理解,但機(jī)器學(xué)習(xí)著眼于數(shù)據(jù)集中的模式,因此需要更少的人力。
在統(tǒng)計(jì)學(xué)學(xué)習(xí)課程中你能學(xué)到什么?
不管你是否打算在你作為數(shù)據(jù)科學(xué)家的職業(yè)生涯中與統(tǒng)計(jì)學(xué)習(xí)密切合作,在課程中學(xué)習(xí)它仍然是有趣的,甚至是有益的。
在統(tǒng)計(jì)學(xué)學(xué)習(xí)課程中,你可以學(xué)習(xí)不同的分類方法,這將幫助你理解主題。
通常情況下,統(tǒng)計(jì)學(xué)習(xí)課程不是特別關(guān)注數(shù)學(xué),他們會嘗試和研究不使用繁重數(shù)學(xué)公式的方法。您可以期望完成關(guān)于統(tǒng)計(jì)學(xué)習(xí)的不同方法以及如何實(shí)現(xiàn)技術(shù)的教程。
在統(tǒng)計(jì)學(xué)學(xué)習(xí)大綱中,這里有一些你可以期望學(xué)習(xí)的主題:
邏輯回歸線性和多項(xiàng)式回歸模型選擇和正則化非線性模型基于樹的方法支持向量機(jī)超越線性重新采樣方法分類
結(jié)束
如果你對從事數(shù)據(jù)科學(xué)的職業(yè)感興趣,或者你只是想了解更多關(guān)于它的知識,以便將其應(yīng)用到你的工作和研究中,統(tǒng)計(jì)學(xué)習(xí)可能是一個令人興奮的主題。更好地理解統(tǒng)計(jì)學(xué)習(xí)也可以幫助您更好地使用機(jī)器學(xué)習(xí)。
如果你剛剛開始學(xué)習(xí)數(shù)據(jù)科學(xué),或者你正在考慮學(xué)習(xí)哪些專業(yè),那么可以看看美國人民大學(xué)提供的不同學(xué)位課程。所有的學(xué)位都在網(wǎng)上進(jìn)行,這樣你就可以在從事其他項(xiàng)目的同時遠(yuǎn)程學(xué)習(xí)。最棒的是,我們所有的學(xué)位都是免費(fèi)的,所以不需要擔(dān)心預(yù)算。