邏輯回歸又稱邏輯回歸分析,是一種廣義的線性回歸分析模型,常用于數據挖掘、疾病自動診斷、經濟預測等領域。
邏輯回歸是始于輸出結果為實際意義的連續值的線性回歸,因此與多重性線性回歸分析有很多的相同之處。
邏輯回歸模型
邏輯回歸是一種極易理解的模型,就相當于y=f(x),表明自變量x與因變量y的關系。最常見的問題如:醫生治病時的望聞問切,之后判斷病人是否生病或生了什么病,其中的望聞問切就是獲取自變量x,即特征數據,判斷是否生病就相當于獲取因變量y,及預測分類。
圖1 線性回歸示例
最簡單的回歸就是線性回歸,借用Andrew NG的講義來說,如圖1.a所示,x為數據點---腫瘤的大小,y為觀測值---是否有惡性腫瘤。通過構建線性回歸模型,如hθ(x)所示,構建線性回歸模型后,既可以根據腫瘤大小,預測是否為惡性腫瘤hθ(x)≥0.5為惡性,hθ(x)<0.5為良性。
同時線性回歸的魯棒性很差,例如在圖1.b的數據集上建立回歸,因最右邊噪點的存在,使回歸模型在訓練集上表現都很差。這主要是由于線性回歸在整個實數域內敏感度一致,而分類范圍,需要在[0,1]。邏輯回歸就是一種減少預測范圍,將預測值限定為[0,1]間的一種回歸模型,其回歸方程與回歸曲線如圖2所示。邏輯曲線在z=0時,十分敏感,在z>>0或z<<0處,都不敏感,將預測值限定為(0,1)。
圖2 邏輯方程與邏輯曲線
邏輯回歸其實僅為在線性回歸的基礎上,套用了一個邏輯函數,但也就由于這個邏輯函數,邏輯回歸成為了機器學習領域一顆耀眼的明星,更是計算廣告學的核心,對于多元邏輯回歸,可用如下公式似和分類,其中公式(4)的變換,將在邏輯回歸模型參數估計時,化簡公式帶來很多益處,y={0,1}為分類結果。
2. 判定邊界
為什么邏輯回歸能夠解決分類問題呢?我們可以用判定邊界來解釋,可以理解為是用對不同類別的數據分割的邊界,邊界的兩旁應該是不同類別的數據。
從二維直角坐標系中,舉幾個例子,大概是如下這三種類型:
從上述三幅圖中,紅綠樣本點為不同類別的樣本,而我們劃出的線,不管是直線、圓或者是曲線,都能比較好地將圖中的兩類樣本分隔開,這就是我們所說的判定邊界,那么邏輯回歸是如何根據樣本點來獲得這些判定邊界的呢?
我們依舊借用Andrew NG教授的課程中部分例子來講述這個問題。
回到sigmoid函數,我們發現,當g(z)≥0.5時, z≥0;對于hθ(x)=g(θTX)≥0.5, 則θTX≥0, 此時意味著預估y=1;反之,當預測y = 0時,θTX<0; 所以我們認為θTX =0是一個決策邊界,當它大于0或小于0時,邏輯回歸模型分別預測不同的分類結果。先看第一個例子hθ(x)=g(θ0+θ1X1+θ2X2),其中θ0 ,θ1 ,θ2分別取-3, 1, 1。則當?3+X1+X2≥0時, y = 1; 則X1+X2=3是一個決策邊界,圖形表示如下,剛好把圖上的兩類點區分開來:
例1只是一個線性的決策邊界,當hθ(x)更復雜的時候,我們可以得到非線性的決策邊界,例如:
這時當x12+x22≥1時,我們判定y=1,這時的決策邊界是一個圓形,如下圖所示:
所以我們發現,理論上說,只要我們的hθ(x)設計足夠合理,準確的說是g(θTx)中θTx足夠復雜,我們能在不同的情形下,擬合出不同的判定邊界,從而把不同的樣本點分隔開來。
直觀地在二維空間理解邏輯回歸,是singmoid函數的特征,使得判定的閾值能夠映射為平面的一條判定邊界,當然隨著特征的復雜化,判定邊界可能是多種多樣的樣貌,但是它能夠較好地把兩類樣本點分隔開,解決分類問題。
-
邏輯
+關注
關注
2文章
833瀏覽量
29486 -
機器學習
+關注
關注
66文章
8425瀏覽量
132770
原文標題:機器學習|一文帶你讀懂什么是邏輯回歸
文章出處:【微信號:dkiot888,微信公眾號:鼎酷IOT部落】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論