新聞中心
采用Logistic回歸分析時需注意的問題有哪些,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
十年的固鎮(zhèn)網(wǎng)站建設(shè)經(jīng)驗,針對設(shè)計、前端、開發(fā)、售后、文案、推廣等六對一服務(wù),響應(yīng)快,48小時及時工作處理。全網(wǎng)整合營銷推廣的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動調(diào)整固鎮(zhèn)建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計,從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)建站從事“固鎮(zhèn)網(wǎng)站設(shè)計”,“固鎮(zhèn)網(wǎng)站推廣”以來,每個客戶項目都認(rèn)真落實執(zhí)行。
Logistic 回歸常用于分析二分類因變量(如存活和死亡、患病和未患病等)與多個自變量的關(guān)系 。比較常用的情形是分析危險因素與是否發(fā)生某疾病相關(guān)聯(lián)。例如,若探討胃癌的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群有不同的臨床表現(xiàn)和生活方式等,因變量就為有或無胃癌,即“是”或“否”,為二分類變量,自變量包括年齡、性別、飲食習(xí)慣、是否幽門螺桿菌感染等。自變量既可以是連續(xù)變量,也可以為分類變量。通過 Logistic 回歸分析,就可以大致了解胃癌的危險因素。
Logistic 回歸與多元線性回歸有很多相同之處,但最大的區(qū)別就在于他們的因變量不同。多元線性回歸的因變量為連續(xù)變量;Logistic 回歸的因變量為二分類變量或多分類變量,但二分類變量更常用,也更加容易解釋 [1]。盡管 Logistic 回歸在醫(yī)學(xué)研究領(lǐng)域中應(yīng)用廣泛,但在應(yīng)用中存在很多問題。本文將結(jié)合筆者自身的經(jīng)驗,對使用 Logistic 回歸常見的問題進(jìn)行討論。
一般而言,Logistic 回歸有兩大用途,首先是尋找危險因素,如上文的例子,找出與胃癌相關(guān)的危險因素;其次是用于預(yù)測,我們可以根據(jù)建立的Logistic 回歸模型,預(yù)測在不同的自變量情況下,發(fā)生某病或某種情況的概率(包括風(fēng)險評分的建立)。
所謂相對危險度(risk ratio,RR)是用來描述某一因素不同狀態(tài)發(fā)生疾?。ɑ蚱渌Y(jié)局)危險程度的比值。Logistic 回歸給出的 OR(odds ratio)值與相對危險度類似,常用來表示相對于某一人群,另一人群發(fā)生終點(diǎn)事件的風(fēng)險超出或減少的程度。如不同性別的胃癌發(fā)生危險不同,通過 Logistic 回歸可以求出危險度的具體數(shù)值,例如 1.7,這樣就表示,男性發(fā)生胃癌的風(fēng)險是女性的 1.7 倍。
這里要注意估計的方向問題,以女性作為參照,男性患胃癌的 OR 是1.7。如果以男性作為參照,算出的 OR 將會是 0.588(1/1.7),表示女性發(fā)生胃癌的風(fēng)險是男性的 0.588 倍,或者說,是男性的 58.8%。撇開了參照組,相對危險度就沒有意義了。
Logistic 回歸在醫(yī)學(xué)研究中廣泛使用的原因之一,就是模型直接給出具有臨床實際意義的 OR 值,很大程度上方便了結(jié)果的解讀與推廣。
通?;貧w模型都需要建立在大樣本的基礎(chǔ)上。在進(jìn)行 Logistic 回歸前,應(yīng)該考慮當(dāng)前的樣本量是否充足?根據(jù)模擬研究,在使用 Logistic 回歸時,事件(死亡或患?。﹤€數(shù)至少應(yīng)該是自變量個數(shù)的 10 倍以上(這一條也適于 Logostic 其他的應(yīng)用情況)。例如,觀察胃癌的危險因素,比如有性別、年齡和飲食習(xí)慣等 9 個研究因素,那就至少需要 90 例胃癌。
另一個比較常見的樣本量原則是,觀測的數(shù)量應(yīng)該至少是自變量數(shù)的 20~30 倍,同樣如果有 9 個自變量,那么總體樣本最好能夠達(dá)到 180 例以上。建議在進(jìn)行Logistic 回歸前,結(jié)合上述兩個原則,從總樣本和事件數(shù)兩個角度共同對模型樣本量進(jìn)行考慮。
Logistic 回歸的自變量既可以是連續(xù)變量,也可為分類變量??傮w原則是盡量從實際或?qū)I(yè)角度考慮采取何種形式更好。比如年齡,可以取為連續(xù)變量,也可以 5 歲、10 歲作為一組,甚至分為老年人和年輕人兩組。
不同的劃分方式?jīng)Q定了結(jié)果解讀時的差異,比如,在做出胃癌與年齡的關(guān)系,如果把年齡作為連續(xù)變量分析,得到危險度為 1.008,其解釋為年齡每增加 1 歲,患胃癌的風(fēng)險就會多出 0.008 倍,這個數(shù)據(jù)會顯得沒有太大的臨床意義。但如果以 10歲一組,可能得到的危險度就是 1.6,即年齡每增長10 歲、患胃癌的風(fēng)險就增加 60%,這樣幅度的相對風(fēng)險更具有臨床實際意義。如何將連續(xù)變量進(jìn)行劃分并沒有固定的標(biāo)準(zhǔn),按照統(tǒng)計學(xué)的分位數(shù)或具有臨床意義的界值劃分都是常用的方法。建議在分析時先進(jìn)行趨勢的描述,觀察特定的自變量和因變量是何種關(guān)系,再結(jié)合臨床專業(yè)角度與統(tǒng)計學(xué)考慮,以獲得最合理的劃分方式。
在進(jìn)行 Logistic 回歸分析時,是否必須先進(jìn)行單因素分析,然后才能進(jìn)行多因素分析?
理論上講,如果樣本足夠大,且所有的因素之間沒有關(guān)聯(lián),最好把所有的因素都放到方程中,通過全模型法對所有可能的混雜因素同時進(jìn)行分析,在此基礎(chǔ)上進(jìn)一步通過逐步回歸的方法對有顯著意義的變量進(jìn)行篩選,此種情況下可以不做單因素分析。
如果樣本例數(shù)有限,比如,僅有 80 例患者,但是有 20 個因素,這種情況下,最好先進(jìn)行單因素分析,剔除既無統(tǒng)計學(xué)意義,又無臨床意義的變量,只分析有意義的變量。單因素分析時最好將 P 值放寬,比如 0.1 或 0.15等,避免漏掉一些重要因素(變量間的相互作用可能導(dǎo)致多因素的結(jié)果不同于單因素分析)。當(dāng)然,也要注意仔細(xì)檢查各因素間的關(guān)聯(lián)程度,對于高度相關(guān)的自變量一般不同時帶入模型,例如:收縮壓和舒張壓。一旦發(fā)現(xiàn)因素之間有較強(qiáng)的相關(guān)性,建議首先進(jìn)行篩選,選擇最具代表性的變量帶入模型。
看完上述內(nèi)容,你們掌握采用Logistic回歸分析時需注意的問題有哪些的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
分享文章:采用Logistic回歸分析時需注意的問題有哪些
瀏覽地址:http://www.dlmjj.cn/article/gpehjd.html