分段式迴歸模型估計-分割點的深入探討
114年08月11日
【本篇報導由數學系 張少同教授研究團隊提供】 這篇論文討論改變點偵測在非線性迴歸模型中的兩個重要問題,一個是迴歸線含有不連續或稱為跳躍的點,二是相鄰迴歸線接合的點未知。而分段式迴歸是改變點迴歸模型中最多應用的一塊,目前已有重要文獻及R函數(Package)開發作為研究者分析分段式迴歸的工具,此工具的優點是操作容易、收歛快速、估計準確並容許多個改變點的模型,可是它侷限於改變點所分割的兩個迴歸線必須是連續的問題。可惜的是在實務的改變點問題,不連續的情況是很常見的。本文提出一個分段式迴歸模型使能同時包容連續和不連續的多個改變點,研究團隊提出的估計方法能同時偵測多個不連續的改變點、也容許多個連續改變點的存在,同時能適切的估計各分段迴歸的係數。此外論文中也討論分段個數的判定及所推導演算法的起始值。本研究透過模擬及靈敏度分析展示所提演算法的有效性及相較於其他方法的優越性,並輔以多個實際的例子說明所提方法的實用性。 對於處理非線性迴歸問題時,分段迴歸模型提供一個簡單又容易解釋參數意義的方法。很多研究人員推薦此種模型是一個解決改變點迴歸問題的較好選擇。改變點迴歸問題經常發生於各個領域,比如醫學、工程學、經濟及金融科學。在分段迴歸分析中,改變點及迴歸係數的估計很重要,因為他們隱含資料突然發生顯著改變的時間及資料改變的趨勢及型態等資訊,而這些訊息對於做決策很重要。改變點偵測已成為現今巨量資料分析中的一個具挑戰性的問題。研究團隊提出一個新的分段迴歸模型,允計多個改變點存在,連續或不連續改變點都適用。論文中提出一個新的DSR估計方法。此研究對改變點迴歸文獻有相當的貢獻,因為它突破分段迴歸只適用連續模型的限制,跳躍點偵測被公認是一個很難的問題,然而跳躍點常出現在實際的問題。本論文不只擴大分段迴歸模型應用的範圍,所提出的DSR估計法簡單、快速且效用高,更能吸引資料分析人員採用。但此估計法對於異常值的抵抗力不夠。本計畫的目的是結合DSR與一些常用的穩健統計方法,發展出一個保有原來DSR簡單、快速、效用高的優點,而且更是穩健性夠強的估計法。 接下來張教授用一個實際的資料來展示提出的方法(DSR)。汽車油秏是車主購車時的重要考量之一,研究團隊分析這筆資料包含38輛在1978-1979年製造的各自不同車款的小汽車,並測量汽車三個數值包括每加侖的英里數(MPG)、車重(WT單位是1000英一磅)、和馬力(HP)。透過本論文提出的IJD及DSR的方法,研究團隊偵測到模型有一個不連續的改變點位於約(2.7475, 6.2333)的位置,並估得油耗與車重的迴歸模型為 主要的分析結果以圖形呈現如下。 圖一: 應用DSR估計汽車資料的模型 整體而言,本論文發展一套新的演算法稱為DSR。本方法的運算速度很快,且和目前文獻存在的方法相比,估計的準確度不僅毫不遜色,甚至在多數情況下表現更為優異。 原文出處: Lu, K.-P., & Chang, S.-T. (2023). An Advanced Segmentation Approach to Piecewise Regression Models. Mathematics, 11(24), 4959. https://doi.org/10.3390/math11244959