avatar邱秉誠

总结

本网页主要介绍了回归分析中的R平方和调整后的R平方,并解释了它们在评估回归模型表现中的作用和区别。

摘要

网页详细阐述了回归分析中两个关键的评估指标:R平方(R squared)调整后的R平方(Adjusted R squared)。R平方代表自变量X解释因变量Y变异的比例,是衡量回归模型解释能力的指标。它通过计算殘差平方和(residual sum of squares)总平方和(total sum of squares) 来确定,其中殘差平方和代表模型不能解释的部分,总平方和代表欲解释的总变异量。R平方的值越接近1,表示模型解释的变异越多。然而,R平方可能会因为增加无关紧要的自变量而提高,因此提出了调整后的R平方,它考虑了自变量的数量和样本大小,能更客观地评估模型的解释能力。调整后的R平方通常小于R平方,并且当模型的预测效果不如直接使用平均值时,R平方可能为负。

观点

  • R平方 是衡量回归模型表现的重要指标,但它可能会因为增加无关变量而高估模型的解释能力。
  • 调整后的R平方 是对R平方的修正,考虑了变量数量和样本大小,提供了一个更为准确的模型评估指标。
  • 在实际应用中,模型的变量数量应该适度选择,避免过度拟合,以确保模型的泛化能力和预测准确性。
  • 理想情况下,R平方的值应该介于0到1之间,但在某些情况下,如模型完全失效时,R平方可能是负数。
  • 通过对R平方和调整后的R平方的深入解释,网页内容旨在提高读者对回归模型评估的理解和应用能力。

回歸分析(Regression analysis)的R平方(R squared)與調整後R平方(Adjusted R squared)

衡量回歸模型表現的兩個指標

R平方(R squared)

R平方(R squared)又稱為判定係數(coefficient of determination),是一種衡量回歸模型表現的指標,代表從獨立變數X可以解釋依變數Y變異的比例。

殘差平方和(residual sum of squares)

『可以解釋的部分』聽起來有點抽象,或許從『不能解釋的部分』來思考會容易許多,對於一個模型來說,什麼叫做『不能解釋的部分』?就是殘差(residual)。我們耳熟能詳的公式每個樣本點的真實值yᵢ-預測值fᵢ即為殘差,為了數學上計算的方便,在加總累計時通常我們都會取平方和,殘差平方和(residual sum of squares)公式如下

因此殘差平方和越大,表示模型解釋力越低,非常容易理解。

總平方和(total sum of squares)

殘差既然是不能解釋的部分,欲解釋的總變異量是什麼?我們以真實值-平均觀察值的平方和表示

在此變異量可以想成是資訊含量,如果今天觀察值是常數,總變異量會是0,毫無資訊含量可言。下方是臺北及恆春的月均氣溫散布圖,藍色直線表示月均氣溫的平均值,依照公式計算臺北月均氣溫的總平方和(total sum of squares)為289恆春地區則為89,舉該簡單例子讓讀者體會數據的變異程度對總平方和(total sum of squares)值的影響

臺北和恆春的月均溫觀測值及其平均值

上述說明殘差平方和(residual sum of squares)就是『不能解釋的部分』,總平方和(total sum of squares)為『欲解釋的總變異量』,因此不能解釋的變異的比例為:

可以解釋的比例,自然就是以1去相減,就得到大家耳熟能詳的R平方(R squared)的公式

附註

事實上總變異平方和就是回歸平方和殘差平方和的組成。

解讀R平方(R squared)

以上圖筆者繪製的一張圖來體會,左邊紅色正方形的面積總和就是依變數y的總變異量,計算方式是觀察點(圓心)與y bar的距離取平方的加總,代表我欲解釋的部分;右邊藍色正方形的面積加總,就是殘差平方和,為模型不能解釋的部分,計算方式是觀察點(圓心)與fi (預測值)的距離取平方的加總,殘差平方和越小,表示不能解釋的部分越小,則R平方自然越高,如果找到一條完美回歸線穿越所有資料點,使殘差變成0,R平方就會變成1,表示模型解釋所有變異量。因此,正常情況下R平方的值會落在[0,1]。

R平方有沒有可能是負的?

有,當模型的殘差平方合大於總變異量時,R平方就是負的,如下圖:

這表示模型完全沒有用處,預測效果比用平均值來猜測還要糟糕!

調整後R平方(Adjusted R squared)

R square越高越好?

當然不是。回想最小殘差平方和的表示如下:

其中Xi是表示第i組解釋(獨立)變數的row vector,b則是對應X的係數;yi則是第i組的依變數。

理論上獨立變數X越多,殘差平方和只會越小,可以想像新增的一個X變數,即使對解釋目標y毫無貢獻,就使其係數變成0即可,因此殘差平方和最差就是打平,不會有反增的情況,在殘差平方和越小的情況,當然只會使R square變得越高。 R square變高本身是好事,代表解釋程度更高,但是放太多不重要的變數,會使得係數的估計變得不穩定(這裡會另外寫一篇推導估計係數的變異數)。

因此R平方不是一個客觀的指標,在此把變數的數量也納入考量,得到調整R平方(Adjusted R²),調整R平方可視為R²的不偏估計式,重新書寫如下:

其中n為樣本數量,p為變數數量。這裡可以注意到,得到的調整R平方會小於R平方。

統計系列文

R Squared
Regression Analysis
Statistics
Adjusted For Inflation
Recommended from ReadMedium