# 第九章:找到真相——迴歸分析
## 一
週一早上,開店前一小時。
我坐在吧檯前,面前攤開的是過去三十天的數據。
七張紙,每一張都是一個變量的追蹤:
```7Please respect copyright.PENANAJZQDJnEJRl
圖一的變量:每日銷售(從€3,120到€6,890)7Please respect copyright.PENANAHehyJ37nX4
圖二的變量:是否週末(1=週末,0=平日)7Please respect copyright.PENANAuPIRLK1mXI
圖三的變量:是否假期(1=學校假期,0=學期中)7Please respect copyright.PENANAaDvgocTE20
圖四的變量:天氣(晴/陰/雨)7Please respect copyright.PENANAHrNMnXXKap
圖五的變量:Café Luxe是否已开业(1=是,0=否)7Please respect copyright.PENANAR3gPmgq4rf
圖六的變量:促銷活動(1=有,0=無)7Please respect copyright.PENANASOK0VEhJiB
圖七的變量:競爭對手是否優惠(1=有,0=無)7Please respect copyright.PENANAnwAwbFl2H9
```
我看著這七張圖,看不出所以然。
銷售有高有低,現在我知道這個波動是「正常的」。但什麼因素在決定高低?
週末高二平日低。假期高二平日低。
但兩者之間有重疊,有時平日也比某些週末高。
我的大拇指按住圖七上面的一個點。
那是上週六。Café Luxe 开业的第一天。
我的銷售是 €5,670。低於平均水平。
但那天下雨。
所以——是下雨的原因?還是 Café Luxe 的原因?
我的手機亮了。是她。
「今天下午,我們繼續。」
我回了一個「好」字,放下手機,看著那個被大拇指按住的點。
Café Luxe。
他們在改變這條街。
而我需要知道——我的業務,在被他們改變成什麼樣子。
***
## 二
她來的時候,拿著一支紅筆和一疊空白的坐標紙。
「你做了功課。」她看了一眼桌上的圖。
「嗯。」我說,「但看不出規律。」
「看不出是正常的。」她說,「用眼睛看資料,約等於凭感覺。」
「那怎麼辦?」
她坐下來,把那七張圖排成一排。
「讓我问一個問題。」她说,「你覺得,什麼因素對銷售的影響最大?」
我想了想。
「週末。」我說,「還有假期。」
「還有呢?」
「競爭對手。」
「還有呢?」
「天氣。」
「還有呢?」
我不知道該怎麼回答。
她把一張空白的坐標紙放在我面前。
「你列出七個變量。」她说,「但你更需要知道的是:每一個變量有多重要。在所有影響銷售的因素中,它們各自的『功勞』是多少。」
「功勞?」
「統計學叫它『解釋力』。」
***
## 三
她在坐標紙上畫了一條横線和一條縱線。
```7Please respect copyright.PENANAmJVElBgM7g
横軸(X):學校假期天數(0-31)7Please respect copyright.PENANAwG3f8DAt9w
縱軸(Y):每日銷售7Please respect copyright.PENANAou9sBc8u3h
```
她在纸上點了三十個點。
分佈有點散,但不是毫無規律。
「你看出什麼?」她問。
我看了幾秒。
「假期多的月份,銷售似乎高一些。」
她點點頭。
「畫一條穿過這些點的直線。」她說。
「用手畫?」
「對。」
我拿起筆,試著畫了一條。我畫得不怎麼好。
「看起來怎麼樣?」她問。
「有點歪。」
她笑了一下。
「每一個人畫的直線都不同。」她說,「統計學要做的,是找到『最好的一條線』。」
「怎樣叫『最好』?」
「預測誤差最小的。」她说,「意思是,用這條線來預測銷售,預測錯誤的程度,『平均』來說是最低限。」
她在白板上寫下三個字母:
```7Please respect copyright.PENANAdYgQP8ze9K
Y = a + bX7Please respect copyright.PENANAmXwekcy63Y
```
「這是最簡單的線性迴歸。」她说,「X 是我們選的變量(學校假期天數),Y 是我們想預測的(每日銷售)。a 是截距,b 是斜率。」
「斜率代表什麼?」
「代表 X 每增加一個單位,Y 怎麼變。」她说,「在這裡,如果斜率是 €150,表示每多放一天假,銷售平均增加 €150。」
「怎麼找到a和b?」
「有公式。」她说,「但你不需要背。你只需要知道一件事——」
她在白板上寫:
```7Please respect copyright.PENANAOt43dk6PJ7
b = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)²7Please respect copyright.PENANAZZsXYS9ApM
a = ȳ - b·x̄7Please respect copyright.PENANAxcFrR3rVtw
```
「這個公式找出來的直線,穿過所有散點的『正中間』。」她说,「它代表的,是『如果只能選一個變量來預測銷售,這個變量應該是 X』。」
***
## 四
她把另一張坐標紙放在桌上。
```7Please respect copyright.PENANAxY0YYSADDq
横軸:是否週末(0=平日,1=週末)7Please respect copyright.PENANAvOMRkYEkKl
縱軸:每日銷售7Please respect copyright.PENANAHG4nbMFNtr
```
「如果用『是否週末』來預測銷售,這條線的斜率是多少?」
我算了算。
「週末的平均值約 €5,340,平日的平均值約 €4,020。」我說,「所以斜率約 €1,320。」
「對。」她说,「意思是,週末比平日平均多賣 €1,320。」
她又拿出另一張紙。
```7Please respect copyright.PENANAjMuwcgVEBa
横軸:學校假期(0=學期中,1=假期)7Please respect copyright.PENANAMv6mzi2WIM
縱軸:每日銷售7Please respect copyright.PENANAaHWMBsqjdx
```
「如果用『學校假期』預測,斜率是多少?」
我算了算。
「假期的平均值約 €5,540,非假期平均值約 €4,280。」我說,「斜率約 €1,260。」
「兩個變量的斜率差不多。」她说,「但它們可能重疊——很多週末同時也是假期。」
「所以?」
「所以如果兩個變量之間有相關性,單獨看每個變量的效果,可能被高估。」
「相關性?」
「兩個變量同時變化的傾向。」她说,「在這裡,學校假期和週末高度相關——法國的學校假期,很多剛好落在週末附近。」
她在白板上畫了一個圖:
```7Please respect copyright.PENANAXxdeIqFmMZ
相關性示意
假設變量A和變量B同時增加:7Please respect copyright.PENANAYda1nFQVZE
B ▲7Please respect copyright.PENANAHi48lLBUyn
│ ● ●7Please respect copyright.PENANAasienp5yKX
│ ● ●7Please respect copyright.PENANAe7ihkwPFkV
│● ●7Please respect copyright.PENANAkKMj3PPhbl
│ ● ●7Please respect copyright.PENANAbLV1GXxxbT
└──────────► A7Please respect copyright.PENANAEYbgGFb7lF
兩者同時變化 = 高相關7Please respect copyright.PENANAzebgqiMuVt
```
「如果用『學校假期』和『週末』同時預測銷售。」她说,「每個變量的單獨效果會被分割。統計學叫這個『多元迴歸』——多個變量同時放進來,看它們各自的『獨立貢獻』。」
***
## 五
「我想知道 Café Luxe 的影響。」我說,「可以加進去嗎?」
她點點頭。
「當然。」她在白板上又畫了一個表:
```7Please respect copyright.PENANAsyXgyrf6sZ
變量 平均繫數(b) 解釋力(R²)7Please respect copyright.PENANA64mHKuVclv
───────────────────────────────────────────7Please respect copyright.PENANAiTnllnyWPx
學校假期 +€1,260 18%7Please respect copyright.PENANA4wpzFQ3ocK
週末 +€1,320 22%7Please respect copyright.PENANAC1Y9HmTlF2
天氣(每多一級) +€340 4%7Please respect copyright.PENANAxsnR6zmzO4
Café Luxe ? ?7Please respect copyright.PENANAh4qt8BzPwV
```
「什麼是 R²?」我問。
「解釋力。」她说,「意思是,這個變量能『解釋』銷售變化的百分比。」
「如 €1,320 的週末,解釋力是 22%?」
「對。」她说,「意思是,用『是否週末』這一個變量,能解釋销售差异的 22%。換句話說——销售变化的三成,是由於『今天是週末还是平日』。」
「其他 78% 呢?」
「其他變量和其他因素。」她说,「包括了隨機波動。」
我低下頭看那張表。
「所以學校假期和週末,两个變量已經解釋了差不多 40%。」
「對。這已經算高了。」她说,「在現實中,很多業務的變量,解釋力只有 10%。」
「Café Luxe 呢?」
「你想知道。」
她沉默了一下。
「我們算算。」
***
## 六
她開始在計算機上操作。
「過去三十天,Café Luxe 开业九天。」她说,「前後的銷售分佈是這樣的:」
她在白板上寫:
```7Please respect copyright.PENANAiiT0R8yy3u
Café Luxe 开业前(21天):7Please respect copyright.PENANAcJrqDd2QBk
平均销售:€4,680
Café Luxe 开业後(9天):7Please respect copyright.PENANARCPNAv4cEh
平均销售:€4,470
差距:€2107Please respect copyright.PENANAgAOuLMyOBp
```
「九天,少了 €210。」她说,「但這個差距需要context。」
「什麼 context?」
「這九天裡,有多少天是週末?」她問。
我翻了翻日曆。
「九天中,三天是週末。」
「那三天的平均是多少?」
我再算了算:
「週末三天,平均 €5,340。」
「平日六天,平均 €4,020。」
「如果 Café Luxe 開了九天,其中三天是週末——」她在白板上算:
```7Please respect copyright.PENANAeKuF3Y2Myd
如果完全不受影響,期望平均值:7Please respect copyright.PENANAI56BkgWYQF
(3天×€5,340 + 6天×€4,020) / 97Please respect copyright.PENANAeLDAgZ3b2a
= (€16,020 + €24,120) / 97Please respect copyright.PENANAnmHmi4Swkq
= €40,140 / 97Please respect copyright.PENANA1VPPL6jgKc
= €4,4607Please respect copyright.PENANAr2W0Or9887
```
「實際平均值是 €4,470。」我說,「和期望值幾乎一樣。」
「對。」她说,「在這個樣本量裡,我們『看不出』Café Luxe 有顯著影響。」
「但他們是低價竞争。」我說,「怎麼可能沒影響?」
她看著我。
「你有兩種可能。」她说,「第一,Café Luxe 的影響還沒有完全反映在數據裡——消費者正在觀望,還沒有實際行動。」
「第二?」
「第二,你的差異化策略在起作用。」她说,「你的熟客知道你的名字,知道你的咖啡豆來源,知道你的 location。這些東西,統計學看不到,但顧客感受得到。」
***
## 七
這時,門外傳來一陣笑聲。
兩個穿校服的高中生推門進來,一男一女,書包還揹在身上。
「兩杯美式,大杯。」男生說。
我站起來開始做咖啡。
「加奶油還是加糖?」我問。
「都加。」女生說,笑著看著男生。
我在心裡默默記下一筆:兩杯大杯美式,€8。
他們選了一張靠窗的桌子開始做作業。
過了一會兒,男生的手機响了。他看了一眼螢幕。
「Café Luxe 的優惠碼。」他說,「全場八折,免費加 Shot。」
「真的?」女生探過頭去看。
「明天截止。」男生說,「要不我們去試試?」
我手上的奶泡筆在咖啡上頓了一下。
「你說 Café Luxe 對吧?」他抬頭看了我一眼,「姐姐,你聽說過嗎?」
「聽說過。」我說,「在我們街角。」
「你去過嗎?」
「還沒。」
「他們說咖啡一般,但便宜。」他收起手機,喝了一口美式,「不過這家(指著我做的這杯)比較好喝。」
女生笑著點點頭。
我拿著做好的咖啡站在吧檯後面,假装在擦吧檯。
他們繼續聊天,話題離開了咖啡,轉到了學校的作業和週末的计划。
我走回她對面的位置坐下。
「听到了?」她問。
「听到了。」我說,「但他說這裡的比較好喝。」
「這就是你的護城河。」她说。
***
## 八
她開始收拾東西。
「讓我總結一下。」她说,在白板上寫:
```7Please respect copyright.PENANArvphEo1j62
一、迴歸分析的核心7Please respect copyright.PENANA8XK6lkFWOR
- Y = a + bX:用一個變量X來預測銷售Y7Please respect copyright.PENANAlFNHGvt9dv
- 斜率b:X每增加一個單位,Y變化多少7Please respect copyright.PENANATArnAkAayD
- 解釋力R²:這個變量能「解釋」多少%的銷售變化
二、多元迴歸7Please respect copyright.PENANAPpmOk7xaqP
- 多個變量同時放入,看各自的「獨立貢獻」7Please respect copyright.PENANAJ2Hpdczjcj
- 相關性高的變量會分散解释力7Please respect copyright.PENANAxDL4McMRxe
- 在現實中,業務很少被單一因素決定
三、相關不等於因果7Please respect copyright.PENANARHpwoE9kYO
- 即使X和Y高度相關,也不代表X導致Y7Please respect copyright.PENANAd4hazmuPTX
- 例如:冰淇淋銷量和淹死人數都夏天高,但不吃冰淇淋不會防止淹死7Please respect copyright.PENANAxcHpMz7lK5
- 業務決策,需要領域知識配合統計結果
四、R²的局限7Please respect copyright.PENANAWvhSv4KLiW
- R²高不一定代表模型好7Please respect copyright.PENANAxbaAkWgVe9
- 可能是「偽迴歸」——兩個變量剛好同時趨勢,但沒有因果關係7Please respect copyright.PENANAEkLCKBlGAG
```
她放下筆,看著我。
「有件事我應該告訴你。」
「什麼事?」
「上週五,我路過 Café Luxe。」她说,「他們的生意很好。」
我沒有說話。
「這不代表你的生意會變差。」她说,「但代表你的策略要明確。」
「什麼策略?」
「如果你的客人是『想要便宜咖啡的』,他們遲早會被 Café Luxe 拿走。如果你的客人是『想要好咖啡的』,你還有時間。」
我低下頭看著吧檯上的灰塵。
「我知道。」
「知道不夠。」她说,「你要準備下個月的營銷計劃。你的客人是誰?他們想要什麼?你怎麼向他們傳遞你的價值?」
她又拿起帆布袋。
「數據告訴你過去。」她说,「但商業知識告訴你未來。」
***
## 九
她離開後,我坐在吧檯前很長時間。
那兩個高中生還在窗邊坐著,偶爾傳來笑聲。
他們的作業做完了,開始玩手機。
男生又看了一眼那個 Café Luxe 的優惠碼。
「明天去吧?」他對女生說。
女生猶豫了一下。
「那我們帶爸媽一起去?」
「好。」
他們離開的時候,男生朝我點了個頭。
「謝謝,姐姐。」
「謝謝光臨。」我說。
門關上。
我站在吧檯後面,看著窗外的街道。
對面那家曾經是空置的店舖,現在挂上了 Café Luxe 的招牌。
藍色的底色,白色的字體。
不時有人走進去。
也有不時有人走出來,手裡拿著咖啡。
我回到吧檯,看著那七張圖。
學校假期,解釋力 18%。
週末,解釋力 22%。
Café Luxe,解釋力——接近零。
但我知道這不是真的。
他們只是還沒有行動。
拿起筆,我在 Café Luxe 旁邊的空白處寫下:
```7Please respect copyright.PENANAGZXR6PeFyK
下一步:設計促銷活動,目標:「想要好咖啡的客人」7Please respect copyright.PENANAJxRIkI7rpQ
```
# 📊 知識點整理
## 本章引入的概念
### 簡單線性迴歸(Simple Linear Regression)7Please respect copyright.PENANA0bD5FkatcB
- **公式**:Y = a + bX7Please respect copyright.PENANAWAamOb3sgk
- **意義**:用一個變量X來「最佳預測」Y7Please respect copyright.PENANA0W7BocGN0d
- **a(截距)**:當 X = 0 時,Y 的預測值7Please respect copyright.PENANApF0iLvnfnf
- **b(斜率)**:X 每增加一個單位,Y 平均增加 b 個單位7Please respect copyright.PENANAP452TYdbZj
- **商業應用**:如果知道假期天數,可以預測當天的大致銷售範圍
### R²(解釋力 / Coefficient of Determination)7Please respect copyright.PENANAOyeFn4EGtx
- **定義**:一個或一組變量能解釋 Y 變化的百分比7Please respect copyright.PENANAu2x3lItA1f
- **範圍**:0% 到 100%7Please respect copyright.PENANAXCcrwm46od
- **解讀**:7Please respect copyright.PENANAv1UNPU4Pvq
- R² = 20%:這個變量能解釋銷售變化的兩成,剩餘八成由其他因素決定7Please respect copyright.PENANAamQ9lZJ2dN
- R² 不是「準確度」,而是「貢獻度」7Please respect copyright.PENANA3aIMcQsPmG
- **重要提醒**:高 R² 不等於「模型好」——可能是偽迴歸
### 多元迴歸(Multiple Regression)7Please respect copyright.PENANAZ4ECAUg0wH
- **意義**:多個變量同時放入模型,看各自的「獨立貢獻」7Please respect copyright.PENANAHBVHT1mmlS
- **為什麼需要**:現實中業務往往被多個因素同時影響7Please respect copyright.PENANAyw94Y5gmLd
- **要注意的問題**:7Please respect copyright.PENANApD5AW1P7A6
- 共線性(Collinearity):相關性高的變量會分散解釋力,難以區分各自獨立影響7Please respect copyright.PENANAQpnj3rQM1y
- 過度擬合(Overfitting):變量太多會把「噪音」也當成「信號」
### 相關性與因果關係7Please respect copyright.PENANA3fLhY6os9z
- **核心原則**:相關(Correlation)≠ 因果(Causation)7Please respect copyright.PENANAt4XPr65MQ2
- **經典例子**:7Please respect copyright.PENANAr8HwC7LCoY
- 冰淇淋銷量 vs 沙灘死亡人數(兩者都夏天高,但不吃冰淇淋不會防止溺水)7Please respect copyright.PENANASCSVrv3WsM
- 醫院數量 vs 死亡人數(都和人口密度相關,不是醫院導致死亡)7Please respect copyright.PENANAoqFWwXFLcZ
- **如何區分**:7Please respect copyright.PENANANQ76sbhfEw
- 統計學告訴你「相關」,商業知識告訴你「因果」7Please respect copyright.PENANARd8Vnk2jni
- 需要專業領域的判斷7Please respect copyright.PENANAPzB466koI9
- **商業建議**:業務決策時,相關性是起點,因果關係需要實驗或領域知識確認
## 常見誤解糾正
### 誤解一:「相關等於X導致Y」
**錯誤**:7Please respect copyright.PENANAkULTAN6Yfg
- 看到兩個變量高度相關,就認為「改變X就能改變Y」
**正確**:7Please respect copyright.PENANABBdhav4RsK
- 第三變量問題(Confounding Variable):可能是另一個變量同時影響X和Y,但未被納入模型7Please respect copyright.PENANAqjho9L4lNP
- 時間方向問題:X和Y可能都是某個原因的結果,而不是彼此因果7Please respect copyright.PENANA3jFvYOeGGv
- 商業決策不能只靠相關性,必須有領域知識支持因果假設
### 誤解二:「R²高就是好模型」
**錯誤**:7Please respect copyright.PENANAqEz8oAIVXe
- 看到R² = 80%就認為模型「完美」
**正確**:7Please respect copyright.PENANAjIfTHLt429
- R²高可能是「過度擬合」——用了太多變量,把噪音也拟进去了7Please respect copyright.PENANAKYgw24y8MD
- 也可能是「偽迴歸」——两个變量有同時的趨勢,但沒有實際因果關係7Please respect copyright.PENANAO80pdrLqH9
- 評估模型還要看:變量是否有商業邏輯、新變量加入是否合理、預測誤差是否在可接受範圍
### 誤解三:「p值顯著等於商業上應該行動」
**錯誤**:7Please respect copyright.PENANAIsCRlH9x2C
- 「我們發現X對Y有顯著影響」=「我們應該大力投入X」
**正確**:7Please respect copyright.PENANATTwcJDedxh
- 統計顯著只是說「這個影響不太可能是運氣」7Please respect copyright.PENANAotTNVUSVJ8
- 還要看效應大小(Effect Size):影響 €10/天 和影響 €1,000/天 的決策完全不同7Please respect copyright.PENANA3Gn6B69d2k
- 商業上还要考慮:執行成本、時機、能力
---
第九章完
7Please respect copyright.PENANAK9lamQ6HZN


