星期二, 11月 15, 2005

CPBL的Batting Run(續)

今天做了些調整,
簡單來說就是原本第三階段的 K, DP,其實都已經含在 (AB-H) 裡面
要增加K和DP的解釋能力的話,那 (AB-H) 可能要調整成 ( AB-H-K-DP) ..

如果 ABX=(AB-H-K-DP)
依然使用前面提及的70筆資料
結果是 (為了精確些,這次取到小數點後第三位)
BR= (0.557*1B) +(0.705*2B) +(0.968*3B) +(1.503*HR) + (0.377*BBA) +(0.105*SB) +(-0.007*CS)+(-0.440*DP)+(-0.071*K)+(-0.206*SH)+(0.986*SF) +(-0.118*ABX)

這裡, K的貢獻成為負,而且p-value=0.07,已經有相當不錯的解釋能力了..
而K的係數是 -0.07,仍然比ABX的係數來的小..
所以三振依然不是太大的問題..
符合先前的結論...

然後 我把公式套在時報鷹職4-8年的成績上
結果還算是不錯..
  年度  BR  R  誤差%
鷹  4 384.87 376 -2.30%
鷹  5 422.78 419 -0.90%
鷹  6 487.08 496 1.83%
鷹  7 535.61 550 2.69%
鷹  8 423.20 406 -4.06%

至少沒有像職16 牛隊的 有那麼大的誤差,
而且,時報看來也沒有印象中那麼特別(style)...
儘管它是單一球季唯一擊出破百HR的球隊...

接著,把時報職棒4-8年5筆、第一14年1筆、LaNew熊15年1筆、
誠泰14年太陽、15年Cobras等9筆納入取樣..
簡單來說,現在就是把過去15年所有CPBL的參賽隊伍成績全部納入..

得到的公式
BR= (0.570*1B) +(0.656*2B) +(0.993*3B) +(1.575*HR) + (0.363*BBA) +(0.156*SB) +(-0.067*CS)+(-0.470*DP)+(-0.079*K)+(-0.165*SH)+(0.964*SF) +(-0.117*ABX)

跟上一篇修正後的公式相比較
可以發現HR的係數是提升比較顯著的
(最顯著的其實是CS..)
也許可以用下面2點來看:
1.時報鷹5年貢獻了404支HR
2.時報應是CPBL唯一SLG超過0.4的球隊

至於其他的差異,
我的方向是鷹隊的DP高於平均,而SB%低於平均...

用新的BR公式 來套用直16年的各隊成績:
  BR   R  誤差%
象 423.01 414 -2.13%
獅 416.26 409 -1.74%
牛 388.43 431 10.96%
鯨 391.84 395 0.81%
誠 448.54 460 2.56%
熊 432.61 426 -1.53%

結果,跟先前修正前的BR是相差不大的,
本來以為在HR係數增加後, 熊隊的理論得分會增加些,
不過,增加的分數大概都被DP抵掉了..XD

但是,至少修正後的公式
比較符合一般大眾的預期吧..

至於牛隊的部份, 誤差依然顯著,
也許真的如同象版網友所言, 需要把對手失誤數計入因變數吧...

但是要統計這個數據,就需要朋友的幫忙了..
短時間內有點困難..=.=

星期一, 11月 14, 2005

CPBL的Batting Run

根據文書記載,最早開始使用Batting Run(BR)這個概念的人是Pete Palmer,
他在70年代,透過最小平方法嘗試去解析得分背後,
每個因子(一壘安打、二壘安打、全壘打、四壞球等)所佔的權重,
而得到一個BR公式。
這裡有關於Batting Run公式發展及其內容的一些介紹

某種程度上,套用統計學的觀點,
Palmer做的東西其實就是迴歸,
(寫到這裡,沒學過統計學的朋友,往下可能會比較痛苦些..XD)
如果依變數(Y)是得分,因變數(X1,X2….Xn)則是打者的各項表現,
透過歷史資料,利用迴歸,可以推導出像是以下的式子
Y= a0 + a1X1 + a2X2 + a3X3 +…+ anXn
而迴歸的重要目的就是預測,
也就是,透過歷史數據的分析,再蒐集因變數的資訊,
應該可以得到依變數的理論結果。

如果我們套用1989年Total Baseball所發展出來的BR公式,
我想大家會有更多的了解…
BR = (.47*1B)+(.78*2B)+(1.09*3B)+(1.40*HR)+(.33*(BB+HBP))+(.30*SB)+(-.60*CS)+(-.25*(AB-H))

當然,有興趣的人大可直接套用這個公式
來計算CPBL的得分情形,
然而,一則套用的結果不如人意,
再者,MLB畢竟和CPBL不同,
於是,小可就在想應該可以發展一套屬於CPBL的BR公式..

在開始之前,有三點必須說明
1. 常數項為0
引用過去先人的經驗,我令常數項a0=0,
也就是說,這會讓所產生的迴歸式會通過原點,
當然,我們都知道這樣會降低解釋能力,
不過,也較能讓普羅大眾接受這樣的公式…

2. 因變數選擇
嚴謹的統計分析,在進行因變數選擇的時候,
通常要先進行檢定分析,以了解該因變數對於依變數的解釋能力,
如果,解釋能力偏低的話,理論上就不應該選擇該變數。
然而,為了增強解釋能力,就不得不選入部分解釋能力偏低的因子..

3. 方法論
Palmer的BR是用每場比賽的數據來進行的,
然而,我個人認為每場比賽之間的變異性太大,
何況,只要樣本數夠的話,
我覺得差異性應該不大才是…

所以我找了職棒元年到15年共70筆的球隊得分歷史資料
[獅象15筆(元~15年),龍虎10筆(元~10年)、牛(含前身熊)12筆(4~15年)、鯨8筆(8~15年)]
(對不起,沒有時報鷹的資料..=.=)
然後利用職棒16年各隊的資料來進行檢測成果。

第一階段:
我先找了解釋能力最強的幾個因變數,1B、2B、3B、HR、BBA、AB-H
(其中BBA=BB+IBB+HBP)
得到的迴歸公式是
BR = (0.56*1B)+(0.73*2B)+(1.35*3B)+(1.52*HR)+(0.42*BBA)+(-0.12*(AB-H))

然後來檢測結果
 
    BR  R  誤差%
象  418.44 414 -1.06%
獅  427.02 409 -4.22%
牛  386.77 431 11.44%
鯨  376.78 395 4.84%
誠  453.02 460 1.54%
熊  431.49 426 -1.27%
(R平方=0.88)

儘管象、誠、熊的結果都還算是正確,
對於這樣的結果,我個人是相對不滿意的,
所以開始引進其他的因變數。

第二階段:
我把BSR的觀點引進,其實就是加入盜壘(SB)、盜壘失敗(CS)2項
得到的迴歸公式是
BR = (0.56*1B) +(0.69*2B) +(1.08*3B) +(1.57*HR) + (0.38*BBA) +(0.20*SB) +(0.07*CS) +(-0.12*(AB-H))

檢測結果
   BR   R  誤差%
象  413.05 414 0.23%
獅 420.82 409 -2.81%
牛  382.46 431 12.69%
鯨  376.30 395 4.97%
誠  439.81 460 4.59%
熊  425.70 426 0.07%
(R平方=0.89)

其實這樣的結果,和第一階段的其實相去不遠,
唯一可以觀察的結果是,CS對於得分的貢獻居然是正的
合理的解釋可能是往往盜壘失敗後,
戰術作戰的空間受限,反而會有大局的出現…XD
這點倒是可以持續觀察。

第三階段:
這個階段,我把一些出局的觀念引進,
加入雙殺打(DP)、三振(K)、犧牲短打(SH)、犧牲飛球(SF)的變數
得到的迴歸公式是
BR = (0.56*1B) +(0.70*2B) +(0.97*3B) +(1.50*HR) + (0.38*BBA) +(0.10*SB) +(-0.01*CS) +(-0.12*(AB-H))+(-0.32*DP)+(0.05*K)+(-0.21*SH)+(0.99*SF)

檢測結果
   BR   R  誤差%
象 425.01 414 -2.59%
獅 418.62 409 -2.30%
牛 387.08 431 11.35%
鯨 394.27 395 0.19%
誠 451.23 460 1.94%
熊 432.63 426 -1.53%
(R平方=0.90)

在進行這樣的修正後,我個人倒是可以接受這樣的結果。
此外,值得注意的是這幾年來一直困擾CPBL的問題,
在這裡得到不錯的解釋。
就是K對於得分貢獻是正的、SH則是負的
這跟一般人傳統觀念上,似乎是相違背的..
這樣的現象,可以用2句話來解釋
『三振不是原罪』
『過多的觸擊、造成得分的負擔』


綜觀三個階段,
1.其實各項主要因變數的係數在第二階段後都幾乎沒有變化,
而這些主要因變數的內容,其實就是一句話,『上壘
不管你是用安打、還是選球,
持續上壘就是對於得分最大的貢獻

2.對於牛隊實際得分的差距都有一段距離,
我們只能推論,牛隊今年得分的模式,
和過去、以及其他各隊都不大相同,
至於實際情形是如何,留待有心人士解謎了。

後話:
在做這個BR公式的同時,我也有想到球風的問題,
用英文來說,應該是Stylish Batting Run吧,
就是有些球隊,擅用強攻猛打(如過去的時報、今天的LaNew)
有些球隊則喜歡用小球戰術,
兩者之間應該有不同的BR公式才是…
但是,一方面因為CPBL球隊歷史較短,
而且球風通常也不大固定,總教練陣亡的速度也驚人..
再者,如果是用game by game來進行的話,
一則陷入我先前提到變異性較大的問題,
二則實在是沒有那樣的時間去執行了…

希望這篇短文能發揮拋磚引玉的效果,
讓其他先進發展更多相關的論述了…

星期五, 11月 04, 2005

CPBL2005成績總整理(V)=PMLV



可能要稍微解釋一下
1. 位置的分類..
基本上,CPBL並沒有提供打者在各位置的hitting data,
所以,我以該球員在哪個位置打過最多場球,就把他當作那個守備位置的POOL。
例如:謝佳賢被歸類為1壘,朱鴻森被歸類在3B,
(也使得他在今年一群怪物三壘手中,像支誤入叢林的小白兔,PMLV倒數第一..)
2.DH的打數
CPBL各隊其實少有專職的DH,
除了誠泰、中信比較固定外,(LaNew的王建強我也列為DH)
其他各球隊的DH,通常由野手輪流擔任,
而這些野手通常也會跑下去守備,
所以,造成上面表中DH的AB和PA%大幅的偏低...
由上面的數據可以觀察幾個現象...
1. MLV最低的位置是 捕手、SS
這點應該符合大眾的預期,
至於LF的部份,
則是因為我把一些通常是比賽後半段上來打1-2各打席,
然後沒有專責的外野守備位置的,通通算在這裡...
感覺起來,比較失真些...
2.MLV最高的幾個位置 1B、3B、DH、CF
數據其實都蠻近的,也符合大眾對於這些位置的預期...
比起其他OF的位置,CF有偏高的情形,我想應該是Mario的關係,
今年三壘手一堆怪物,其他的位置也有一些怪物撐起很多數字...
3.由於CPBL的守備位置,變動還不算小..=.=
所以,我還是個別加總了IF和OF的數字,
發現在BA/OBP/SLG部分其實相差不大...
只是,既有觀念裡,總覺得OF的MLV應該要比IF 高才是..=.=
(還是要繼續用這個原因,今年三壘手怪物一堆.~"~)
4.根據PMLV值,推薦今年最佳9人名單如下:
1B:謝佳賢(應該不用懷疑..=.=)
2B:林智勝(陽森的分數也蠻近的)
3B:張泰山(V-Rod走人了...=.=)
SS:鄭昌明(唯一擠進前20名的SS)
C:陳瑞昌(唯一擠進前10名的)
DH:陳連宏(他有被提名嗎?)
OF:彭政閔(第一人選)、陳懷山、黃龍義(如果陳連宏真的是DH)

星期四, 11月 03, 2005

CPBL2005成績總整理(IV)=MLV

在計算VORP的過程中, 有個蠻不錯的指標可以抓來瞧瞧,
MLV(Marginal Lineup Value)

基本上來看,MLV是一個評估攻擊能力的指標,
簡單解釋,如果要評估彭政閔的MLV,
就是假設一支球隊由他和其他8個聯盟平均打擊水準的球員所組成,
那麼他對於該球隊的貢獻是如何??

MLV是由RC衍生,某種程度上可以用,
"多了恰恰,可以幫該球隊多得多少分"的觀點來看待..
對於MLV有興趣的人,可以參考這裡

CPBL 2005 MLV TOP 20

球隊  姓名   出賽數   MLV    Lineup
誠  謝 佳 賢   101   40.93     LF
象  彭 政 閔   76    35.21    RF
獅  蓋  達   44    27.41    DH
誠  馬 力 歐   66    24.78    CF
熊  羅德里茲   76    23.05    3B
牛  張 泰 山   95    21.17    1B
象  陳 懷 山   74    20.64    2B
誠  威 拉 斯   91    20.47    SS
熊  潘 忠 韋   88    18.93
獅  陳 連 宏   94    18.15
獅  高 國 慶   99    16.69
熊  林 智 勝   81    16.61
熊  黃 龍 義   91    16.13
獅  陽  森   100   15.95
牛  曾 華 偉   88    14.85
獅  林  克   34    11.64
鯨  曾 漢 州   99    10.67
象  陳 致 遠   60    7.80
鯨  紀 俊 麟   94    6.29
象  陳 瑞 昌   66    5.70     C


最後的Lineup是我規劃的守備位置,
如果CPBL出現這樣打擊陣容的球隊,
給他一個聯盟平均的投手群,
這支球隊理論勝率應該是在69.77%。

沒記錯的話 喇趴蹲過捕手的樣子,
如果由他來蹲捕,應該會更好玩..

順便來看一下MLV的對照組,就是最後20名
也可以讓大家看看CPBL教頭們的功力.. XD
CPBL 2005 Worst MLV
球隊 姓名  出賽數  打數  MLV
牛  葉 君 璋 101   321  -23.58
象  朱 鴻 森 92  343  -17.92
象  郭 一 峰 69   162  -15.73
獅  陽 東 益 86   217  -13.52
獅  吳 佳 榮 84   141  -12.89
熊  石 志 偉 98   391  -12.85
象  馮 勝 賢 74  293  -12.05
鯨  蔡 昆 祥 70   138  -10.97
熊  曾 恆 彰 68   197  -10.01
誠  柯 建 鋒 82   198  -9.85
鯨  石 金 受 89   225  -9.35
牛  張 家 浩 101  385   -9.10
鯨  陳 健 偉 91   276  -8.54
熊  呂 俊 雄 62   138  -8.32
獅  曾 揚 志 43   53   -8.10
牛  陳 宗 甫 75   188  -7.91
熊  周 森 毅 29   59   -7.89
誠  黃 高 俊 65   94   -7.83
牛  余 進 德 40   43   -7.60
象  林 馴 偉 43   126  -7.52

依據聯盟平均水準,
一個球員打滿30場的AB=111.8、打滿50場AB=186.4
然後CPBL偉大的教練團們,
可以放任這些球員多數都在場上超過30場、甚至50場。
排名第二的可是SB並列第一喔..

看了一下, 今年兄弟二壘這個位置,還真是大洞..XD

CPBL2005成績總整理(III)=攻擊WS

姓名    出賽數  攻擊WS
彭 政 閔   76    20.86
陳 懷 山   74    14.53
蔡 豐 安   90    8.26
陳 致 遠   60    7.73
陳 瑞 昌   66    6.17
王 金 勇   61    5.65
陳 瑞 振   94    4.89
李 志 傑   84    3.38
馮 勝 賢   74    2.08
許 閔 嵐   55    1.68
許 誌 為   56    1.49
朱 鴻 森   92    1.16
林 馴 偉   43    0.18
林 明 憲   4    0.10
張 士 凱   1    (0.03)
彭 政 欣   5    (0.19)
鄭 漢 禮   6    (0.38 )
郭 一 峰   69    (1.43)

兄弟不知道會忍受大俠的打擊多久..XD

全聯盟攻擊WS 前20名
球隊  姓名  出賽數  攻擊WS
誠  謝 佳 賢  101   23.18
象  彭 政 閔  76   20.86
牛  張 泰 山  95   20.47
牛  曾 華 偉  88   15.90
象  陳 懷 山  74   14.53
誠  馬 力 歐  66   14.37
誠  威 拉 斯  91   14.13
熊  羅德里茲 76   13.21
獅  蓋  達  44   13.05
獅  陽  森  100  12.36
牛  張 建 銘  98   11.88
熊  潘 忠 韋  88   11.84
獅  高 國 慶  99   11.81
鯨  曾 漢 州  99   11.77
熊  黃 龍 義  91   11.75
獅  陳 連 宏  94   11.75
牛  黃 忠 義  100  11.70
熊  林 智 勝  81   11.20
鯨  紀 俊 麟  94   10.27
牛  許 國 隆  85   9.86


其實某種程度上,反應兄弟攻勢過於集中的問題...

全聯盟攻擊WS 後20名
球隊  姓名  出賽數  攻擊WS
牛  余 進 德  40    -1.57
象  郭 一 峰  69    -1.43
獅  曾 揚 志  43    -1.13
獅  吳 佳 榮  84    -1.05
牛  葉 君 璋  101   -0.93
熊  周 森 毅  29    -0.89
牛  鄭 志 雄  29    -0.72
鯨  蔡 昆 祥  70    -0.71
牛  曾 揚 岳  36    -0.60
鯨  王 宜 民  50    -0.54
誠  黃 高 俊  65    -0.54
鯨  葉 長 龍  55    -0.49
獅  王 子 菘  37    -0.43
誠  吳 承 翰  9     -0.43
象  鄭 漢 禮  6     -0.38
熊  郭 昌 庭  25    -0.24
鯨  蔡 士 凡  6     -0.22
象  彭 政 欣  5     -0.19
牛  楊 進 雄  27    -0.19
牛  邱 敏 舜  29    -0.18

從球員人數分佈在各隊狀況, 可以知道某些球隊貧打的情形。

CPBL2005成績總整理(II)=談得失分差

棒球說來複雜,但是想要贏球,不外乎兩大原則
『增加得分』、『減少失分』
不論從哪種角度思考,最後的終點站都在於這2個目標,
身為數據派,角度是如何從數理分析找出問題,並進而去改善問題…

下列是今年各隊的得失分情形,

  G  W  T  L  W% 得分 失分得失分差  E(w%)
牛 101 53 6 42 0.554 431 427  4   0.50466
誠 101 50 8 43 0.535 460 401 59  0.5682
獅 100 48 3 49 0.495 409 417 -8  0.49032
象 100 47 4 49 0.490 414 445 -31  0.46396
鯨 100 47 4 49 0.490 395 385 10  0.51282
熊 100 42 3 55 0.435 426 460 -34  0.46168
LG 301 287 28 287     422.5 422.5

很明顯的,今年的冠軍球隊興農在得失分表現上,洽約等於LG水準,
所以理論勝率在5成左右是合理的,
然而興農今年的實際勝率卻高出了有5%。

順便來看誠泰,擁有最高的得失分差,而且多出興農非常多,
但是實際勝率卻比理論勝率掉了3.3%,
乃至於還得從季後賽第一輪打起…

另外一組來看兄弟和LaNew,擁有差不多的得失分差,
但是巧合的最後兄弟的實際勝率高過理論勝率約2.6% 而LaNew卻是低了約2.6%…

解釋的原因可能在於,
超過理論勝率的,擅長贏小比分差距的比賽,
而低於理論勝率的,通常都是大勝。

所以,依照這個方向去抓,
興農勝場每場贏分2.8868分、負的每場輸3.5476分,誠泰則是贏4.08分、負3.3721分。
興農贏球場次在3分以內者高達38勝(53勝全年)、1分差贏的比賽有19場。
誠泰贏球場次在3分以內者有27勝(50勝全年)、1年差贏的比賽有11場、
而1分差輸的比賽達14場(多數輸給興農)
結果是跟我預期是一樣的, 某種程度顯示球隊整體的抗壓性,
這也是我個人看好興農今年會持續奪冠的原因之一。

來看另外一個對照組兄弟和LaNew…
兩隊擁有差不多的得失分差,兄弟414/445/-31(得分/失分/差)、LaNew則是426/460/-34
結果是,兄弟47勝總勝分133分、平均2.83分,49敗總敗分164分、平均3.35分。
LaNew 42勝總勝分138分、平均3.29分,55敗總敗分172分、平均3.13分。

另外發現,今年最會贏1分差比賽的,其實是兄弟
兄弟贏球場次在3分以內者高達37勝(47勝全年、興農38/58 )、1分差贏的比賽有21場(興農19)。 LaNew贏球場次在3分以內者有26勝(42勝全年)、1年差贏的比賽僅有12場。

再抓一下兄弟和LaNew的對戰組合,今年兄弟12勝8負占優勢,
分析結果,發現兄弟贏球平均每場贏2.5分,輸球要輸到4.25分,
中間的差距還算是蠻懸殊的…
而且就對戰組合的得失分計算理論勝率,應該LaNew的勝率要過半才是…

不過從這樣的對戰數據也可以發現今年兄弟的模式,
投手挺住大概就會贏,挺不住大概就完蛋了
也就是說,過去靠打擊的模式今年不復存在…


 
  總勝分 總負分 勝分avg 負分avg
牛  153  -149  2.89  -3.55
誠  204  -145  4.08  -3.37
獅  154  -162  3.21  -3.31
象  133  -164  2.83  -3.35
鯨  157  -147  3.34  -3.00
熊  138  -172  3.29  -3.13

CPBL2005成績總整理(I)

投手篇:
今年共93名投手出賽,貢獻5307又2/3局 (聯盟合計比我多3局..=.=)
     聯盟    兄弟
ERA:  3.4778  3.7916
WHIP: 1.3522  1.3681
K/BB:  1.9443  1.9831
K9:   6.3367  5.9626
BB9:  3.2591  3.0068
H9:   8.9107  9.3058

捕手篇       
     聯盟    兄弟   La New
阻殺率  0.3758  0.3056  0.4836


打擊篇:
共125名野手上陣,從張士凱的1AB到聯盟最高的陽森(401AB)
5名野手全勤:張家浩、葉君璋、謝佳賢(以上101場)、陽森、鄭昌明(100場)       
     聯盟   兄弟    最高     最低
BA:   0.2602  0.2618  0.2699(熊) 0.2459(鯨)
OBP:  0.3222  0.3303  0.3334(誠) 0.3090(鯨)
SLG:  0.3622  0.3507  0.3801(熊) 0.3480(鯨)
OPS:  0.6844  0.6810  0.7113(誠) 0.6571(鯨)
IsoD:  0.0620  0.0685  0.0711(獅) 0.0484(熊)
IsoP:  0.1020  0.0890  0.1154(誠)  兄弟
RC*:  392.83  388.11  423.45(誠) 356.02(鯨)

(*RC使用OBP*TB的基本型,聯盟為平均值。)


多項數據聯盟之最      
     最高   最低    兄弟
HR:  68(熊)  38(兄弟)
HBP   72(象)  28(鯨)
TB:  1315(熊) 1152(鯨)   1175
K:   707(鯨)   563(牛)  574
BB:  327(誠)  201(牛)   278
SH:  86(誠)   42(熊)   85
SB:  84(鯨)   38(誠)    74