本文最後由 AIR 於 2009-4-7 23:40 編輯
進入這篇之前,建議先看 wcbs 在建民風引發熱烈討論的這篇文章。
關於 GIRLFRIEND 提供的 F-score,我來講解一下,其實兩三個月前就有想過要寫類似文章,只是被一些雜事和更想寫的題目纏住,現在我會盡量用簡單的方式,讓大家了解這個數字的意涵,先來看一下公式內容,我們之後會用到它們
Recall = tp/(tp+fn)
Precision = tp/(tp+fp)
F-score = 2 * Recall * Precision / (Recall + Precision)
首先我們要先把4基本的參數做一個解釋
tn=ZSwing% * Zone% 球進入好球帶的比例*打者揮好球帶內球的比例 (好球揮擊)
fn=OSwing% * (1-Zone%) 球未進入好球帶的比例*打者揮好球帶外球的比例 (追打壞球)
fp=(1-ZSwing%) * Zone% 球進入好球帶的比例*打者未揮好球帶內球的比例 (好球不揮)
tp=(1-OSwing%) * (1-Zone%) 球未進入好球帶的比例*打者未揮好球帶外球的比例 (不追打壞球)
tn, fn, tp, fp分別是true negative, false negative, true positive, false positive的縮寫,這四個東西看似很複雜其實只是把所有的情況闡述,舉個例子,我們玩樂透彩卷時有幾種情況呢? 1.買了彩卷,簽下想簽的號碼(true negative) 2.買了彩卷,沒簽號碼(false positive) 3.決定了要簽的號碼,卻沒買彩卷(false negative) 4.沒簽號碼也沒買彩卷(true positive)。
再來,這個F-score的概念是設定打者為一個壞球的偵測器,所以當打者可以判斷球是否進入好球帶時,代表著是否買了彩卷,當打者揮擊時代表決定簽號碼的動作。
我們先聚焦在fn與fp兩項,因為Recall與Precision只有分母不同,而不同就在於fn與fp,fn = 球未進入好球帶的比例*打者揮好球帶外球的比例(決定了要簽的號碼,卻沒買彩卷),fp = 球進入好球帶的比例*打者未揮好球帶內球的比例(買了彩卷,沒簽號碼),而這兩項對評判打者的選球都是負面選項(而套到彩卷上就是屬於徒勞無功的動作),接下來的重點是: 這兩項參數帶到F-score會有怎樣的變化。
我們再回到F-score,我不打算深入harmonic mean等等的統計學,且為了方便,我把Recall = A, Precision = B, 則F-score = 2AB / (A + B), 在經過運算後, 它會是:
F-score = 2AB / (A + B) = 2 / (1/A + 1/B) = 2tp / (2tp + fn + fp)
好了,現在可以看出來當fn(追打壞球),fp(好球不揮)上升時,F-score會減小,而tp(不追打壞球)上升時,F-score會增加(註),這些參數的變化的確可以反映到F-score,換句話說符合了所謂"壞球的偵測器"的定義,但真正的問題是: 真的可以把打者視為壞球偵測器嗎?
F-score這類相關數字是過程的紀錄,而SO%, BB%, BOP之類的數字是結果的呈現,過程與結果可能會有落差,我們很可能不能從其中一項來認定打者到底是否善於plate dicipline,更精確一點的說,他們揮打壞球的時候就真的是被投手給愚弄了嗎?
不見得。
每個打者的好球帶都不同,揮擊策略也不一樣,有些是好球帶較寬,打者判斷可以揮就揮,而有些球員確實有能力把較邊角的球擊出形成安打,犧牲掉一部分我們認知的dicipline,尋求把球打入場內,而有些是會放過幾球,再做出擊,還有,當球員長出Power或是Hits machine時,投手會投更邊角的球來引誘,根據GIRLFRIEND提供Ayukawayen的blog有整理出來,Adam Dunn高達77.93%,F-score還給Dunn清白,證明了他不是盲砲,但Ichiro的F-score是69.25%,掉在100名之外,不過我們都知道他的打擊習性,Ichiro球棒的控制與擊球點掌控的能力實在太優異,當他過於追求好球帶以外的球不做揮擊時,成績可能反而會弱化,如果我們把Dunn與Ichiro的OBP拿來比較,Ichiro就不會差Dunn太多。另外,Mauer就是會等球的那種,只看F-score會低估他。
至於最先引起話題的Cano是哪裡不對勁? 無論是先前提到的F-score或是wcbs提供的數據,Cano看起來並不差到哪,但是回到BB%, K%, BB/K這些數字,就一如往常的糟,但他前幾季也很糟,為什麼今年的打擊三圍卻大幅滑落?或許我們可以從BABIP看出一點端倪,今年AL的平均BABIP是.305,而Cano今年的BABIP是.286,沒有誇張的低,但對照他前兩年的.363與.331,今年運氣沒有和他在一起,但只是運氣嗎?我們知道Cano今年糟糕的表現要歸咎於他季初的夢靨,THT有一篇文章在探討這個問題,簡單的說,他在球季初的成績差勁無比,外角變速球對Cano而言是致命的糖果,很有可能當時的所有選球數據都是一塌糊塗,而約在明星賽後才恢復成為過去的他,以至於他的ZSwing%, OSwing%這些記錄過程的數字逐漸修回,但BB%, K%, BB/K還是維持過去水準,那Cano的plate dicipline到底好不好?
說實在,我認為不怎麼樣。
儘管他記錄過程的數字找回水準,但這樣的球員一旦陷入低潮,很可能就是比其他打者還掙扎的災難,因為無論他對決投手過程的數字再怎麼不糟,投手還是會在一開始跟他正面對決,當球數領先後就投變化球玩他,可能投在好球帶外,可能在好球帶邊緣,當他不能設定攻擊區域或忍住一些球時,就會擊成軟綿綿滾地或是小飛球,呈現結果的數字會告訴我們他表現的很差,而且他不是Ichiro。
數據背後仍有許多變數,但不否認OSwing%, F-score這些數據值得大家參考,至於若要更準確評判球員,我想還是要多拿幾項數字來比較一下,可能會有較為確切的結論。
註: 1/(F-score) = 1 + fn/2tp + fp/2tp |
|