Rで統計
ちょう便利な統計ソフトである。しかもフリーソフト。
うっしっし。
簡単に統計が可能なソフトを入れたので
試しに野球の数字を入れて、統計を行ってみることにした。
今回の統計で、目指すのは、
「野球において、最も勝率と密接に結びついている数字はなんなのか?」
である。
まず、2004のセパのデータから、各球団の勝率と得失点差を
Rにぶち込んでみる。
x <-c(0.590, 0.573, 0.509, 0.468, 0.432, 0.422, 0.678, 0.635, 0.478, 0.475,0.457,0.292)
y <- c(134,46,14,-15,-80,-113,160,245,-47,-57,-13,-274)
そして、相関係数を調べる。
[1] 0.960335
勝率と得失点差の間には960という超高い相関性があることが
わかった。2004だけのデータだが、おそらく、これは、
どの年もそうだろう。
どのスポーツの世界でも得失点差は
勝率と密接に結びついているから、当たり前なのだけど。
というわけで、マクロな視点でみるという立場からは
(つまり、1シーズン120試合を戦うということ)
得失点差のよいチームを作ることこそが、勝率のよい
チームを作るための早道ということになる。
では、ここで、さらに突っ込んで考える。
得点と相関性の強いデータ、失点と強い相関性のデータは
何なのか?
まずは得点から。
得点と打率の相関性を調べる。
> x <-c(738,662,640,637,618,623,739,731,718,649,622,630)
> y <- c(275,276,279,273,275,274,292,281,276,264,283,269)
> cor(x,y)
[1] 0.447778
相関係数が447と出た。
意外と低い。打率と総得点の間の相関性は低いので
打率の良い打者ばかり集めてもしょうがない事がわかる。
さて、ここで
XRという打者の評価手法がある。
計算方法は
eXtrapolated Runs (XR)
XR=単打×0.5+二塁打×0.72+三塁打×1.04+本塁打×1.44
+(四死球−故意四球)×0.34+故意四球×0.25+盗塁×0.18−盗塁死×0.32
−(打数−安打−三振)×0.09−三振×0.098−併殺打×0.37+犠飛×0.37+犠打×0.04
となる。
この数値のすごいことは、年間得点数を平均+-20点程度で予想できてしまう所だ。
プロ野球を10倍楽しく見るためのデータ集
上記のページから、2004年の全球団のXRを取得可能なので
XRと総得点の相関性を調べてみたい。
> x <-c(738,662,640,637,618,623,739,731,718,649,622,630)
> y <- c(766.50,703.33,684.45,674.66,660.31,627.99,786.35,739.45,734.67,670.53,652.89,635.87)
> cor(x,y)
[1] 0.9526233
と出た。相関係数952。これで得点と最も密接に結びついた数字は
XRで評価できるといってよいと思われる。
よって、120試合戦って総得点を伸ばす方法は
XR、特にXR27の高い選手を集める事が重要であるとわかる。
参考 XR27
XR27(eXtrapolated Runs per 27 outs)
[算出方法]
XR27=XR×27÷(打数−安打+盗塁死+併殺打+犠打+犠飛)
特定の選手が9人いる打線が、1試合に何点取れるかを見積もるための指標。
さて、次に失点、特に自責点とつながりの深いデータに移る。
お約束で、まずは被打率と自責点の関係から。
被安打率と防御率(2004セパ)
> x <-c(266,269,281,277,279,280,262,275,283,269,278,299)
> y <- c(3.86,4.09,4.50,4.70,4.75,4.47,4.29,4.40,4.48,4.58,4.74,5.69)
> cor(x,y)
[1] 0.8444814
ここが驚いた。相関係数844!!
被打率と自責点の間にはかなり密接なつながりがある。
打率と得点の間には、さほど強い関係は
なかったが、被打率と自責点の間には強い相関性が認められる!
次に被OPS(被出塁率+被長打率)の検証に入ろうと思うが
OPSは簡易版XRと思ってもらってよい。
> x <-c(742,738,783,788,790,790,758,780,791,768,797,851)
> y <- c(3.86,4.09,4.50,4.70,4.75,4.47,4.29,4.40,4.48,4.58,4.74,5.69)
> cor(x,y)
[1] 0.9451246
相関係数945。
被OPSと防御率の間には凄く強い相関性が認められる。
よって、ここでも防御率をよくするための方法は
被打率、被OPSを下げることが重要になる。
さて、全体を見た場合だが、長いペナントを戦う上では
球団は、得点を効率よく伸ばすためには打率をあげるだけでなく、
長打を効率よくうち、フォアでランナーをためる事も
特に重要になる。これは、XRの係数から明らかである。
よって、野球の長期攻撃プランでは、つなぐ野球よりも
長打とフォアを計算にいれて戦う方が長期的にはよいと
考えられる。
つまり、打率のみにこだわるのは上策ではない。
一方で、防御率をあげるためには、
防御率と被打率との相関性が高いことから
被打率を下げる事が重要であるため、
守備によってシングルやダブルを減らすこと、
また、三振を沢山とってグラウンドに球を飛ばさない事が
重要になってくる。
このあたりの統計結果をみるに
野球というスポーツは
攻撃においては、打率にこだわる必要性は低いが
防御、守備においては、被打率にこだわる必要性が高い
という結論が得られそうだ。
なんか、矛盾しているみたいだが、
野球においては、野手は多少打率が低くてもいいから
OPSやXR27が高く(長打があり、選球眼がいい選手)
守備の上手い選手を取ってくるのが上策と言えそうだ。
オークランド・アスレティックスのビリー・ビーンGMが採用している理論では、長打率と出塁率の高い選手を重用するとのことです。
マネー・ボール 奇跡のチームをつくった男
http://www.amazon.co.jp/exec/obidos/ASIN/4270000120/250-9134438-7112203