このブログの人気エントリを読みたい方はこちら
もう一つのブログはこちらです。

2005年09月03日

野球の数字を解析してみるの事

Rというソフトを入れてみた。

Rで統計

ちょう便利な統計ソフトである。しかもフリーソフト。
うっしっし。


簡単に統計が可能なソフトを入れたので
試しに野球の数字を入れて、統計を行ってみることにした。

今回の統計で、目指すのは、
「野球において、最も勝率と密接に結びついている数字はなんなのか?」
である。

まず、2004のセパのデータから、各球団の勝率と得失点差を
Rにぶち込んでみる。

x <-c(0.590, 0.573, 0.509, 0.468, 0.432, 0.422, 0.678, 0.635, 0.478, 0.475,0.457,0.292)
y <- c(134,46,14,-15,-80,-113,160,245,-47,-57,-13,-274)

そして、相関係数を調べる。

[1] 0.960335

勝率と得失点差の間には960という超高い相関性があることが
わかった。2004だけのデータだが、おそらく、これは、
どの年もそうだろう。

どのスポーツの世界でも得失点差は
勝率と密接に結びついているから、当たり前なのだけど。

というわけで、マクロな視点でみるという立場からは
(つまり、1シーズン120試合を戦うということ)
得失点差のよいチームを作ることこそが、勝率のよい
チームを作るための早道ということになる。

では、ここで、さらに突っ込んで考える。
得点と相関性の強いデータ、失点と強い相関性のデータは
何なのか?

まずは得点から。

得点と打率の相関性を調べる。

> x <-c(738,662,640,637,618,623,739,731,718,649,622,630)
> y <- c(275,276,279,273,275,274,292,281,276,264,283,269)
> cor(x,y)
[1] 0.447778

相関係数が447と出た。
意外と低い。打率と総得点の間の相関性は低いので
打率の良い打者ばかり集めてもしょうがない事がわかる。

さて、ここで
XRという打者の評価手法がある。
計算方法は

eXtrapolated Runs (XR)
XR=単打×0.5+二塁打×0.72+三塁打×1.04+本塁打×1.44
 +(四死球−故意四球)×0.34+故意四球×0.25+盗塁×0.18−盗塁死×0.32
 −(打数−安打−三振)×0.09−三振×0.098−併殺打×0.37+犠飛×0.37+犠打×0.04

となる。
この数値のすごいことは、年間得点数を平均+-20点程度で予想できてしまう所だ。

プロ野球を10倍楽しく見るためのデータ集

上記のページから、2004年の全球団のXRを取得可能なので
XRと総得点の相関性を調べてみたい。

> x <-c(738,662,640,637,618,623,739,731,718,649,622,630)
> y <- c(766.50,703.33,684.45,674.66,660.31,627.99,786.35,739.45,734.67,670.53,652.89,635.87)
> cor(x,y)
[1] 0.9526233

と出た。相関係数952。これで得点と最も密接に結びついた数字は
XRで評価できるといってよいと思われる。

よって、120試合戦って総得点を伸ばす方法は
XR、特にXR27の高い選手を集める事が重要であるとわかる。


参考 XR27
XR27(eXtrapolated Runs per 27 outs)

[算出方法]
 XR27=XR×27÷(打数−安打+盗塁死+併殺打+犠打+犠飛)

特定の選手が9人いる打線が、1試合に何点取れるかを見積もるための指標。







さて、次に失点、特に自責点とつながりの深いデータに移る。

お約束で、まずは被打率と自責点の関係から。

被安打率と防御率(2004セパ)
> x <-c(266,269,281,277,279,280,262,275,283,269,278,299)
> y <- c(3.86,4.09,4.50,4.70,4.75,4.47,4.29,4.40,4.48,4.58,4.74,5.69)
> cor(x,y)
[1] 0.8444814

ここが驚いた。相関係数844!!

被打率と自責点の間にはかなり密接なつながりがある。
打率と得点の間には、さほど強い関係は
なかったが、被打率と自責点の間には強い相関性が認められる!

次に被OPS(被出塁率+被長打率)の検証に入ろうと思うが
OPSは簡易版XRと思ってもらってよい。

> x <-c(742,738,783,788,790,790,758,780,791,768,797,851)
> y <- c(3.86,4.09,4.50,4.70,4.75,4.47,4.29,4.40,4.48,4.58,4.74,5.69)
> cor(x,y)
[1] 0.9451246

相関係数945。
被OPSと防御率の間には凄く強い相関性が認められる。


よって、ここでも防御率をよくするための方法は
被打率、被OPSを下げることが重要になる。




さて、全体を見た場合だが、長いペナントを戦う上では
球団は、得点を効率よく伸ばすためには打率をあげるだけでなく、
長打を効率よくうち、フォアでランナーをためる事も
特に重要になる。これは、XRの係数から明らかである。

よって、野球の長期攻撃プランでは、つなぐ野球よりも
長打とフォアを計算にいれて戦う方が長期的にはよいと
考えられる。

つまり、打率のみにこだわるのは上策ではない。


一方で、防御率をあげるためには、
防御率と被打率との相関性が高いことから
被打率を下げる事が重要であるため、
守備によってシングルやダブルを減らすこと、
また、三振を沢山とってグラウンドに球を飛ばさない事が
重要になってくる。


このあたりの統計結果をみるに
野球というスポーツは

攻撃においては、打率にこだわる必要性は低いが
防御、守備においては、被打率にこだわる必要性が高い


という結論が得られそうだ。
なんか、矛盾しているみたいだが、

野球においては、野手は多少打率が低くてもいいから
OPSやXR27が高く(長打があり、選球眼がいい選手)
守備の上手い選手を取ってくるのが上策と言えそうだ。





posted by pal at 18:01 | Comment(4) | TrackBack(0) | 野球 このエントリーを含むはてなブックマーク | 編集
この記事へのコメント
大リーグのどこだかのチームで、出塁率優先で選手を集めて良好な成績を残しているところがあるなんて話もありましたね。
Posted by おぞん at 2005年09月04日 16:10
>おぞんさん
オークランド・アスレティックスのビリー・ビーンGMが採用している理論では、長打率と出塁率の高い選手を重用するとのことです。

マネー・ボール 奇跡のチームをつくった男
http://www.amazon.co.jp/exec/obidos/ASIN/4270000120/250-9134438-7112203
Posted by てっしー at 2005年09月05日 19:03
どもです>てっしーさん
Posted by おぞん at 2005年09月07日 19:34
被長打率等、ややマニアックなデータはどちらで入手されているのでしょうか?
Posted by R使い at 2007年01月11日 00:35
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。