사이언스타임즈 로고

기초·응용과학
김홍재 칼럼니스트
2021-05-25

야구는 숫자놀음? “승부를 지배하는 숫자들” 과학이 만드는 야구 통계 ‘세이버메트릭스’

  • 콘텐츠 폰트 사이즈 조절

    글자크기 설정

  • 프린트출력하기

역대급 순위경쟁으로 프로야구 그라운드가 뜨겁게 달아오르고 있다. 지난 한 주 동안 2021 한국프로야구(KBO) 리그에서 1위에 올랐던 구단은 총 다섯 곳. 1위부터 6위까지 불과 2경기 차로 촘촘히 붙어있다보니 자고나면 1위가 바뀌어있는 말이 농담이 아닌 현실인 상황이다. 참고로 지난해 같은 기간 1위와 6위는 8.5경기, 2019년에는 10.5경기 차이가 났었다.

한치 앞을 내다보기 어려울 정도로 치열한 순위경쟁이 펼쳐지면서 즐거운 것은 각 구단을 응원하는 팬들의 마음이다. 지난 한 주 동안 1위에 올랐던 팀이 불과 4경기 만에 6위로 미끄러졌고 반대로 5위에 그쳤던 팀이 1위로 치고 올라섰다. 순위가 요동을 치면서 매 경기 손에 땀을 쥐게하는 치열한 승부가 펼쳐지니, 프로야구 팬들은 코로나19로 우울했던 마음을 한순간에 날려버리고 있다.

20연승의 금자탑을 쌓아 올린 숫자의 힘

“야구는 끝날 때까지 끝난 게 아니다.”

미국 프로야구 메이저리그(MLB) 뉴욕 양키스에서 올스타로 15회, MVP로 3회 선정되고, 우승 반지만 10개를 챙긴 전설적인 포수 요기 베라가 남긴 말이다. 야구는 9회말 2아웃 상황에서 상당한 점수 차로 이기고 있어도 절대 방심해서는 안된다. 경기 흐름이 바뀌면 아무리 점수 차가 크더라도 역전이 가능하며, 약팀이 강팀을 누르는 드라마틱한 승부가 매력이다.

아울러 야구는 기록의 스포츠이기도 하다. 경기가 시작돼 투수가 첫 번째 공을 던지는 순간부터 마지막 27번째 아웃 카운트를 잡을 때까지 모든 과정을 기록으로 남긴다. 야구 기록의 역사는 하루 이틀에 이뤄진 것이 아닌데, 심지어 지금으로부터 175년 전인 1846년 6월 19일 미국 뉴저지에서 열린 뉴욕팀과 니커보커팀의 경기가 기록으로 남아있을 정도다.

야구 경기가 거듭되면서 기록을 계속 쌓다보면 필연적으로 다양한 통계수치들이 발생한다. 타자의 경우는 타율과 타점, 도루. 홈런 등이, 투수에게는 평균자책점, 탈삼진, 승패, 세이브 등과 같은 기록들이 쏟아진다. 이처럼 통계(Statistics)에서 뽑은 선수 개인의 기록을 스탯(Stat)이라고 부르는데, 스탯은 그 선수가 뛰어난 선수인지 아닌지를 판단하는 기준으로 사용되고 있다.

예를 들어 당신이 야구 감독이라면 타율이나 타점이 높은 타자를 우선적으로 기용하고 평균자책점이 낮은 투수를 마운드에 올릴 것이다. 그런데 야구에서 너무나도 당연한 이와 같은 상식이 송두리째 무너지는 일이 미국 프로야구에서 발생했다.

2011년 개봉된 할리우드 영화 『머니볼』(Moneyball)은 세이버메트릭스를 활용해 오클랜드 애슬레틱스를 강팀으로 바꾼 빌리 빈의 이야기를 담고 있다. ⓒ 컬럼비아 픽처스

1990년대 후반 오클랜드 애슬레틱스(Oakland Athletics)는 스몰마켓(저예산) 구단으로 운영되면서 만년 하위권에서 벗어나지 못하는 암울한 상황이었다. 기적과 같은 변화는 1998년 빌리 빈이 단장으로 취임하면서 찾아왔다. 애슬레틱스의 살림살이는 전혀 나아진 게 없는데, 빈이 단장으로 재임한 18년 동안 무려 8차례나 가을야구에 참여하고 2002년에는 아메리칸리그에서 사상 최초로 20연승의 금자탑을 쌓아 올리기도 했다.

애슬레틱스의 놀라운 성공의 비결은 야구에 새로운 과학적 통계를 적극 활용한 것이었다. 빈 단장은 타율과 홈런 등 리그를 지배하던 화려한 스탯들보다 당시 저평가돼 있던 출루율과 장타율이 실제 득점을 올리는데 통계적으로 더 도움이 된다는 사실을 알고 적극 활용했다. 그는 확고한 자기 기준에 따라 타율은 낮더라도 출루율과 장타율이 높은 선수를 싼값에 영입해 출전 기회를 줬는데 결과는 대성공이었다.

빌리 빈 단장처럼 야구에서 각종 기록을 통계적, 수학적으로 분석한 후 활용하는 것을 세이버메트릭스라 부른다. 세이버메트릭스(Sabermetrics)라는 말은 통조림공장 경비원으로 일하면서 매일 저녁 MLB 경기를 관람하며 자신만의 방법으로 야구를 기록하고 연구하던 빌 제임스가 창안한 말이다. 자신이 만든 SABR(미국야구연구협회, The Society for American Baseball Research)에 계량(Metrics)이라는 단어를 합쳤는데, 빌 제임스는 “세이버메트릭스는 야구를 객관적으로 이해하려는 시도”라고 설명한다.

야구 선수의 능력을 평가하는 다양한 지표들

전통적으로 야구 타자에게 가장 중요한 능력치는 안타를 생산하는 능력인 타율과 득점 기회를 살리는 타점일 것이다. 하지만 타율은 장타든 단타는 똑같이 취급한다는 문제를 내포하고 있으며, 타점은 그 선수의 능력에 앞서 그의 앞에 출루하고 진루한 동료들의 능력에 의존하는 지표라는 한계가 있다. 야구 투수에게 가장 중요한 능력치는 승수와 평균자책점인데, 이 역시 투수 개인의 능력과 함께 수비수의 도움으로 만들어지는 기록이다.

세이버메트릭스는 야구의 기록을 통계적으로 분석해 궁극적으로 야구 선수의 독립적인 능력과 가치를 객관적으로 파악하는데 가장 큰 관심을 두고 있다. 전통적인 스탯들이 갖고 있는 한계를 극복하여 선수의 능력치를 정확히 평가하는 다양한 지표를 개발하려고 노력 중인데, 이 과정에서 이전에 무시 받던 유형의 선수에게 중요한 가치가 있다는 사실을 재발견하기도 한다.

야구 타자에 대해 사용하는 대표적인 세이버메트릭스 지표들. ⓒ 정리 김홍재

세이버메트릭스에서 타자에 대해 사용하는 지표 중 가장 유명한 것은 OPS(공격공헌도, On-base Plus Slugging)다. 매우 직관적인 지표로 출루율(OBP)과 장타율(SLG)의 합으로 구한다. 빌리 빈이 가장 중시했던 지표로 타율이 높고 발이 빠른 타자를 선호하던 당시 관점과 달리 느리고 둔해도 장타를 치고 볼넷을 많이 얻는 타자가 득점을 올리는 데는 더 크게 공헌한다는 사실을 보여준다.

OPS에서 출루율은 최대 1이고 장타율은 최대 4이기 때문에 장타율을 과대평가하는 경향이 있어, 최근에는 출루율에 가중치 1.8를 곱하는 GPA(총생산평균, Gross Production Average)를 많이 사용하는 추세다.

빌 제임스가 고안한 RC(득점생산력, Run Created)는 타자의 득점창출력을 나타내는 지표다. 팀에 베이스를 추가시키는 공격행위는 +값을 가지고, 베이스나 공격기회를 날리는 행위는 – 값으로 계산한다. 타격 이벤트뿐만 아니라 도루 등 주루, 희생타와 같은 팀배팅까지 모두 포함한다는 점이 특징이다. RC에서 발전한 RC/27(경기당 득점기여도, Run Created per 27 outs)은 특정 선수가 한 경기 모든 타석에 들어설 경우 팀이 몇 점을 득점할 것인지를 보여준다.

RC와 유사한 개념으로 XR(추정득점력, eXtrapolated Runs)이 있다. 팀 득점에 타자가 얼마나 기여했는지 나타내는 지표인데, MLB 공식기록을 회귀분석하여 도출한 선형공식이라는 점에서 정확도 면에서 RC보다 더 우수하다고 알려져 있다.

wOBA(가중출루율, weighted On Base Average)는 공격에 총체적으로 얼마나 기여했는가를 나타내는 타자의 생산성에 관한 지표이다. 타율이 갖고 있는 모든 안타를 동일한 가치를 부여한다는 문제점은 물론 출루율 가치가 저평가되어 있다는 문제점을 완벽하게 개선한 지표로 득점과 매운 높은 상관관계를 보인다.

WAR(대체선수 대비 승리기여도, Wins Above Replacement)는 리그에 평균적인 대체선수에 비해 팀 승리에 얼마나 기여했는지 보여주는 지표다. 타격이나 수비 등 하나의 기록으로 평가하는 지표가 아니라 한 선수가 기록한 거의 전 종목 성적을 가지고 계산하는데, 가장 공신력 있는 세이버메트릭스 통계량으로 인정받고 있다.

포지션에 따라 보정이 이뤄져 선수의 가치를 하나의 숫자로 표현한다는 점이 큰 장점으로, 심지어 타자와 투수의 객관적 비교도 가능하다. 하지만 야구 선수의 모든 요소를 계산해서 종합하는 통계량이기 때문에 계산하기 가장 까다로운 지표이기도 하다.

야구 투수에 대해 사용하는 대표적인 세이버메트릭스 지표들. ⓒ 정리 김홍재

세이버메트릭스에서 투수에 대한 지표 중 가장 유명한 WHIP(이닝당 출루허용률, Walks plus Hits divided by Innings Pitched)은 투수가 한 이닝당 얼마나 많은 주자를 출루시키는지 나타내는 지표다. 보통 WHIP이 1.1 이하의 수치를 보이면 특급 투수로 간주한다.

FIP(수비무관 평균자책점, Fielding Independent Pitching)은 투수의 순수한 능력을 평가하기 위한 지표로, 일단 타자가 방망이에 맞춰 그라운드 안으로 들어간 타구로 생긴 결과는 투수의 책임이 아니라는 신박한 논리에 바탕을 두고 있다. 그 공이 수비수가 있는 곳으로 날아갈지 아니면 안타가 될지는 투수의 능력이 아니라 운에 좌우되거나 팀이 수비력에 결정된다는 것이다. 따라서 정확한 투수의 능력은 오직 사사구 허용, 탈삼진, 피홈런 등 3가지 요소로만 측정해야 한다는 것인데, 막상 적용해 보니 상당히 그럴듯해 널리 사용되고 있다.

FIP이랑 밀접한 지표로 BABIP(인플레이 타구비율, Batting Average on Balls In Play)이 있는데, 투수가 던진 공이 타자의 배트에 맞았을 때 타구가 홈런을 제외하고 필드를 향할 때 안타가 될 확률이다. 초창기에는 A급 투수나 C급 투수나 인플레이 볼이 안타가 되는지 범타가 되는지 여부는 전혀 차이가 없다고 생각했는데, 통계적으로 삼진을 잘 잡는 투수와 땅볼을 잘 유도하는 투수는 BABIP이 낮은 것으로 확인되고 있다.

ERA+(조정 평균자책점, Earned Runs Average+)은 시대와 구장 효과를 감안하여 보정한 투수의 평균자책점이다. 조정 평균자책점의 기준점은 100이 되는데, 100을 초과하는 투수의 경우 평균 이상의 투수로 분류되며 숫자가 높을수록 더 뛰어난 투수라는 증거가 된다. 투수의 WAR은 타자와는 다른 방식으로 계산되지만 동일 선상에 두고 비교할 수 있는 지표다.

진화하는 세이버메트릭스의 미래

야구에서 야수의 수비는 득점에 상당한 영향을 미치는데, 객관적으로 평가하기 매우 까다로운 분야이다. 전통적으로 수비 능력을 나타내는 지표로 실책을 많이 사용했데, 이는 야수의 수비 범위와 적극성은 전혀 고려치 못해 매우 큰 한계를 갖고 있다.

세이버메트릭스를 통해 개발된 수비 지표로 RF(수비기여도, Range Factor)는 수비수가 한 경기 동안 몇 개의 아웃카운트에 관여하느냐를 보여주는 지표다. 아웃카운트에 많이 관여하는 수비수는 수비 범위가 넓은 좋은 수비수라는 의미인데, 수비 위치에 따라 타구가 많이 날아가는 방향이 있다는 점은 고려치 못하고 있다.

UZR(수비 기여도, Ulitmate Zone Rating)은 그라운드 페어지역과 파울 지역을 모두 64개 구역으로 나눠 각 구역마다 타구가 날아갔을 때 평균적인 결과를 기준으로 그 타구를 처리한 수비수에게 플러스나 마이너스 점수를 부여하는 방식으로 수비 능력을 계산한다. 타구의 난이도와 수비 범위까지 고려한 수비지표로 최근 사용이 많이 늘고 있다.

스탯캐스트에서 찾아본 토톤토 블루제이스의 에이스 류현진이 2021년에 던진 구종과 투구 분포. ⓒ MLB

기존에 난해했던 수비수 평가에 UZR과 같은 새로운 지표를 계산해서 사용할 수 있는 이유는 그라운드에서 야구공의 위치를 정확히 파악할 수 있기 때문이다. 정보통신기술(ICT)이 발달하고 스포츠에 적용되면서 팬들에게는 보는 즐거움을 제공하는 한편 야구는 더욱 정밀한 기록을 가질 수 있게 되었다.

MLB에서는 2006년부터 PITCH f/x 시스템을 도입해 투수가 공을 던질 때 초속과 종속은 물론 볼의 무브먼트, 회전율, 로케이션, 릴리스 포인트, 투구 궤적, 타구속도, 발사각 등을 세밀하게 파악하고 있다. 2015년에는 이보다 한층 진화된 스탯캐스트(Statcast) 시스템이 도입됐는데, 군사용 레이더까지 활용하여 경기장 내에서 일어나는 야구공에 대한 모든 정보는 물론 모든 선수의 움직임에 대한 정보까지 수집한다.

국내 프로야구에서도 2009년 PTS(투구추적시스템, Pitch Tracking System)을 도입해 투구의 세밀한 분석이 가능해졌고, 2019년부터는 FTS(필드추적시스템, Field Tracking System)를 도입해 볼 추적과 동시에 경기장 내 선수의 수비와 주루에 대한 데이터를 수집해 분석하고 있다.

세이버메트릭스는 기존에 만들어진 통계자료 활용하는 수준을 넘어 첨단과학으로 기록되는 다양한 데이터를 활용하는 영역으로 발전해나고 있다. 예를 들어 xwOBA(가중기대 출루율, eXpected Weighted On-Base Average)는 타구속도와 발사각도까지 계산에 활용하는데, 얼마나 질 좋은 타구를 생산하는지 보여주는 지표로 타구가 안타나 장타가 될 확률까지 보여준다.

MLB의 경우 한 팀은 ‘26인 로스터’에 든 26명의 선수로 구성된다. 선수단에 포함돼도 실제 출전 기회를 가지는 것은 또 다른 차원의 문제다. 한편 MLB 구단별로 적게는 30명에서 많게는 50명까지 선수들보다 훨씬 많은 인원이 달라붙어 매 경기를 실시간으로 분석하고 다양한 분석자료를 내놓고 있다. KBO 구단의 경우 데이터 분석에 참여하는 인원수는 좀 적겠지만 비슷한 상황이다.

야구에서 승리를 거두기 위해 세이버메트릭스는 더욱 정교하게 발전하고 있으며, 다양한 지표들이 끊임없이 개발되어 활용되고 있다. 세이버메트릭스가 매우 잘 만들어진 통계로 상당히 잘 들어맞기는 하지만 인간의 성장과 발전을 무시하며 과거에 만들어진 통계 숫자에 지나치게 집착하게 만든다는 비판도 존재한다.

김홍재 칼럼니스트
hongjaikim@gmail.com
저작권자 2021-05-25 ⓒ ScienceTimes

관련기사

목록으로
연재 보러가기 사이언스 타임즈에서만 볼 수 있는
특별한 주제의 이야기들을 확인해보세요!

인기 뉴스 TOP 10

속보 뉴스

ADD : 06130 서울특별시 강남구 테헤란로7길 22, 4~5층(역삼동, 과학기술회관 2관) 한국과학창의재단
TEL : (02)555 - 0701 / 시스템 문의 : (02) 6671 - 9304 / FAX : (02)555 - 2355
정기간행물 등록번호 : 서울아00340 / 발행인 : 조율래 / 편집인 : 김길태 / 청소년보호책임자 : 김길태
한국과학창의재단에서 운영하는 모든 사이트의 콘텐츠는 저작권의 보호를 받는 바 무단전재, 복사, 배포 등을 금합니다.

사이언스타임즈는 과학기술진흥기금 및 복권기금의 지원으로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다.