국내의 대표적인 빅데이터 전문가인 이상구 서울대 컴퓨터공학부 교수 겸 서울대 지능형 커머스 연구센터장. 사진 민학수 기자
국내의 대표적인 빅데이터 전문가인 이상구 서울대 컴퓨터공학부 교수 겸 서울대 지능형 커머스 연구센터장. 사진 민학수 기자

우선 퀴즈 하나를 풀어보자. 미국프로골프(PGA)투어에서 72홀 기준 한 대회 2.1m(7피트) 이상 거리에서 성공한 퍼트 거리의 합계가 가장 긴 선수는 누구일까?

정답은 재미교포 케빈 나(38·한국명 나상욱)가 2019년 슈라이너스 아동병원 오픈에서 기록한 170m다.

신기하지 않은가. 어떻게 이런 것까지 알아낼 수 있을까? 왜 이런 정보가 중요한 것일까. 당시 케빈 나의 우승 비결은 신기에 가까운 롱퍼팅 능력 덕분이었다. 당시 선수들의 모든 퍼트 거리와 성공 여부를 측정하지 않았다면 알아낼 수 없는 데이터다.

세계 골퍼들의 꿈의 무대로 통하는 PGA투어는 선수들의 샷에 관한 데이터의 보물 창고나 다름없다. 2003년 샷 측정 시스템을 도입한 이후 PGA투어가 주관하는 거의 모든 대회에서 모든 선수의 모든 샷 기록을 데이터로 보관하고 있다.

빅데이터를 통해 들여다보는 골프의 세계는 어떤 모습일까. 골프 실력을 향상시키는 비결도 그 속에서 찾아낼 수 있지 않을까. 이상구 서울대 컴퓨터공학부 교수 겸 서울대 지능형 커머스 연구센터장은 국내의 대표적인 빅데이터 전문가다.

골프에 관심이 많은 그는 2015년 이화여대 체육과학부 원형중 교수와 함께 한국여자프로골프(KLPGA)투어의 2008~2013년 주요 지표 데이터를 조사해 상금 순위와 평균 타수에 영향을 미치는 요인을 찾는 연관성 분석을 한 적도 있다.

이 교수와 함께 골프 빅데이터의 세계를 두 차례에 걸쳐 알아본다.


5월 17일 미 PGA투어 바이런 넬슨 대회에서 우승한 이경훈의 퍼팅 모습. 그의 올 시즌 퍼팅 이득 타수(Strokes Gained·라운드당 출전 선수 평균보다 이득을 본 타수)는 -0.256으로 전체 PGA투어 선수 중 최하위권인 161위였다. 하지만 6년 동안 쓰던 말렛 퍼터 대신 일자형(블레이드형) 퍼터를 들고 나와 퍼팅 이득 타수 1.127로 출전 선수 가운데 9위를 차지했다. 퍼팅으로 이번 대회 라운드당 1.127타의 이득을 봤다는 것이다. 사진 AP연합
5월 17일 미 PGA투어 바이런 넬슨 대회에서 우승한 이경훈의 퍼팅 모습. 그의 올 시즌 퍼팅 이득 타수(Strokes Gained·라운드당 출전 선수 평균보다 이득을 본 타수)는 -0.256으로 전체 PGA투어 선수 중 최하위권인 161위였다. 하지만 6년 동안 쓰던 말렛 퍼터 대신 일자형(블레이드형) 퍼터를 들고 나와 퍼팅 이득 타수 1.127로 출전 선수 가운데 9위를 차지했다. 퍼팅으로 이번 대회 라운드당 1.127타의 이득을 봤다는 것이다. 사진 AP연합

골프에서 왜 빅데이터를 수집할까.
“세상에서 일어나는 다양한 일들을 세세하게 기록한 산물인 빅데이터는 우리 주위의 상황을 정확히 들여다볼 수 있게 해주는 현미경 같은 역할을 한다. 예전에는 단편적으로 존재하던 다양한 정보들이 컴퓨터의 힘을 빌려 심층적 분석이 가능해졌으며, 이를 통해 과거와는 수준이 다르게 현실을 이해하는 인사이트와 예측력을 가질 수 있게 되었다. 빅데이터 분석에는 여러 종류가 있지만, 대표적으로 무엇이 결과에 어떻게 영향을 미치는지 알아내는 연관성 분석과 두 개 집단(예를 들면 프로와 아마추어)을 구분 짓는 대표적 특성을 찾아보는 비교 분석 등이 스포츠 과학에 주로 쓰인다.”

골프에서 어떻게 빅데이터를 수집하는지.
“PGA투어는 엄청난 예산을 투입해 데이터 수집 시스템인 ‘샷링크(Shotlink)’를 개발해 운영하고 있다. 대회당 300~400명의 인력(자원봉사자 포함)이 첨단 데이터 입력 장치를 이용해 이를 수집하고 입력한다. 다른 리그에선 이러한 데이터 수집을 하지 못하기 때문에 더 풍부한 데이터 자료를 내놓지 못하는 거다.”

‘퍼팅으로 얻은 이득 타수(Strokes Gained Putting)’라는 개념에서 이득 타수는 무슨 뜻이고 어떻게 계산하나.
“PGA투어에서만 사용하는 이 개념을 고안한 컬럼비아대 마크 브로디 교수는 데이터 분석과 골프 둘 다 매우 좋아하는 경영대 교수다. 금융 분야에서 데이터 기반의 의사결정 방법론 등을 전공했다. 그는 드라이브 거리, 평균 퍼팅 수 등이 타수에 어떻게 기여하는지 궁금해했다. 가령 내 드라이브 거리가 20m 증가하면 라운드당 몇 타 정도 줄어들까 하는 궁금증이다. 그래서 2011년 개발한 새로운 성과 및 능력 측정 방식이 ‘이득 타수(Strokes-Gained)’라는 개념이다. 가령 어느 코스의 1번 홀 그린에 온그린 된 모든 볼의 홀에서의 거리와 홀 아웃 타수가 모두 기록되었다고 가정해보자. 이제 A 선수가 친 공이 홀에서 15m 그린에 안착한 거리에서의 홀 아웃 평균 타수(PGA투어에선 이를 베이스라인⋅‘baseline’이라 부른다)를 알 수 있는데, 그것이 2.3타라고 하자. 그럼 2퍼트로 끝내면 그 그린에서 퍼팅으로 A가 이득을 본 타수는 평균에 비해 0.3타가 되는 것이고, 3퍼트로 끝냈다면 A의 이득은 -0.7타(즉, 손해)가 되는 것이다.”

왜 이렇게 복잡한 개념을 만들어 냈을까.
“기존에 사용하던 라운드당 평균 퍼트 수가 무의미한 지표일 수도 있기 때문이다. 평균 퍼트 수가 29개로 똑같은 A와 B 선수가 있을 때 두 사람의 퍼팅 능력이 같다고 할 수 있을까? A 선수는 아이언샷이 좋아서 온그린 했을 때 홀에서의 평균 거리가 5m이고, B 선수는 아이언 정확도가 좀 떨어져 온그린 시 홀에서의 평균 거리가 15m라면, B 선수의 퍼트 수 29개는 매우 잘한 것인 데 비해 A 선수의 퍼팅 능력은 평균 또는 그 이하 정도일 뿐이니, 같은 29개라는 수가 달리 해석되어야 할 것이다. 한발 더 나가 어떤 선수가 계속 그린을 놓쳐서 칩샷 등으로 온그린을 했다면 퍼트 수는 많이 줄어들 것인데, 그날 퍼트가 잘됐다고 할 수 있을까? 기존에 사용하던 ‘라운드당 평균 퍼트 수’나 ‘온그린 시 평균 퍼트 수’만으로는 선수의 퍼팅 능력이 경기에 기여한 정도를 나타내기에는 역부족이기 때문에 ‘퍼팅으로 얻은 이득 타수’를 만들어 낸 것이다. 그 이후 이득 타수 개념을 확장해 티샷으로 얻은 이득 타수(SG·off-the-tee=파 4홀과 파 5홀에서 티샷 능력 평가)와 어프로치샷으로 얻은 이득 타수(SG⋅approach-the-green=그린을 향해 쏜 30야드 이상의 아이언 및 우드샷 능력 평가), 그린 주변 샷으로 얻은 이득 타수(SG·around-the-green=퍼팅을 제외한 그린 주변 30야드 이내의 샷 알아보기) 등 다양한 이득 타수 개념을 데이터로 활용하고 있다.”

KLPGA투어 데이터를 조사한 적이 있는데 어떤 샷 능력이 좋은 선수가 상금을 많이 받았나.
“2008~2013년 각 연도의 선수별 상금액과 대회 라운드별 타수, 퍼팅 수, 이글 수, 버디 수, 그린 적중률, 드라이브 거리, 페어웨이 안착률 등 주요 지표 전체 데이터를  대상으로 해서 연관성을 분석했다. 당시 상금 순위 상위권에선 파온을 하지 못했을 때 파 이상의 스코어를 기록하는 스크램블링 능력과 아이언샷의 정확성을 볼 수 있는 그린 적중률이 좋은 신지애, 서희경, 이보미, 김하늘과 장타자인 장하나, 김세영, 안선주 선수를 볼 수 있었다. 하지만 국내 대회에선 경기 진행 속도가 느려지는 것을 우려해서인지 러프가 그리 길지 않기 때문에 페어웨이 적중률은 큰 의미가 없었다. 그리고 퍼팅의 모든 거리가 측정되지 않기 때문에 퍼팅 지표도 정확히 계산할 수 없었다.”