Разборка модели сверху / снизу НБА - как построить свою собственную модель

Для любого, кто был частью вселенной Gambling Twitter хотя бы неделю, вы знаете, что азартные игры, раздающие свои «10U Max Bomb Plays of the Month»,- это пруд пруди.

Если вы похожи на большинство из нас, я уверен, что вы нашли человека или троих, на которых вы подписаны, которые стали популярными, и вы вложили все силы в изучение их шаблонов и сообщений в Твиттере. Вы, вероятно, слепо следили за их выборами в течение нескольких дней, если не недель, и, увидев, как ваш финансовый капитал подпрыгивает вверх и вниз, как ЭКГ во время сердечного приступа, я уверен, вы удивитесь, увидев, что все эти ставки не попадание с заявленным винрейтом 75 +%.

Вы действительно поймете, что достигли дна, когда обнаружите, что платите кому-то авансом, чтобы получить доступ к его выборам, а затем платите букмекеру в конце, когда выборы, за которые вы заплатили, не выигрывают. Вы обнаруживаете, что говорите: «Я с этим покончил, позвольте мне разобраться, как самому принимать разумные решения!» Однако с чего начать?

Хорошо, хватит об истории моей жизни, давайте углубимся в мельчайшие подробности того, как вы можете создать модель NBA. Подсказка: если вы все еще находитесь на этой ужасной ступени, спасайтесь как можно быстрее!

Ключевые правила

Прежде чем мы начнем, давайте обязательно изложим основные правила. Во-первых, вам не обязательно быть опытным компьютерным программистом, чтобы создать модель (хотя вам нужно хорошо разбираться в Excel). Я лично не знаю ни одного компьютерного языка, кроме «охоты и клевания», и мне удалось создать довольно много разных моделей для разных видов спорта.

Во-вторых, нет четкого определения или требований для успешной модели. Это может быть простой инструмент, который вы используете для быстрого сравнения 3–5 ключевых показателей каждую ночь, или же модель вывода с углубленным прогнозированием, которая создает собственные категории показателей. Важная часть состоит в том, что вы продолжаете возиться с этим, пока не увидите, что начнете видеть результаты, которые вам нравятся.

И последнее, но не менее важное: давайте убедимся, что модель в основном основана на статистике и цифрах (не учитываем цвета майки, дни недели, относительную близость к океану, текущую фазу луны и т. Д.) И что мы сосредоточены на использовании числа, которые мы знаем, а не числа, которые, как нам кажется, мы можем предсказать.

Сбор данных и анализ

Этот последний момент был очень важным для меня, когда я создавал свою модель NBA Over / Unders. Я начал с загрузки всех возможных командных статистических данных за первые два месяца игр НБА в этом сезоне.

Я прошел и вычислил процент эффективных полевых мячей (eFG%), владения (Poss), темп, рейтинг атаки (ORtg), рейтинг защиты (DRtg) и множество других характеристик для каждой игры. Сначала я пошел по пути «В играх, где счет был ___, каков был eFG%, ORtg и т. Д.?» и попытался найти сильные корреляции.

Однако я быстро понял, что, используя этот тип анализа, я не смогу должным образом использовать статистику, которую я знал (eFG%), для прогнозирования статистики, которую я не знал (Общий балл). Вместо этого мне пришлось перевернуть егои спросить: «В играх, где eFG% был ___, каков был общий балл?»

Я хочу подчеркнуть, насколько важен этот шаг при рассмотрении разбивки статистической модели. Сосредоточьтесь на том, что вы знаете, а затем выясните, насколько хорошо это может коррелировать и предсказывать то, чего вы не знаете… а не наоборот!

Процент эффективных полевых целей

Если вы все еще следите за мной на этом этапе статьи, приготовьтесь, потому что мы собираемся полностью погрузиться в нее!

Давайте продолжим идти по пути эффективного FG%. В этом сезоне все 30 команд НБА имеют показатель наступательной eFG% от 49% до 56%. Этот диапазон почти идентичен и для защиты мяча.

В качестве примера возьмем вчерашний матч между Миннесотой (51% eFG) и Шарлоттой (50,3% eFG). Когда мы усредняем эти два показателя вместе, мы получаем ожидаемую комбинированную eFG 50,7%. Когда мы смотрим на то, сколько очков было набрано в играх этого года, где общий процент eFG был меньше 51%, мы видим вот что.

Как видите, с помощью этого графика рассеяния мы можем заставить Excel выдать нам линию тренда для данных и значение R-квадрата (насколько велика дисперсия в этих данных). В идеальном мире R-квадрат 1 означает, что ваша линия тренда не имеет дисперсии, а 0 означает, что корреляции нет вообще.

Я не думаю, что в мире спортивных азартных игр вы найдете что-либо выше 0,5, поэтому значение 0,29, которое выдают эти данные, довольно хорошее! Мы можем использовать линию тренда, чтобы проверить наши данные: 350,43x (0,507 eFG%) + 39,02 = 217 общих баллов с R-Squared 29%. Если мы используем тот же процесс для значений Defensive eFG для Миннесоты и Шарлотты, мы получим 227 общих баллов и R-квадрат 5%. Важно отслеживать наши различные значения R-квадрата для каждого из этих шагов, поскольку мы будем использовать их для создания средневзвешенного значения в конце.

Темп / Имущество

Следующее, что мы рассмотрим после eFG%, - это Pace / Possessions. Используя тот же процесс, что и выше, мы видим, что Шарлотта самая медленная в лиге (96,3), в то время как Миннесота играет в первой десятке (102,7). Усредняя их вместе, мы получаем ожидаемую скорость 99,5 для этого матча. Теперь предостережение: темп - это переменная с самой низкой корреляцией в моей модели. Ниже я привел пример того, как выглядит набор данных с наивысшим значением R (игры с комбинированным темпом выше 102,5). В нашем примере 99,5 линия тренда выглядит как 0,93x (темп 99,5) + 127,48 = 220 общих баллов и R-квадрат только 1%.

Рейтинг наступления и защиты

Наконец, мы добавим в модель рейтинги защиты и защиты. Что касается атакующей стороны, то Шарлотта (105,8) и Миннесота (107,8) находятся в нижней 10 строчке лиги, и их средний результат составляет 106,8. В играх, где ORtg ниже 107, у нас есть высокое значение R-Squared и линия тренда, которая выплевывает 2,02x (106,8 ORtg) +1,32 = 217 Total Points (R-Squared 39%). Используя числа DRtg, мы видим результат 226 очков и R-квадрат 28%.

Резюме и средневзвешенные значения

Теперь, когда мы проработали все числа, чепуха (также известная как сложный материал, который можно эффективно объяснить в статье), теперь мы можем собрать все воедино. Вот созданная мной матрица, которая помогает собрать всю информацию в одном месте.

Как вы можете видеть, средневзвешенное значение наступательных факторов составляет 216,9 общих баллов, в то время как защитные факторы показывают 226,2 общих балла. Если затем мы возьмем средневзвешенное значение обоих, мы получим ожидаемое значение 219,9 общих очков для этого матча на основе средних значений eFG% Minnesota и Charlottes, темпа, ORtg и DRtg за сезон.

Вчера вечером Лас-Вегас установил для этой игры показатель «Больше / Меньше» на уровне 228 (после выхода новостей о Карле Энтони Таунсе он упал до 225, но мы будем использовать 228, так как это то, что я получил вчера в Твиттере. утро). После небольшого проб и ошибок я остановился на 6-балльной дельте, которая является переломным моментом в выборе того, что мне следует делать - больше или меньше в игре. В данном случае, поскольку разница между Вегасом и моей моделью была чуть более 8 баллов, это была рекомендованная игра для Under, и она стала победной после того, как Шарлотта вчера вечером выиграла 115-108! Надеюсь, вы смогли приблизить число к начальной строке 228, и вам не пришлось так сильно потеть.

Результаты и уровень успеха

Что ж, вот и все, я думаю, мы прошли почти все. Последнее, что нам нужно коснуться, - это успешность этой модели. Вчера вечером модель показала колоссальные 5-0 (редкость, но огромная!), В результате чего мы получили 21-12 за последние 7 дней. Пока в этом сезоне больше рекомендаций составляет 60-41-2 (59,4%), а меньше рекомендаций - 50-52-2 (49,1%), что в совокупности составляет 110-93-4 (54,2%). Обычно я публикую дневные спектакли в своем Твиттере с 12 до 15 часов по тихоокеанскому стандартному времени, так что будьте начеку. Если у вас есть собственная модель или вы хотите поделиться со мной идеями, пожалуйста, свяжитесь с нами, и мы вместе проанализируем данные!

ПОПУЛЯРНЫЕ СТАТЬИ