Вероятность выигрыша

Для сезона НФЛ 2015 и постсезонья модель рейтингов команд правильно вернула победителя в 199 из 267 игр (74,53%). Этот показатель успеха увеличивался по мере увеличения достоверности вероятности; когда вероятность выигрыша составляет не менее 65%, модель правильно предсказывала команду-победителя в 80% случаев. При прогнозируемой вероятности выигрыша 90% модель оказалась верной в 35 из 36 игр. Неудивительно, что одним из неверных прогнозов было поражение «Каролина Пантерз» со счетом 20–13 от «Атланта Фэлконс» на 16 неделе, которое положило конец заявке «Пантер» на идеальный сезон и снизило их рекорд до 14–1.

Модель Вегаса предсказывала победителя 170 раз из 267 игр с процентом выигрыша 63,7%, поэтому модель рейтингов команд превзошла линейку Вегаса на 29 игр. Модель рейтингов команд превзошла линию Вегаса в 67,4% смоделированных ставок на спред, выиграв 174 ставки при проигрыше 84. Модель рейтингов команд также составляла 10 из 11 в ставках на плей-офф, включая чемпионаты конференции и Суперкубок. Из шести моделей модель командных рейтингов отдавала предпочтение Каролине над Денвером на 2,64 балла в Суперкубке.

Футбол — MLS

9.3 Логистическая вероятностная модель

Логистическая модель выглядит следующим образом:

Здесь b 0 обозначает параметр преимущества домашнего поля, bh обозначает значение параметра рейтинга команды хозяев, а ba обозначает значение параметра рейтинга команды гостей. Значение y * обозначает вероятность того, что команда хозяев выиграет игру. Рейтинги команды по логистической вероятности определяются с помощью оценок максимального правдоподобия и показаны в таблице 9.1.

Оценка спреда

Расчетный спред (то есть победный запас команды хозяев) определяется с помощью второго анализа, в котором мы регрессируем фактический спред команды хозяев на расчетную вероятность y * (в качестве входной переменной). Эта регрессия имеет вид:

Эта модель теперь обеспечивает взаимосвязь между вероятностью победы логистической команды хозяев поля и процентом выигрыша команды хозяев. Здесь важно отметить, что аналитикам может потребоваться внести корректировку в расчет спреда, если результаты данных искажены (см. Главу 3: Вероятностные модели).

Решение этой модели (таблица 9.4):

Таблица 9.4. Регрессия логистической вероятности: 2015 MLS

Статистика Стоимость t -Stat
а 0-1,409−2,7
а 13,0264.0
b 0 (преимущество домашнего поля)0,726
R 2 4,22%
F -значение15,623
Стандартная ошибка1,580

Следовательно, после вычисления вероятности победы домашней команды ожидаемый разброс оценивается по следующему уравнению на основе результатов регрессии:

График, иллюстрирующий предполагаемый разброс из оценок вероятности, показан на рис. 9.6.

Рисунок 9.6. Модель логистической вероятности: 2015 MLS.

Представление

Прогнозы логистической вероятностной модели были правильными в 195 из 357 матчей с скорректированным процентом выигрыша 65,0%. Это улучшение по сравнению с линией Vegas, которая предсказывала команду-победительницу только 187 раз для скорректированного процента выигрыша 62,7%.

Гости были фаворитами в 25 из 357 матчей с максимальной вероятностью победы 65,7%; фавориты гостей пошли 10–12–3 в этих 25 играх. Вероятность победы фаворитов домашней команды достигла 89,1%, как и у Red Bulls в сентябрьском матче против Chicago Fire, который «Нью-Йорк» выиграл со счетом 3–2. Когда вероятность победы составляла не менее 80%, фавориты выбирали 27–4–5, скорректированный процент выигрыша составлял 81,9%.

В плей-офф фавориты логистической вероятностной модели выиграли 12 из 17 матчей и проиграли 3 при 2 ничьих.

Рейтинги

Восемь лучших команд в логистическом рейтинге - Нью-Йорк Ред Буллз, Портленд, Даллас, Лос-Анджелес, Сиэтл, Колумбус, Канзас-Сити и Новая Англия - все вышли в плей-офф. Команда San Jose Earthquakes, занявшая 9-е место, была лучшей командой вне плей-офф, за ней следует Real Salt Lake, занявшая 12-е место. Две команды плей-офф, не вошедшие в топ-12, были DC United (13-е место) и Toronto FC (No. 16). Команда Portland Timbers, выигравшая Кубок MLS, заняла 2-е место.

Пример

Торонто занял 16-е место среди 20 команд с рейтингом логистики 2,3105, в то время как рейтинг Red Bulls 3,1296 возглавил Высшую футбольную лигу. Несмотря на большой разрыв между двумя рейтингами, модель логистической вероятности отдает предпочтение Нью-Йорку с относительно небольшим отрывом, во многом благодаря параметру преимущества домашнего поля:

Затем мы можем взять эту вероятность и объединить ее с параметрами регрессии b 0 (-1,409) и b 1 (3,027), чтобы оценить, что этот матч приведет к очень узкой победе Торонто:

Баскетбол — НБА

7.3 Логистическая вероятностная модель

Модель логистической вероятности определяет рейтинг силы команды только на основании результатов игры, например, выиграла ли команда, проиграла или сыграла вничью. Результат игры определяется с точки зрения хозяев поля, но аналитики могут использовать тот же подход с точки зрения команды гостей.

Логистическая модель выглядит следующим образом:

Здесь b 0 обозначает параметр преимущества домашнего поля, bh обозначает значение параметра рейтинга команды хозяев, а ba обозначает значение параметра рейтинга команды гостей. Значение y * обозначает вероятность того, что команда хозяев выиграет игру. Рейтинги команды по логистической вероятности определяются с помощью оценок максимального правдоподобия и показаны в таблице 7.1.

Оценка спреда

Расчетный спред (то есть победный запас команды хозяев) определяется с помощью второго анализа, в котором мы регрессируем фактический спред команды хозяев на расчетную вероятность y * (в качестве входной переменной). Эта регрессия имеет вид:

Эта модель теперь обеспечивает взаимосвязь между вероятностью победы логистической команды хозяев поля и процентом выигрыша команды хозяев. Здесь важно отметить, что аналитикам может потребоваться внести корректировку в расчет спреда, если результаты данных искажены; (см. главу 3: Вероятностные модели).

Решение этой модели (таблица 7.4):

Таблица 7.4. Регрессия логистической вероятности: 2014–2015 NBA

Статистика Стоимость t -Stat
б 0-14,003−15,6
б 128,46619,6
b 0 (Преимущество домашней площадки)0,387
R 2 22,61%
F -значение382 473
Стандартная ошибка11,893

После вычисления вероятности победы команды хозяев, ожидаемый разброс оценивается по следующему уравнению на основе результатов регрессии:

График, показывающий предполагаемый разброс из оценок вероятности, показан на рис. 7.6.

Рисунок 7.6. Модель логистической вероятности: НБА 2014–2015 гг.

Представление

Логистическая вероятностная модель имела точность 69,8% для выбора победителя, поскольку команды, которым она отдавала предпочтение, выиграли 915 из 1311 игр в регулярном сезоне и плей-офф. Модель логистической вероятности также оказалась очень хорошим предсказателем разницы в победе с R 2 = 22,6% и стандартной ошибкой 11,89. Стандартная ошибка линии Vegas - 11,82.

Фавориты модели выиграли 741 из 984 игр с прогнозируемой вероятностью выигрыша 60% и выше, с коэффициентом 75,3%. Когда вероятность выигрыша была выше 85%, их процент побед вырос до 91,1%. Самым большим огорчением стала победа «Никс» на выезде в Атланте в апреле; эта модель давала «Ястребам» шанс на победу 94,5%, что сделало Нью-Йорк проигравшим 17: 1. Хозяева были фаворитами 61,7% времени.

Рейтинги

На вершине логистического рейтинга доминировали команды Западной конференции, во главе с будущим чемпионом НБА Голден Стэйт Уорриорз, а затем Хьюстон Рокетс, Лос-Анджелес Клипперс и Мемфис Гриззлис. Только две из девяти лучших команд прибыли из Восточной конференции: Atlanta Hawks под номером 5 и Cleveland Cavaliers под номером 6.

Команды, вышедшие в плей-офф, заняли 11 лидирующих мест в логистическом рейтинге. Оклахома-Сити Тандер, не вышедший в плей-офф, занял 12-е место, опередив пять команд, в том числе 13-е место Торонто Рэпторс, четвертое место в Восточной конференции. В нижней половине рейтинга команды Восточной конференции превосходили своих западных коллег по численности 2: 1.

Пример

Логистический рейтинг Warriors составил 4,2544, а Сан-Антонио занял седьмое место с 3,3412. До сих пор модели игровых результатов и статистики команды предсказывали чрезвычайно узкую победу Golden State. Модель логистической вероятности отдает предпочтение Воинам с несколько большим отрывом:

Затем мы можем взять это значение и объединить его с параметрами регрессии b 0 (-14,003) и b 1 (28,466), чтобы оценить, что этот матч должен привести к победе Golden State почти с 3½ балла и вероятности победы 38,65% для Шпоры и 61,35% для Воинов:

Транзитивное сравнение случайных величин

15.1 Введение

Давайте рассмотрим три конкретных кубика A , B и C , на гранях которых вместо обычных чисел нанесены следующие целые числа:

Обозначая через P ( X , Y ) вероятность того, что кубик X выиграет из кубика Y , мы имеем PAB = 20 36, PBC = 25 36 и PCA = 21 36. С точки зрения игроков, естественно сказать, что игральные кости X строго лучше, чем кости Y (обозначение: X >s Y ), если PXY>1 2, что отражает тот факт, что игральные кости X выигрывают из кубиков Y в долгосрочной перспективе (или что X статистически выигрывает у Y ). В приведенном выше примере A >s B , B >s C и C >s A , что означает, что для любой кости ровно одна из оставшихся всегда строго лучше. Обратите внимание, что P ( Y , X ) = 1 - P ( X , Y ), что означает, что отношение>s асимметрично. Также в этом случае отношение>s не транзитивно и образует цикл. Сформулируя это наблюдение по-другому, если мы интерпретируем вероятности P ( X , Y ) как составляющие значимого отношения на пространстве альтернатив A ,B , C >, то это значимое отношение даже не является слабо стохастическим транзитивным.

Приведенный выше пример можно обобщить в следующем смысле. Во-первых, можно рассматривать произвольное (но фиксированное) количество игральных костей m ≥ 2, причем каждая игральная кость характеризуется набором целых чисел A i . Во-вторых, каждый набор A i может содержать n i целых чисел, причем n i не обязательно равно шести. Другими словами, мы позволяем кубику иметь любое количество граней, но не заботимся о том, может ли такой кубик материализоваться. Наконец, мы не настаиваем на наличии взаимно различных чисел на гранях одной кости или между разными игральными костями.

Имея набор из m таких обобщенных игральных костей, мы все еще можем построить вероятностное отношение, содержащее вероятности выигрыша для каждой пары игральных костей (с учетом также возможных возможностей). Напомним , что вероятностный отношение Q на множестве альтернатив является А 2 → [0, 1] отображение такое , что Q ( , б ) + Q ( Ь , ) = 1 для любого а , б , в A . Вероятностные отношения появляются под разными именами, такими как взаимные или двойственные отношения.

Набор обобщенных игральных костей вместе с вероятностным соотношением вероятностей выигрыша среди этих игральных костей называется дискретной моделью игральных костей. Другими словами, в дискретной модели игральных костей каждой альтернативе a i ∈ A назначается мультимножество A i, состоящее из n i номеров. Концепция обобщенных игральных костей и вероятностей выигрыша среди них - лишь один из способов определения вероятностного отношения. В более общем плане число Q ( a , b ) может, например, выражать степень предпочтения альтернативы a альтернативе b.. Вероятностные отношения служат популярным представлением различных моделей реляционных предпочтений [4, 11, 19]. В отличие от Basile [3], наша цель не состоит в том, чтобы разрешить прокомментированное циклическое поведение, но, как показано в начальном примере, нас особенно интересуют свойства вероятностного отношения, которые концептуально связаны с транзитивностью. Обычно в качестве возможных типов транзитивности рассматриваются различные виды стохастической и нечеткой транзитивности, но в последнее время появились сообщения о более общих наборах свойств транзитивности, таких как FG -транзитивность [20, 21] и циклическая транзитивность [5, 7]. на. В частности, будет показано, что вероятностное отношение дискретной модели игральных костей демонстрирует особый тип транзитивности, которую мы будем называть транзитивностью игральных костей.

Уже установлены различные другие модели для генерации и представления вероятностных отношений, хорошо известна модель полезности, в которой каждой альтернативе a i ∈ A присваивается номер полезности ui ∈ ℝ и для которой сгенерированные вероятностные отношения обладают сильными свойствами транзитивности [ 20]. На другом конце шкалы транзитивности находятся вероятностные соотношения, порожденные так называемой многомерной моделью [20], которая, в общем, обладает лишь свойством слабой транзитивности Лукасевича.

Можно также дать чисто вероятностную интерпретацию дискретной модели игральных костей в том смысле, что игральные кости или целочисленные мультимножества A i могут быть связаны с (независимыми) дискретными случайными величинами X i , которые равномерно распределены на этих мультимножествах A i , тогда как вероятностные отношение Q можно рассматривать как количественное описание попарного сравнения этих случайных величин. Если придерживаться этой вероятностной интерпретации, то, очевидно, нет причин ограничивать модель только дискретными однородными случайными величинами.

Модель дискретных игральных костей была обобщена на наборы независимых дискретных или непрерывных случайных величин с произвольным распределением вероятностей, и было показано, что сгенерированные вероятностные отношения, которые обеспечивают альтернативу концепции стохастического доминирования [14], по-прежнему остаются транзитивными. . Более того, неудивительно, что при рассмотрении случайных величин с распределениями, все принадлежащими параметрическому семейству вероятностных распределений, встречаются более сильные версии транзитивности.

Дальнейшее обобщение состоит в том, чтобы позволить случайным величинам быть зависимыми. Для попарного сравнения таких случайных величин нужны двумерные маргинальные распределения. В настоящем подходе эти двумерные распределения искусственно построены с помощью заданной связки и поэтому могут отличаться от реальных двумерных распределений. Выбранная связка определяет своего рода минимальную транзитивность, которую демонстрирует соответствующее вероятностное соотношение. Помимо копулы произведения, которая соответствует предположению о независимости и приводит к вероятностным отношениям, транзитивным по костям, особый интерес представляют две крайние связки, а именно минимальная копула и копула Лукасевича. В этих крайних случаях и для дискретных случайных величин на конечных множествахсоответствующее вероятностное соотношение можно рассматривать как количественное описание попарного сравнения упорядоченных списков целых чисел.

Вероятностные модели

3.2 Статистика данных

Потребности в данных спортивного моделирования можно разделить на два набора данных: входные данные (пояснительные данные) и выходные данные (прогнозируемые события). Во всех случаях моделирования нам необходимо (1) определить правильную статистическую взаимосвязь между объясняющими факторами и выходной переменной, которую мы пытаемся предсказать, и (2) определить значения параметров, которые описывают лежащую в основе взаимосвязь между входными данными и выходными данными. Переменная. Это позволит нам предсказать результат с максимально возможной статистической точностью.

Эти входные данные обычно известны как х -variables, правая часть (РИТЫ) переменные, входные факторы, объясняющие факторы, независимые переменные, и / или предикторы. Во всех случаях эти термины означают одно и то же и состоят из данных, которые будут использоваться для прогнозирования результата.

В вероятностных моделях объясняющие факторы могут состоять из статистики командных данных или основываться на производных статистических данных, таких как рейтинг силы команды и / или рейтинг нападения и рейтинг защиты. Во многих ситуациях мы обнаруживаем, что использование статистических данных, состоящих из рейтингов силы команд, обеспечивает превосходные результаты по сравнению с фактическими расчетными элементами данных, такими как ярды за бросок и / или ярды за проход в футболе.

В выходных данных , используемых в спортивных моделях представляют собой событие результата , который мы пытаемся предсказать. Эти выходные данные обычно называются y -переменными, данными левой стороны (LHS), зависимой переменной, результатом, предиктором и / или ожидаемым значением.

В спортивном анализе выходные данные, которые мы в первую очередь пытаемся предсказать, можно разделить на четыре набора данных: (1) выигрыш / проигрыш, (2) выигрышная маржа или спред, (3) общее количество набранных очков и (4) игрок. статистика производительности. Результаты этих моделей позволят нам рассчитать дополнительные элементы, такие как рейтинг команды, вероятность выигрыша, вероятность ставки против спортивной линии и т. Д. Многие из этих тем будут развиваться в последующих главах.

Описание наших элементов выходных данных выглядит следующим образом:

Выигрыш / Проигрыш: значение двоичных данных, где 1 означает победу команды хозяев, а 0 означает поражение команды хозяев. В случае ничьей аналитики могут включить две входные записи для игры, где команда хозяев обозначена как победитель +1 в первой записи, а команда хозяев обозначена как проигравшая во второй записи.

В рамках нашего подхода на протяжении всей книги мы будем указывать, выиграла ли команда или проиграла с точки зрения хозяев поля. Если команда хозяев выиграла игру, то выходная переменная равна +1, а если команда хозяев проиграла игру, то выходная переменная равна 0.

Разброс / маржа: спред, также известный как маржа или маржа выигрыша, обозначает разницу в счете между командой хозяев и гостями. Здесь важно отметить, что мы вычисляем разброс выигрышей команды хозяев на основе разницы между командой хозяев, набравшей 24 очка, и командой гостей, набравшей 21. То есть, прогнозируемая разница в выигрыше команды хозяев составляет 24-21 = + 3, таким образом , что означает, что команда хозяев, как ожидается, наберет 3 очка. Если команда хозяев набрала 21 очко, а команда гостей набрала 24 очка, то разница в выигрыше для команды хозяев составляет 21–24 = −3, что означает, что команда хозяев проиграла на 3 очка. Выигрышная маржа может принимать любое значение.

Общее количество очков: Это относится к общему количеству очков, набранных в игре или соревновании, и представляет собой сумму очков, набранных командой хозяев и командой гостей. Например, если команда хозяев набрала 24 очка, а команда гостей набрала 21 очко, то общее количество очков, набранных в игре, составит 24 + 21 = 45. Переменная результата «Общее количество набранных баллов» не может быть отрицательной. То есть это может быть любое число>= 0. Наши модели также могут быть проанализированы на основе очков, набранных только командой хозяев поля, или на основе очков, набранных командой гостей. В этих сценариях мы можем предсказать победителя игры на основе разницы между ожидаемыми очками, набранными командой хозяев поля, и ожидаемыми очками, набранными командой гостей.

Производительность игрока: статистика производительности игрока - это результаты данных, которые описывают производительность игрока во время игры или за сезон. Это может включать соотношение попаданий к битам для бэттера, количество заработанных пробежек, разрешенных для питчера, количество пройденных ярдов или очков, набранных за раннего бека, количество пасовых ярдов или процент завершенных пасов для квотербека, набранные очки или процент бросков разыгрывающего защитника и т. д. Наиболее важно, чтобы статистика, используемая для описания результатов игрока, была теми показателями, которые в наибольшей степени позволяют прогнозировать вероятность победы команды. В случае фэнтези-спорта важно, чтобы статистика, используемая для прогнозирования ожидаемых очков от игрока, соответствовала правилам подсчета очков в фэнтези-спорте. Соревнования по различным фэнтези-видам спорта,даже для одного и того же вида спорта и проводится одной и той же организацией, могут быть разные системы подсчета очков.

Производные данные: выходные данные - это данные, полученные на основе различных статистических данных. Это может быть среднее значение двух разных оценок или результаты другой модели или другой методологии. Например, в приведенной ниже логит-регрессии мы подбираем модель, используя данные о вероятности, полученные из логистической функции с использованием различных методов выборки.

ПОПУЛЯРНЫЕ СТАТЬИ