2018年俄羅斯世界杯開(kāi)打,首場(chǎng)比賽是東道(dào)主俄羅斯對陣沙特阿拉伯,将于6月14日拉開(kāi)序幕。
每屆世界杯最受關注的當屬決賽,上(shàng)屆2014年巴西世界杯,東道(dào)主巴西隊意外爆冷,隻獲得(de)第四名,無緣決賽。今年的世界杯,不少(shǎo)機構/研究人(rén)員給出預測:德國将和(hé)巴西争奪冠軍,并且,巴西隊奪冠的概率更大(dà)些(xiē)。
綜合各種預測和(hé)民意調查,冠軍幾乎肯定在巴西、德國和(hé)阿根廷之間(jiān)展開(kāi),雖然強強争鋒喜聞樂見,但(dàn)似乎也少(shǎo)了些(xiē)驚喜。
機器(qì)學習和(hé)大(dà)數(shù)據的方法正越來(lái)越多(duō)地被用在比賽結果預測上(shàng),不僅是世界杯,也不僅是結果,球隊組成、戰術(shù)選擇和(hé)球員訓練都已經開(kāi)始見到機器(qì)學習的身影(yǐng)。對于球迷和(hé)觀衆而言,人(rén)工智能也将展開(kāi)一種全新的參與/觀看體(tǐ)育賽事的體(tǐ)驗。
機器(qì)學習預測結果:巴西獲得(de)冠軍
肯尼亞的投資銀行(xíng)Genghis Capital Investment Bank的投資銀行(xíng)分析師(shī)Gerald Muriuki,日前在Medium上(shàng)公布了他使用機器(qì)學習預測FIFA 2018的結果——巴西将赢得(de)冠軍。
這一結果跟微軟的AI和(hé)數(shù)據科學專家(jiā)Sorin Peste的預測結果一緻。
實際上(shàng),預測世界杯冠軍是一個(gè)典型的機器(qì)學習問題,你(nǐ)首先預測每場(chǎng)比賽的獲勝者,接着再預測小(xiǎo)組賽、半決賽和(hé)決賽的冠軍。在這個(gè)過程中,你(nǐ)需要進行(xíng)數(shù)據整合、特征建模和(hé)結果預測。因此,很(hěn)多(duō)機器(qì)學習或數(shù)據科學家(jiā),都做(zuò)過類似的項目。
Muriuki和(hé)Peste兩個(gè)人(rén)都是根據足球比賽的曆史數(shù)據,建立機器(qì)學習模型,模拟比賽,并預測這些(xiē)比賽的結果。下面我們分别來(lái)看看。
使用邏輯回歸進行(xíng)預測
Muriuki使用了兩個(gè)來(lái)自Kaggle的數(shù)據集,包含了從1872年到2017年國際足球比賽的結果。他先分析了兩個(gè)數(shù)據集,做(zuò)了一些(xiē)特征工程,選擇跟2018年世界杯最相關的特征進行(xíng)預測,再足控了一些(xiē)數(shù)據增強。
在模型的選擇上(shàng),Muriuki用的是邏輯回歸,一種分類器(qì)算(suàn)法。邏輯回歸通(tōng)過使用邏輯函數(shù)預估概率,從而衡量分類因變量和(hé)一個(gè)或多(duō)個(gè)自變量之間(jiān)的關系。簡單說,給定一組相關的數(shù)據後,邏輯回歸能夠預測結果(在世界杯的情況下,就是預測是輸還(hái)是赢)。
這是他的模型預測最初幾場(chǎng)比賽的結果:俄羅斯vs沙特,俄羅斯勝利;烏拉圭vs埃及,烏拉圭勝利;伊朗vs摩洛哥(gē),平局。4天以後就可(kě)以驗證這個(gè)結果是對還(hái)是錯了。
16強的結果是這樣的:
四分之一決賽将在葡萄牙vs巴西,以及德國vs阿根廷之間(jiān)展開(kāi)。
最終巴西vs德國,巴西獲勝。
使用随機森(sēn)林進行(xíng)預測
另一方面,微軟的AI和(hé)數(shù)據科學專家(jiā)Sorin Peste的預測過程則更加完善。在數(shù)據的選擇上(shàng),除了曆年世界杯結果,Peste還(hái)使用了歐洲杯、奧運會(huì)等大(dà)型比賽的數(shù)據,以及這些(xiē)比賽的勝率分布。
此外,Peste還(hái)考慮了比賽的地址,也即是在主場(chǎng)、客場(chǎng)還(hái)是在雙方都無關的中立場(chǎng)所,以及比賽是否“friendly”,在踢friendly比賽時(shí),目的不是為(wèi)了赢球,而是為(wèi)了觀察對手的球員和(hé)策略。
在模型的選擇上(shàng),Peste用的是随機森(sēn)林(深度500),一種根據呈現給它的特征生(shēng)成多(duō)個(gè)決策樹(shù)的算(suàn)法,并且每個(gè)單獨的樹(shù)對每個(gè)新輸入向量的結果“投票(piào)”。随機森(sēn)林的速度快,相當準确,可(kě)以對泛化誤差進行(xíng)無偏估計(jì),因此不需要交叉驗證。
下圖展示了叠代1000次後的結果,巴西獲勝,阿根廷第二。
統計(jì)的方法:德國戰車(chē)險勝巴西
當然,除了機器(qì)學習,還(hái)有(yǒu)更多(duō)預測是使用大(dà)數(shù)據方法。KDnuggets上(shàng)一位狂熱球迷用統計(jì)的方法,預測德國隊會(huì)奪冠。他的操作(zuò)步驟如下:
收集信息:
國際足聯世界排名:這是所有(yǒu)211支國家(jiā)足球隊的排名系統。使用積分系統,積分是基于所有(yǒu)FIFA認可(kě)的國際比賽的結果。然而,這并不是最好的系統,而且有(yǒu)很(hěn)多(duō)缺點。
Elo評級:該系統最初是為(wèi)國際象棋聯合會(huì)FIDE開(kāi)發的,目的是給棋手打分。它的複雜矩陣根據比賽的類型分配點數(shù),并考慮到雙方的淨勝球差異。它和(hé)國際足聯的主要不同之處在于,它也統計(jì)了友(yǒu)誼賽的數(shù)量。
TransferMarkt team value:這個(gè)總部位于德國的網站(zhàn)提供了關于足球各個(gè)方面的信息,包括每個(gè)知名球員的估計(jì)市值。他們列出了參與國的名單和(hé)他們的團隊價值。
投注賠率:使用投注比較網站(zhàn)OddsChecker,采用每個(gè)國家(jiā)最慷慨的賠率。
TransferMarkt的數(shù)字是歐元,而FIFA和(hé)Elo有(yǒu)他們自己的評級系統,投注賠率是分數(shù)。作(zuò)者将每一個(gè)系統都标準化,使它們具有(yǒu)可(kě)比性。在統計(jì)中,标準分數(shù)(也稱為(wèi)z分數(shù)/值,正常分數(shù)或标準化值)是數(shù)值與平均值不同的标準偏差數(shù)。
2018年世界杯,四個(gè)流行(xíng)的預測來(lái)源
KDnuggets預測的z分數(shù)
如果KDnuggets的預測是正确的,那(nà)麽世界杯小(xiǎo)組賽的結果會(huì)是下面這樣的:
研究結果引出了一些(xiē)有(yǒu)趣的結論:
德國排名第一,但(dàn)僅略高(gāo)于巴西。緊随其後的是西班牙和(hé)法國。
Elo排名系統和(hé)投注幾率看起來(lái)最相似,都列出了相同的前五名(上(shàng)面提到的四個(gè)球隊和(hé)阿根廷)。
在整個(gè)體(tǐ)系中有(yǒu)一些(xiē)鮮明(míng)的對比,其中最引人(rén)注目的是秘魯在國際足聯(FIFA)和(hé)Elo排名中z分數(shù)都排在第10位,而在TrasferMarkt的球隊價值排名卻在第30位。
民意調查:德國、巴西、阿根廷最受歡迎
除了KDnuggets上(shàng)的預測,還(hái)有(yǒu)諸多(duō)世界杯賽前的其他預測:
《每日電(diàn)訊報》對每支球隊進行(xíng)了廣泛的分析,最後進行(xíng)了一項投票(piào),讓讀者預測冠軍,投票(piào)結果如下:
此外,據中新網報道(dào),俄羅斯彼爾姆國立研究大(dà)學學生(shēng)維克多(duō) 紮科派洛建立了一個(gè)能預測2018年世界杯冠軍的神經網絡,神經網絡綜合各項參數(shù)進行(xíng)分析計(jì)算(suàn)後得(de)出結論稱,世界杯前三名将是德國隊、巴西隊和(hé)阿根廷隊。
四年前,巴西在家(jiā)門(mén)口以1:7輸給了德國隊,創下了自1920年0:6輸給烏拉圭以來(lái)最大(dà)的世界杯輸球記錄,震驚全國人(rén)民。最終,德國隊奪得(de)了當年的世界杯冠軍。
今年的俄羅斯世界杯,諸多(duō)機構預測巴西和(hé)德國将上(shàng)演冠軍大(dà)戰。巴西能否一雪前恥,德國能否成功衛冕?我們拭目以待。 |