JKF 捷克論壇

搜尋
q2075334675
騎士 | 2014-10-25 08:58:03

在世界杯預測時準確率超高的百度大數據預測在穩步推進時遇到了一個小障礙,尚處于內測的票房預測對《黃金時代》的預測與實際結果出現了偏差,被媒體長篇報道引發業內高度關注,筆者一直在觀察大數據預測業務,對于百度預測《黃金時代》失利一事有自己的一些觀點,不吐不快。

一、看待大數據預測失準要冷靜客觀

近年來,“大數據”一詞頻繁出現在各類媒體上,與大數據相關的各種産業、産品也在蓬勃發展。今年2月,中關村管委會在《加快培育大數據産業集群推動産業轉型升級的意見》發布會上表示,到2016年,中關村大數據帶動的産業規模將超過1萬億元,這還僅僅是中關村大數據産業的數字而已,放眼全球,大數據未來的“錢景”非常可觀。盡管大數據概念被熱炒,但與大數據相關的各種産品其實尚處在初期探索階段,比如利用大數據做預測,盡管百度預測此前在世界杯預測、黃金周旅遊預測等産品上表現出比較高的準確率,但對“預測”本身來說,出現失準的現象其實很正常。

具體到《黃金時代》票房預測這件事上,我們先來看看百度的官方解釋。百度對媒體的回應並沒有將問題歸結到“工程師犯錯”,而是直接指出核心原因:因爲我國電影市場上文藝片的曆史票房數據很少,所以在針對《黃金時代》進行預測時采用了通用的模型而沒有針對文藝片單獨建模,導致最終結果出現偏差。

擁有蕭紅、民國、文藝這些標簽,《黃金時代》算得上相對小衆的電影,面向的觀衆並非主流人群。關于這類電影的任何數據都是少之又少,沒有對應類型片的預測模型可供參考。百度在預測《黃金時代》時采取了通用電影的模型,導致出現了較大偏差,未來如果要預測準確,最好的解決方式肯定是針對不同類型的電影單獨建模,而據我了解,尚處在內測階段的票房預測已經在進行這方面的改進。

浏覽百度預測平台(trends.baidu.com),百度票房預測的圖標是灰色的,並沒有正式上線,相反,經濟指數、疾病、景點和賽事預測倒已全面上線投入使用。百度票房預測模型還需進一步完善,更多參數需要加入模型,比如影片屬性、片長、排片量、場均票價等全方位維度都納入考慮。

不過,從另一個角度來看,我認爲,就算是百度票房預測正式上線之后出現“預測失誤”,也非常正常,沒有誰真正擁有水晶球,大數據預測無法確定某件事情必然會發生,它更多是給出一個概率,人類只有不斷地去接近這一個概率。預測的前提就是要承認不確定性的存在。在不同領域不確定性大有不同。票房、股市恰恰就是更容易受人爲影響的存在大力不確定性的領域,預測的難度會大過天氣、旅遊、交通、物價等。

因爲一部《黃金時代》預測失利便質疑大數據預測本身,或者票房預測本身,是不合理的。百度此前在世界杯期間、在黃金周期間相對漂亮的預測結果,已經證明了大數據預測的價值,只不過面對票預測房這一全新的領域,需要更耐心地優化而已。那麽,票房預測在中國真的沒效嗎?

二、預測的精髓在于沈澱和糾偏

《爲什麽大數據在預測《黃金時代》票房時不靈了?》一文的核心觀點列舉如下:1、中國票房數據沈澱太少;2、一些人爲制造的數據對票房預測造成干擾;3、預測模型處于初級階段,變量遺漏和樣本偏差;4、影院經理預測靠譜,票房預測沒有意義,電影預測談大數據爲之過早。

對于這些觀點,只有第3點我表示認同,這是客觀事實,百度也承認處于內測階段的票房預測模型存在不足尚需完善。但如果深思則會發現,世界上並無完美的預測模型,每個領域都是,下一秒要發生的事情會受到諸多變量影響,有些變量是可提前納入考慮的,有些變量就算考慮到卻又是很難監控,變量遺漏和樣本偏差是永遠存在的預測問題,預測者只有不斷地更新變量、糾偏樣本、升級模型才可以不斷地保持預測足夠接近真實。

在《大數據預測將會改變哪些行業?》一文中,筆者總結大數據預測的邏輯基礎是,每一種非常規的變化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆與變化之間的規律,就可以進行預測。對于預測來說至關重要的兩點是:從過往數據和經驗中得到的規律,這映射到預測模型;可以實時監控的“變化”,映射到變量或者說實時數據。大數據預測與傳統預測的不同就在于:更具時效性、新型數據源、動態性預測以及規律性依賴。

對票房預測持消極態度的首先將問題歸結爲數據:電影數據沈澱太少、各家網絡數據不通以及髒數據問題。

1、沈澱太少是杞人憂天。

中國票房數據沈澱太少可能是客觀事實。但預測需要海量曆史數據的原因在于從中發現規律。但倘若只有100年的票房數據,卻並沒有與影響這些票房數據的“變量”數據,對于挖掘規律其實並無幫助。

一個例子是百度在做世界杯預測時便與第三方數據公司合作得到大量曆史數據進行挖掘,將球隊、隊員、場地等靜態因素考慮在內同時引入輿情、歐賠指數等動態變量,最終實現接近準確的預測。

對于票房預測而言,就算得到中國80、90年代的票房數據,而不是“預測相關數據”,對于票房規律的獲取並無什麽幫助,那時候並無互聯網,電影市場早已面目全非。票房預測究竟需要什麽數據?沒有人可以告訴我們答案。等到10年之后數據積累完全再來談大數據預測,並不現實。因爲今天不做,人們就不知道該收集、記錄什麽數據。況且誰又能指出10年與2年在時間上的差距會對數據積累造成什麽本質不同呢?

大數據預測的數據源優勢正是在于它可以更全面及時地記錄數據,並且收集到過往完全無法收集的數據比如用戶的需求、輿情、情緒變化,或者說出行規律、電影票價、影院排期數據。因此與其去擔憂“傳統數據沈澱不足”還不如思考票房預測究竟需要哪些數據,究竟如何才能提升規律?

2、數據不通和髒數據是永�問題。

網絡數據不通是整個互聯網都要面臨的數據鴻溝問題,沒有哪一家擁有全網的數據,聚合全網數據進行預測幾乎是不可能完成的任務,況且這根本沒任何必要。如果說社交網絡數據對預測很重要,那麽中國只有騰訊才可能做好預測——實際並沒有做。阿里淘寶指數已成爲電商銷量風向標、百度搜索指數對于各行各業同樣具有重要的參考意義,因爲它表征興趣。每家掌握數據的性質不同,但確實可通過合作去得到更多維度的數據,最終提升預測可靠性,但要各家直接打通數據壁壘是不現實的。

同理,“髒數據”以及”噪音“是整個互聯網永遠存在的現象,就算是傳統的采樣調研難免也會遇到噪聲樣本進而被干擾。應對這個問題只有盡量過濾噪音數據,同時考慮到噪音對模型進行不斷地糾正,並且增大預測結果的誤差范圍。還有一個假設是,如果有髒數據對結果起到積極作用(比如讓票房成績更好),同樣會有髒數據對結果起到消極影響。

百度搜索結果不排除有人爲操作的數據,水軍評論、豆瓣評分大家心知肚明,但文中所提及的百度商業化結果卻根本算不上髒數據,因爲百度要排除商業廣告的影響輕而易舉,況且這些數據對預測是十分有價值的,Google票房預測模型一部分便是基于廣告點擊數據。

3、影院經理不是預測而是影響票房。

影院經理確實可預測對應影院某部電影的票房結果。如果他們掌握拍期權甚至還可以直接影響、決定對應電影的局部票房。所有影院經理最終會對整體票房造成莫大的影響。這並不是一個因果關系,而是環環相扣:影院經理在預測票房的同時也影響著票房。

我們可以將影院經理對應到股市中的股民,股民對自己所關注的股票價格有所預期,基于這個預期進行減倉或增持等操作。所有股民的博弈最終決定了股價的波動。但這並不意味著股民是最好的股票預測專家。在旅遊、交通、房價等領域均有類似的狀況,參與者基于個體的預測,或者第三方預測結果去做出行動,進而影響結果。

這里想說明的是,將參與者與預測者放在一起本身就不合適,參與者是十分重要的動態變量。《黃金時代》出現如此慘淡的票房很大程度便是票房經理不斷降低預期進而減少排片所致。不過,百度未來與影院或者票房經理合作倒確實可以提升預測準確率,一方面在線下升級模型,另一方面將票房經理的排期計劃納入監控范圍,把百度數據+工程師的大數據預測升級爲衆包式的票房預測,倒有可能。

最后我想說的是,因爲一部電影的預測失利否定大數據票房預測確實有待商榷,天氣預報不斷地沈澱不斷地升級才能做到今天的準確率以及精細化,但仍有不準的時候,在影響我生活時我也曾憤怒地認爲天氣預報不考慮,但大家都知道事實並非如此。票房預測剛剛開始,或許應該得到更多包容。從長遠來看,通過不斷的優化,如果票房預測産品最終能夠達到一定的準確度,那麽對于整個電影産業將會提供非常重要的參考價值,比如對投資方、拍攝方、推廣方提供更準確的數據參考,從而引導他們在宣傳推廣、劇情設置甚至是甄選演員等方面做出更加準確、有利的判斷。

本文章中包含更多資源

您需要 登入 才可以下載或查看,沒有帳號?加入會員

x
分享分享 收藏收藏
FB分享
回覆 使用道具
您需要登入後才可以回覆 登入 | 加入會員

建議立即更新瀏覽器 Chrome 95, Safari 15, Firefox 93, Edge 94。為維護帳號安全,電腦作業系統建議規格使用Windows7(含)以上。
回頂部 下一篇文章 放大 正常倒序 快速回覆 回到列表