大數據的迷思及應用方式
文/dentsu X 貝立德 執行副總 吳宗霖
從1970年代開始,開始有了第一台主機型電腦,接著進入迷你電腦及個人電腦年代,全球可產生數位內容的裝置,從百萬個擴展到億個數位裝置,整個過程大概約30年的時間,接下來到了手機的年代,短短10年之間,數位裝置就從億個變成幾十億個,目前開始跨入物聯網的時代,預計5年內,數位裝置也從億級變成百億個,這樣一個數據急遽在成長的年代,日常生活中的各式行為將被紀錄起來,我們因此可以更容易了解到整個世界,進而日常生活、工作及思維等都會產生變革,這也是大家對大數據的期待。
想要對大數據有所了解的人,大部分的人都會知道Viktor Mayer-Schönberger和Kenneth Cukier合著的有關大數據的書-「Big Data - 大數據將會改變日常生活、工作與思維」,內容很多,或許很多人沒有去讀,但大家一般人大概都會記得以下摘錄的幾個結論:
1. 從此不用知道「為何如此」,只要知道「正是如此」就好了
2. 大家覺得說,從此以後不用再用樣本的抽樣調查,只要知道樣本就等於母體這一件事情。
3. 那當然,不精確這件事不僅不重要,重要的部分呢,是你的數量是不是遠大於品質的部分。
4. 然後再來是找到「相關性」,不用再去了解「因果性」。
以最近大家許多報章雜誌或是政府開始鼓吹文創或娛樂界要去效法「紙牌屋」結合大數據創造出更有價值的內容為例,因為「紙牌屋」的內容產生,主要是利用大數據分析來創造觀眾想看的內容劇本、演員、導演等的最佳組合,我想大家對此都應該能耳熟能詳了,但是大家知不知道「紙牌屋」這件事情,到底是因為大數據創造了內容,還是行銷利用大數據的概念來去做行銷的案例,假設數據是萬能的,應該是一季比一季好才對,但實際上一季不如一季,且除了「紙牌屋」也沒有其他號稱是大數據分析出來的戲劇了。
另一個很有名的例子就是「google」利搜索結果來進行流感預測,很多人都知道在2011年其預測結果幾乎符合當年的實際情況,但大家知不知道,在2013年的時候,他本身的預測結果高於實際情況的兩倍以上,且在2015年8月開始,Google就不再直接對外公布,主要的原因怕大家誤解數據的意義,而去進行錯誤的運用,所以現在透過要申請的話,並提出你的運用需求,才可以使用。
在這越來越多的數據年代,讓大家都很焦慮,所以每當有專家提出其建議及看法時,大家就覺得該依循專家的意見去做,但自己就真的都不用再思考嗎?難道就專家所說不用再管統計的數據,因為數量永遠大於質量。真的是這樣嗎?
就如同瞎子摸象一樣,假設所有的大數據資料都集中在象尾,那可以說大象就像蛇一樣,或是集中在身體上,就說大象就像一面牆壁。若數據沒有依統計的概念,再怎麼大的數據,也不定可以比抽樣調查更準確,一般大家在批評抽樣調查時,總是故意去放大了那個誤差而去忽略掉抽樣調查的本質,如我們常聽媒體報導尼爾森收視率調查如何如何地不準,這通常都只是去放大其抽樣的誤差情況。不管數據的大小,若沒有利用統計的概念來分析,那就容易迷失在茫茫的數據大海中。
以在這新的數據潮流之下,仍不能忽略既有統計觀念,很多時候還是要回歸到本質,大數據不代表就是全數據(n ≠ All),且數據的代表的是過去的軌跡,那過去的軌跡可以代表一定的未來嗎?假設人的人類的演進都是靠著過去的軌跡,不就代表路只能依照著過往的方式來走,那這件事情不就是很可悲嗎?回歸到做行銷議題,做SWOT分析裡面,SWOT分析裡面有Strengths跟Weakness,是講自己本身的優缺點,而Opportunities及Threats則代表外在環境可能會影響的事,很多會影響的事,不只是內在的本身,還有包含外部環境的部分,若只是在分析自己過往的紀錄就以為可以推論到未來,那就很容易忽略掉其他外在的因素。
在全球,Amazon算是對數據著墨非常深的公司,在衡量公司績效就有將近五百項指標中有八成都和顧客有關,雖然大量的數據可以減少許多爭議,卻也壓抑了創新,所以在Amazon內部中,太約有10到20 %的專案是不依靠數據來做推測,所以他重數據分析,但不為數據分析所役,這就如中國人很常講:「役物而不役於物。」在看整個大數據,仍是需要以宏觀及統計的角度去看,而不是就局限在數字上的結果,這樣才是真正可以有效地去利用大數據。