2016年12月9日 星期五

2016 12 10 左永安顧問 1051統計決策分析(Statistics and Decision Making) 左記歐洲商行 安永經營管理顧問集團 台北左府(無極)道德宮 天藍海 永茗平潭 鹿鳴國際電子商務有限公司 台大 台師大 EMBA 共通核心職能 TTQS ICAP PMP 《大數據》   「每十年,總是有極少數的書,能改變你看待一切的方式。《大數據》正是這樣的書。」 —— 萊斯格(Lawrence Lessig),哈佛法學院網路智慧財產權教授

《大數據》
  「每十年,總是有極少數的書,能改變你看待一切的方式。《大數據》正是這樣的書。」

—— 萊斯格(Lawrence Lessig),哈佛法學院網路智慧財產權教授

麥爾荀伯格 Viktor Mayer-Schönberger

  牛津大學網路研究所教授,
  並擔任微軟、世界經濟論壇等大公司和組織的顧問,
  是大數據(巨量資料)領域公認的權威,
  寫過八本書以及上百篇專論。

庫基耶 Kenneth Cukier

  《經濟學人》雜誌資料編輯,巨量資料思潮評論員,
  經常於《紐約時報》、《金融時報》、
  以及《外交事務》期刊發表財經文章。

第1章 現在該讓巨量資料說話了
第2章 更多資料「樣本=母體」的時代來臨
第3章 雜亂擁抱不精確,宏觀新世界
第4章 相關性不再拘泥於因果關係
第5章 資料化當一切成為資料,用途無窮無盡
第6章 價值不在乎擁有,只在乎充分運用
第7章 蘊涵資料價值鏈的三個環節
第8章 風險巨量資料也有黑暗面
第9章 管控打破巨量資料的黑盒子
第10章 未來巨量資料只是工具,勿忘謙卑與人性

資料來源
延伸閱讀
謝辭

第1章

現在:該讓巨量資料說話了

2009年又冒出了一種新的流感病毒,稱為H1N1。這種新菌株結合了禽流感和豬流感病毒,迅速蔓延。短短幾星期內,全球的公共衛生機構都憂心忡忡,擔心即將爆發流感大流行。有些人發出警訊,認為這次爆發可能與1918年的西班牙流感不相上下,當時感染人數達到五億人,最後奪走數千萬人的性命。雪上加霜的是,面對流感可能爆發,卻還沒有能派上用場的疫苗,公共衛生當局唯一能努力的,就是減緩其蔓延的速度。為了達到這項目的,必須先知道當前流行感染的範圍及程度。

在美國,疾病管制局(CDC)要求醫生一碰到新流感病例,就必須立刻通報。即使如此,通報的速度仍然總是慢了病毒一步,大約是慢上一到兩星期。畢竟,民眾覺得身體不舒服之後,通常還是會過個幾天才就醫,而層層通報回到疾管局也需要時間,更別提疾管局要每星期才整理一次通報來的資料。但是面對迅速蔓延的疫情,拖個兩星期簡直就像是拖了一個世紀,會在最關鍵的時刻,讓公共衛生當局完全無法掌握真實情況。

巨量資料初試啼聲

說巧不巧,就在H1N1躍上新聞頭條的幾星期前,網路巨擘谷歌(Google)旗下的幾位工程師,在著名的《自然》科學期刊發表了一篇重要的論文,當時並未引起一般人的注意,只在衛生當局和電腦科學圈裡引起討論。該篇論文解釋了谷歌能如何「預測」美國在冬天即將爆發流感,甚至還能精準定位到是哪些州。

谷歌的祕訣,就是看看民眾在網路上搜尋些什麼。由於谷歌每天會接收到超過三十億筆的搜尋,而且會把它們全部儲存起來,那就會有大量的資料得以運用。

谷歌先挑出美國人最常使用的前五千萬個搜尋字眼,再與美國疾病管制局在2003年到2008年之間的流感傳播資料,加以比對。谷歌的想法,是想靠著民眾在網路上搜尋什麼關鍵詞,找出那些感染了流感的人。雖然也曾有人就網路搜尋字眼做過類似的努力,但是從來沒人能像谷歌一樣掌握巨量資料(big data,直譯為大數據),並具備強大的處理能力和在統計上的專業技能。

雖然谷歌已經猜到,民眾的搜尋字眼可能與流感有關,像是「止咳退燒」,但相不相關其實不是真正的重點,他們設計的系統也不是從這個角度出發。

谷歌這套系統真正做的,是要針對搜尋字眼的搜尋頻率,找出和流感傳播的時間、地區,有沒有統計上的相關性(correlation)。他們總共用上了高達4億5千萬種不同的數學模型,測試各種搜尋字眼,再與疾管局在2007年與2008年的實際流感病例加以比較。他們可挖到寶了!這套軟體找出了一組共四十五個搜尋字眼,放進數學模型之後,預測結果會與官方公布的全美真實資料十分符合,有強烈的相關性。

於是,他們就像疾管局一樣能夠掌握流感疫情,但可不是一、兩星期之後的事,而是幾近即時同步的掌握!

因此,在2009年發生H1N1危機的時候,比起政府手中的資料(以及無可避免的通報延遲),谷歌系統能提供更有用、更及時的資訊。公衛當局有了這種寶貴的資訊,控制疫情如虎添翼。

最驚人的是,谷歌的這套方法並不需要去採集檢體、也不用登門造訪各家醫院診所,而只是好好利用了巨量資料,也就是用全新的方式來使用資訊,以取得實用且價值非凡的見解、商機或服務。有了谷歌這套系統,下次爆發流感的時候,全球就有了更佳的工具能夠加以預測、並防止疫情蔓延。

巨量資料功能強大,可以讓許多領域改頭換面,公共衛生領域不過是其中之一,而商業領域也正在經歷這個過程。例如買飛機票就是個很好的例子。

2003年,伊茲奧尼(Oren Etzioni)打算從西雅圖飛往洛杉磯參加弟弟的婚禮。

早在幾個月前,他就已經上網買了機票,一心認為愈早預訂,票價就愈划算。但在航程中,他出於好奇,問了坐在隔壁的乘客票價以及購票時間,結果那個人明明是最近才買,票價卻是便宜得多。一氣之下,伊茲奧尼一個又一個的問下去,發現大部分人的票價都比他的更便宜。

對於大多數人來說,等到收回托盤、豎直椅背、準備下機的時候,這種覺得被敲竹槓的火氣,也差不多消了。但伊茲奧尼身為美國頂尖的資訊科學家,可沒這麼好打發。在他看來,整個世界就是由一連串關於巨量資料的問題構成的,而這正是他拿手的領域。追溯到1986年,伊茲奧尼可是哈佛大學第一位主修資訊科學的畢業生,之後進入華盛頓大學任教;而且早在巨量資料這個詞出現之前,他就已經開了數家處理巨量資料的公司。

例如,他曾協助打造了最早期的網路搜尋引擎之一、於1994年推出的MetaCrawler,不久便由當時的網路巨擘InfoSpace公司買下。另外,他也共同創立了史上第一個大型比價購物網站Netbot,後來出售給Excite公司。至於他的另一間公司ClearForest,則是處理如何從文件中取得語義資訊,後來由路透社收購。

客機著陸之後,伊茲奧尼已經下定決心,要讓人能夠知道自己在網上看到的票價,究竟是撿到便宜還是被人坑了。如果把飛機機位看成商品,同一航班的座位基本上也沒什麼不同,但票價卻是天差地別。這裡有許多因素,只有航空公司自己才曉得。

伊茲奧尼認為,這種系統並不需要真的去解出票價背後千絲萬縷的糾纏因素,只要能預測出未來票價是漲是跌就夠了。這其實不困難,只要先取得特定航線售出的所有票價資訊,再與出發前天數做比較即可。

如果平均票價呈現下跌趨勢,買票這件事當然就可慢慢來。如果平均價格呈現上漲趨勢,系統則會建議馬上以目前顯示的價格購票。換句話說,當初伊茲奧尼是在三萬英尺高空詢問其他乘客的票價,而現在這個系統就是個加強版。雖然說這絕對還是個資訊工程的龐大問題,但與過去一樣,這對他而言仍然能夠迎刃而解。於是,他動工了。

伊茲奧尼花了四十一天,從某個旅遊網站取得超過一萬兩千筆票價資料,做為樣本,並建立一個預測模型,讓模擬的乘客都省下了大筆鈔票。這個模型並不懂「為何如此」(why),只知道「正是如此」(what)。換言之,模型完全不知道各種影響票價的因素,像是未售出的機位數、淡旺季、或是星期幾的機票較便宜之類;模型所做的預測,都是基於手中確實的資訊,也就是從其他航班所蒐集到的相關資料。

伊茲奧尼思思念念的,就是「要買還是不買」的問題——像極了莎翁名劇《哈姆雷特》的經典獨白:「生存還是毀滅,這是個問題。」正因如此,伊茲奧尼把這個研究計畫命名為「哈姆雷特」。

原本的小小研究計畫,後來發展成投入大量資金的創業計畫「Farecast」,藉著預測機票票價可能上漲或是下跌,Farecast就能讓消費者知道是否該立刻點選「購買」鍵。在過去,消費者從來不可能得知這些資訊。Farecast堅持一切應該透明,所以甚至還會對自己的預測加上可信度評分,提供給使用者參考。

預測系統要有效,就必須有大量的數據資料。為了提升效能,伊茲奧尼從航空業的一個航班預訂資料庫下手。資料庫存有全年美國商業航空各航班、各座位的資料,能做為系統預測的基礎。現在,Farecast手中大約有近兩千億筆票價紀錄,用以做出預測。如此一來,消費者就能省下大筆的金錢。

伊茲奧尼有一頭黃褐色的頭髮,露齒微笑、一臉天真,看起來實在不像是會讓航空業損失數百萬美元潛在收入的人。但事實上,他的目標甚至還不止於此。到了2008年,伊茲奧尼打算將這套辦法再應用到其他商品,像是飯店客房、音樂會門票、二手車等等,只要是產品差異性小、價格變化大、而且有大量數據資料的商品,都能適用。但他還沒來得及讓計畫成真,微軟就已經找上門來,用大約一億一千萬美元買下Farecast,結合到Bing搜尋引擎之中。到了2012年,該系統平均有75%的預測準確率,讓每位旅客省下50美元。

Farecast正是一個巨量資料的公司縮影,也是世界未來的走向。如果是五年或十年前,伊茲奧尼絕不可能建立起這種公司。他說:「這本來是不可能的任務,」所需要的計算能力和儲存容量都還太過昂貴。然而,讓計畫成真的原因當中,雖然科技進展是關鍵因素,但還有一個更微小、卻也更重要的因素,就是關於該如何使用資料的思維,已有所改變。

過去認為資料是靜態、靜止的,一旦完成原本蒐集的目的(例如飛機已降落、或谷歌完成了一次搜尋),便不再有用處。但現在,資料是新的商業生產原料、重要的經濟資源投入,可以創造出新形式的經濟價值。如果心態正確,就能巧妙重複運用資料,不斷帶來創新和不同的服務。只要夠謙卑、有意願、也有工具傾聽,資料就能讓種種祕密躍然眼前。

讓巨量資料說話

不論是每個人口袋裡的手機、背著到處走的電腦、又或是辦公室所使用的伺服器系統,都是資訊社會明顯而豐碩的果實。但相較之下,「資訊」本身就不那麼引人注意。自從電腦在半世紀前進入主流社會以來,累積的資料已經到了一定程度,開始帶來全新而特殊的改變。現在,世界上不僅是資訊量前所未見,資訊成長的速度更是一日千里。規模的改變已經開始導致狀態的改變;換句話說,就是從量變引發了質變。譬如天文學、基因體學之類的科學學門,在二十一世紀開始後的十年之間爆炸性成長,因而創造出「巨量資料」這個詞;至今已經又擴展到所有人類活動領域。

對於「巨量資料」,目前還沒有明確的定義。最早的概念,是因為資訊量已經太過龐大,無法完整儲存在處理資訊的電腦系統中,所以工程師必須重新設計工具來分析資訊。因此,新的電腦處理技術應運而生,像是谷歌的MapReduce、或是同類的開放碼軟體Hadoop(出於雅虎),都讓使用者能夠管理遠比先前更大的資料量,而且更重要的是,資料不再需要先整理成整齊的行列或是資料表。

除此之外,也慢慢出現其他資料處理技術,能夠擺脫過去種種僵化的資料層級和同質性限制。同時,網路公司一方面能夠蒐集大量的資料,另一方面又有強大的財務誘因、必須盡快從中解讀出意義,因此也就成為頂尖資訊處理技術的先端使用者;相較之下,某些經營非線上業務的傳統公司,雖然可能歷史要多上幾十年,但腳步卻不及網路公司這般迅速。

針對這項議題,現在的思考方式(也是本書的切入方式)如下:巨量資料所指的,是一定要達到相當規模才能做的事(例如得到新觀點、創造新價值),沒有一定規模就無法實現,而且這些事將會改變現有市場、組織、公民與政府間的關係等等。

這還不過是開始而已。在這個巨量資料的時代,挑戰的是我們生活的方式,以及與世界互動的方式。最重要的是,我們必須拋下對因果關係的執著,轉而擁抱簡單的相關性。(A現象與B現象有相關性,不表示A現象是因、B現象是果,或B現象是因、A現象是果。)你我都不用知道「為何如此」,只要知道「正是如此」就行了!這種概念等於是要用新的方式來瞭解現實、做出決定,推翻了過去幾百年來的既定做法和基本思維。

巨量資料可說是開始了一項重大轉變。就像許多新科技一樣,巨量資料也必然會落入矽谷著名的炒作循環:先是大動作登上雜誌封面、成為產業會議的焦點,接著再急轉直下,許多新創公司無法承擔這些資料,落得只能掙扎求生。

但不論哪種趨勢,其實都沒有真正看清巨量資料的重要性。就像是望遠鏡能讓我們探索宇宙,顯微鏡能讓我們微觀細菌,這種蒐集分析龐大資料的新技術,也能協助我們用新的方式來瞭解世界,而且我們才剛起步而已。

這本書並不會宣揚「信巨量資料得永生」,只是要傳達相關資訊。此外,真正的革新之處也並不是在於處理資料的機器,而是在於資料本身、以及使用的方式。

全球資料總量有多少?

如果想知道現在這場資訊革命已經發展到什麼地步,你可以從整體社會的觀點出發。

我們的數位宇宙正在不斷擴張。以天文學來舉例,史隆數位巡天計畫(Sloan Digital Sky Survey, SDSS)始於2000年,計畫用的望遠鏡位於美國新墨西哥州,計畫開始不過幾星期,所蒐集的資料量就已超過了過去所有天文學歷史的總和。到了2010年,這個計畫蒐集的資訊已經堂堂超越140TB(1 terabyte約等於1,000 gigabyte)。但是接檔的新計畫——位於智利、2016年上線的「大型綜合巡天望遠鏡」(Large Synoptic Survey Telescope, LSST),只要五天,就會得到這個資料量。

這種天文數字,讓人也覺得負擔沉重。2003年,科學家首次破解人類基因組密碼,當時足足花了十年時間全力投入,才完成三十億個鹼基對(base pair)的定序。而在十年後的今天,單一機構只要花上一天,就能完成同樣數量的DNA定序。

就金融領域而言,美國股市每天大約會成交七十億股,其中有大約三分之二,是由電腦用數學模型分析大量資料後自動交易,一方面預測獲利、一方面也試著降低風險。

網路公司特別會碰上這種問題。像是谷歌,每天就得處理超過24 PB的資料(1 petabyte大約等於1,000 terabyte),是美國國會圖書館所有紙本資料量的數千倍。臉書(Facebook)這家十年前還不存在的公司,現在使用者每小時就會上傳超過一千萬張新照片。每天,臉書所有使用者會按「讚」或留言超過三十億次,從這些使用紀錄,就能讓臉書追蹤使用者的喜好。

同時,谷歌旗下的YouTube服務也有八億名用戶,每秒上傳的影片總長度超過一小時。至於推特(Twitter)的訊息量也以每年200%的速度成長,到了2012年,已經突破每天四億則。

從科學到醫療保健、從銀行到網路,涵蓋的行業各式各樣,但講的是同一件事:世界上的資料量正在迅速增長,不僅超過機器能處理的量,甚至超過我們的想像。

有很多人希望,能把全世界的資訊量定出個明確的數字,好計算成長的速度。由於每個人看的面向不同,得到的數字也各異其趣。其中一項比較全面的研究,出自南加大安納堡傳播學院的希爾伯特(Martin Hilbert)教授。希爾伯特教授希望能把世界上所製造、儲存和流通的一切資料都定出數字,不只是書籍、繪畫、電子郵件、照片、音樂、影片(類比和數位),甚至連電玩、電話、汽車導航、紙本信件,也都包含在內;另外,還依據閱聽眾接觸率,計入了各種廣播媒體,例如電視和電台。

根據希爾伯特的計算,在2007年,全世界儲存了超過300 EB的資料(1 exabyte大約等於1,000 petabyte)。讓我們把這件事講得更像人話一點:如果把一部電影壓縮成數位檔,大約大小就是1 GB(gigabyte);而1 EB就是十億GB。總之,就是很多很多就對了。

有趣的是,在2007年,全球的資料大約只剩下7%為類比形式(像是紙張、書籍、相片等等),其他都是數位資料。然而,其實在不久之前,情況還相當不同。雖然早在1960年代就已經開始出現「資訊革命」和「數位時代」的概念,但還不能說是已經完全真正實現。就算到了2000年,全球資訊仍只有四分之一是以數位方式儲存。至於其他四分之三,則是以紙張、膠卷、黑膠唱片、磁帶之類的類比型式儲存。

雖然早已有人開始上網、在線上買書,但他們可能沒想到,當時的數位資訊量其實不大。(說真的,在1986年,全球的袖珍型計算機總共占了全球一般運算能力的40%左右,所占比例要高過個人電腦。)然而,由於數位資料增長實在太過迅速了——希爾伯特認為每三年多就會加倍,情勢很快便風雲變色。相對的,類比資料幾乎沒什麼成長。因此根據預測,到了2013年,全球資料量大約是1,200 EB,非數位資料所占比例將不到2%。

這個資料量大到難以想像,如果印成書、堆在美國表面,能夠鋪上五十二層;如果燒成CD再疊起來,可以分成五疊、一路堆到月球。在西元前三世紀,埃及托勒密二世希望能將世上所有的文字作品都保留一份,於是造就偉大的亞歷山大圖書館,是當時世界上所有知識的總和。現今席捲全球的數位浪潮,相當於是讓每個現代人,都擁有三百二十座亞歷山大圖書館的資料量。

從科學和社會兩面向,開始改變一切

一切真的正在加速。目前,資訊儲存量的成長率是世界經濟成長率的四倍,而電腦的處理能力成長率更是世界經濟成長率的九倍。這也難怪,總是有人要抱怨資訊超載,每個人也都深陷在改變的風暴之中。

讓我們把眼光放遠,看看先前的資訊革命與現在這波資訊洪流有何不同。我們要比較的,是1439年的古騰堡印刷術。根據歷史學者埃森斯坦(Elizabeth Eisenstein)的研究,從1453到1503這五十年間,大約印製了八百萬冊書籍,這個數字足足超過了自從西元四世紀君士坦丁堡建立以來、整個歐洲所有產出的文字量。換言之,不過花了五十年的時間,歐洲的資訊量就成長了一倍。但在今天,大約每三年,資訊量就會翻倍。

這樣的成長代表著什麼?谷歌的人工智慧專家諾威格(Peter Norvig)喜歡用圖像來做比喻。首先,他要我們回想一下法國拉斯科洞穴的壁畫,該處著名的野馬圖像大約可追溯至一萬七千年前的舊石器時代。接著,再回想一下現代馬的圖片、或甚至是畢卡索畫的馬,會發現和洞穴壁畫並沒有太大不同。其實,有人給畢卡索看過拉斯科的圖像,而他打趣說:「原來我們根本沒發明出什麼新玩意嘛。」

畢卡索這句話也對、也不對。先想想馬的圖片,過去想畫一匹馬得花上很長的時間,但現在要呈現出馬的形象,速度可快得多了。雖然說這確實是個改變,但還不見得是最重要的改變,因為這在本質上仍然相同:就是「馬」的形象罷了。諾威格再接著要我們做的,則是先取得一匹馬的圖像,再加速到每秒二十四個影格,成了動畫,於是量變就產生了質變。巨量資料的道理也是如此:由於量的不同,我們也改變了其本質。

讓我們再以奈米科技來打比方。奈米技術的重點在縮小,也就是在達到只有分子大小的等級時,就能讓物理性質有所變化。而瞭解新的性質之後,也就能設計出全新的材料,做出過去做不到的事。例如,在奈米等級的情況下,能夠讓金屬更有彈性、而陶瓷也能夠伸縮。相對的,巨量資料的重點在放大,只要擴大資料量的等級,就能做出小量資料不能完成的事。

有時候,我們對某些限制習以為常,以為別無他法,但其實都只是囿於規模不足而已。我們再來打第三個比方,也是由科學來切入。對於人類來說,最重要的一項物理定律就是重力:重力掌握一切、無所不在。然而,對於微小的昆蟲來說,重力幾乎是無關緊要。例如對水黽來說,最重要的物理定律反而是表面張力,能讓牠在水面上移動、而不沉入水中。

資訊也就像物理,尺度大小確實會造成不同。因此,谷歌判斷流感流行,準確度能夠不下於政府的官方就診資料。透過爬梳數百億的搜尋字眼,谷歌便能幾乎即時提供問題的答案,速度遠遠快於政府。同樣,伊茲奧尼的Farecast也因此能夠預測機票價格的波動,使相關經濟權力轉移到消費者手中。這兩件事,都得分析上千億的資料點,才有達成的可能。

從以上兩個例子,可以看出巨量資料在科學和社會上的價值,以及瞭解巨量資料如何能帶來經濟效益。同時,也可看出在這個巨量資料的時代,巨量資料將從科學和社會這兩個層面,開始改變一切,無論是醫療、政府、教育、經濟、人文,或是其他各個方面。

現在巨量資料方興未艾,但我們的生活早已不能沒有它。例如垃圾郵件過濾器,現在已能夠自動因應各種垃圾郵件的變化。過去的過濾軟體設計,就算知道該擋下像「viagra」之類的字,卻無法在一開始就知道該擋下「via6ra」或是其他數不盡類似的變形字。約會網站也得要分析每個人許許多多的資料,再與過去成功配對的資料比較,才知道怎樣配對機率更高。至於智慧型手機的「自動更正」功能,則會追蹤我們的輸入動作,根據輸入的內容,加入新的拼字規則。

然而,這些用途都不過是開頭而已。不論是能夠偵測何時該轉彎或煞車的汽車,或是在益智節目「Jeopardy!」擊敗人類對手的IBM華生電腦,巨量資料都將讓生活中的許多面向改觀。

巨量資料的核心重點在於預測。我們一般將巨量資料看做是資訊工程中「人工智慧」的一支,或者更具體的說是「機器學習」的一部分,但這其實會造成誤導。巨量資料並不是要「教」電腦如何像人類一樣「思考」,而是要計算大量的資料,以此推斷機率:某封電子郵件是垃圾郵件的可能性;輸入的「teh」應該是「the」的可能性;以及如果有某個人隨意穿越馬路,就要分析他的路線和速度,如果判斷他能夠及時通過,車速就只需要稍稍放慢即可。

如果希望這些系統效能卓著,最關鍵的一點就是要能有大量的資料做為預測的基礎。此外,這些系統也必須能夠隨著時間自動改進,從新增的資料中,判斷出最佳的信號和模式。

在未來(而且可能比想像要早得多),許多現在依靠人腦判斷的事務,都將由電腦取代,而且不只是開車或配對,更複雜的任務也可迎刃而解。畢竟,亞馬遜(Amazon)已經能夠推薦你最想要的書,谷歌也能夠排序出最相關的網站,臉書知道我們按了什麼讚,LinkedIn則能夠猜出我們認識什麼人。同樣的科技,也將應用到診斷疾病、建議療法,甚至是在罪犯犯罪之前,就先將他們逮出來。

網路讓電腦有了「溝通」的功能,進而徹底改變了世界;巨量資料也將為人類生活帶來前所未有的量化面向,進而使生活全然改觀。