「大數據」這詞隨著互聯網的普及成為近幾年最紅的關鍵字,就像2000年科技泡沫時只要牽涉到互聯網,就能吸引眾人的目光一樣,現在所有的公司都汲汲營營的想與「大數據」扯上關係,深怕自己跟不上時代的潮流,進而被淘汰掉。其實大數據的應用以行之有年,早在2001年META集團的分析員Doug Laney就用「3V」來描繪大數據的特性,它們分別是:「Volume」指的是資料的大小、「Velocity」指的是資料傳遞的速度、「Variety」指的則是資料的多樣性,最後於2012年Doug Laney又補上了第四個V:「Veracity」,指的是資料數據的真實性。
因電子商務的崛起及社群網絡的興盛,大數據的價值逐漸受到重視
大數據的概念雖然不新,但近幾年因為智慧型裝置普及、電子商務的崛起、社群網絡的興盛,使得數據取得俯拾即是,不再限縮於大型企業與政府機關,大數據也因而開始流行起來。大數據的價值從美國總統歐巴馬到中國電子商務龍頭阿里巴巴的馬雲都一再強調數據的價值,歐巴馬曾說:「數據將是未來的石油」,並投入了二億美元在大數據的開發中;馬雲對員工的公開演講也不斷強調,未來阿里巴巴的價值不在提供平台,而是提供數據。馬雲深知淘寶依靠會員的成長所收取的平台費與廣告費有其侷限,近期淘寶的成長趨緩與假貨風波,使得阿里巴巴股價直直落就是最好的證明;然而馬雲早在幾年前就開始在數據上佈局,確立公司未來營運的重點在於提供數據服務,確實是深謀遠慮。
圖片來源:Jack Moreh@freerange
現在有越來越多新創公司依靠大數據提供新的商業服務,例如有間名為Ovia Fertility 的公司發展了一套APP,分析了30萬名會員數據,發展出一套演算法能夠非常精準地計算出每一會員的排卵期,進而提高受孕的機率,根據網站的資料顯示,該款APP已成功的幫助5萬名會員懷孕;又如另一間公司分析美國社群APP的Twitter上數億條的推文數據來預測未來四天的股價走勢,精準度高達87.6%,並帶來平均15%的年化報酬率。類似這種以大數據為基礎,設計演算法得出想要的推論與結果的應用越來越多,也慢慢地改變我們的生活。
大數據分析是代表數據越多越好嗎?最重要的元素又是什麼?
一般企業想發展大數據常常被「大」這個詞所迷惑,以為數據是越多越好,但其實不然,數據之所以要大是因為統計的關係。以人口普查為例,過往因科技的受限無法統計一個國家所有國民的基本資料,於是運用抽樣的方式來進行人口普查。抽樣的方式要能有效預測母體,最重要的關鍵在於隨機,要達成隨機抽樣最簡單的方式就是考量到的各個因素下樣本都多抽一些,這也就是為什麼傳統上我們認為樣本數越多,預測母體的效果就越好的原因。
然而大數據的「大」僅是4V中的其中一個要素,最重要的是第四個V-「Veracity」,資料的真實性。因此企業在發展大數據時其實應先用內部資料,內部資料的不管在真實性或掌握度上是最高的,也是數據分析人員不斷強調「含金量」最高的一群資料。以電子商務公司為例,網路上的交易資料就是最有價值的資料之一,應以此為基礎建構大數據的核心,接著才是導入如人口統計等其他外部資料。
大數據講求的是透過數據的證據告訴決策者該採取怎樣的行動,不再是依靠過去的經驗與直覺,從「猜測」轉變為「預測」的過程,近期喬美公司將推出的網路交易平台-《台灣資金交易所》,未來也將導入大數據的應用,提供使用者更棒更完善的使用體驗!
參考資料
封面圖片來源:Jack Moreh@freerange
Leave a Reply