顯示具有 Big data 標籤的文章。 顯示所有文章
顯示具有 Big data 標籤的文章。 顯示所有文章

2019年9月9日 星期一

[ML Study Jam] How Google does Machine Learning的Module 3 Quiz學習日誌之企業導入機器學習的方法

How Google does Machine Learning的學習日誌

最近Google連續辦了兩次ML Study Jam的活動,包含
ML Study Jam 機器學習培訓計劃- 初級- 首頁,以及ML Study Jam 機器學習培訓計劃- 進階-首頁,這兩階段的課程內容,個人覺得非常適合企業在導入ML給同仁必上的內容,尤其適合非科班出身的又想轉型的朋友們。

在進階課程的當中,筆者覺得在「How Google does Machine Learning」當中,有許多有趣的題目與內容,是自己多年做資料科學服務有所共鳴的,希望能夠透過部落格分享學習的心得,提供給想導入ML的企業與想持續學習導入ML的朋友。(請注意本篇文章僅針對部分題目提供心得分享,並非答案分享)


過去筆者在導入多年的資料科學服務當中,發現資料科學家要有一個非常重要的能力,是能夠快速辨識這家企業與題目,到哪一個階段,接著再給予對應的服務內容,避免導入過程資源的浪費,而課程當中Google整理了一個「Path to ML」來幫忙大家釐清企業的ML導入階段。

在Module 3 Quiz的部分,有一題要學員能夠針對題目,以「Path to ML」五階段做辨認,而其中五階段包含「Individual contributor」、「Delegation」、「Digitization」、「Big data and Analytics」、「Machine learning」,在ML and Business Processes課程當中,個人覺得非常好的一個觀念是,企業要導入一個從無ML->有ML的過程,必須先找到流程上的輸入與輸出,接著在輸出中透過數據與ML找出具有洞見的結果,將結果回到流程上去改善輸出。

因此回到「Path to ML」,我們首先要能夠辨認,我們在企業流程中,到底是哪一個階段,才能去藉由階段工作來正確導入ML,筆者整理如下:

I for individual contributor:任務的本體,如單一櫃員
D for delegation:多個可執行任務的人,如多個店員
Z for digitization:數位化的工具,如ATM,可以透過機器進行重複化的工作
B for big data and analytics:透過資料挖掘洞見,提升營運效率,如汽車生產
M for machine learning:透過前面的數據,以機器學習來自動化改善整個營運效益,如推薦系統

聰明的朋友,如果題目如下,您會將上述的I,D,Z,B,M,分別放在哪裡呢?

問題1
製造工廠有許多機械手臂,整個生產團隊透過手臂上收集的數據來幫助確定生產的時間表。
問題2
一個客戶服務團隊持續接收在線上的訂單
問題3
一個圖書館員在城市圖書館工作
問題4
停車收費系統根據可能預期的需求來自動改變費率
問題5
自動電子收費器透過讀取汽車牌照跟駕駛索取過路費(如ETC)

問題1看起來非常明顯是以數據來挖掘洞見,問題2與問題3很容易理解是傳統的運作階段,問題4與問題5比較容易會有誤會是在「digitization」與「machine learning」的差別,但仔細一看,事實上ML有個關鍵是透過數據「自動化」原先的流程,因此會獲得一個不斷改變的輸出,答案就出來了。


看起來大家都有十足的把握了,我們繼續看一下去,如果題目如下,您們的選擇為何?

題目6
所有任務,包含執行參數、選擇參數、參數回饋都是自動化
題目7
一個人在執行任務,而這個任務與指令來自人與人之間的方式運作
題目8
一個電腦執行任務,而軟體工程師透過歷史的模式,來進行參數的調整。
題目9
一個電腦執行過程是透個人從介面上輸入參數來進行。
題目10
一個任務是從一群人來完成

問題6我們可以發現全數自動化,會是機器學習的強項,答案是非常明確的。接著在問題7與問題10的部分,也很容易辨識是傳統1個與多個人的運作方式,最後這次的題目8與題目9分別就相對明顯很多,題目9單純只有透過介面來做互動,而題目8則透過數據挖掘模式來進行參數調整。


最後在Quiz最尾端的題目也非常有趣,題目大意是在說一家企業需要在一年內導入ML,我們是這家企業的顧問,而我們應該請該企業集中資源在哪一個地方,譬如說:「定義關鍵目標」、「收集資料」、「建立基礎設施」、「最佳化演算法」、「整合模型」。

其實有經驗的顧問會選擇「收集資料」,因為這是所有企業導入ML的最重要的問題,尤其以筆者過去的經驗是,傳統企業常常是因為沒有資料而無法導入ML。而其他都不重要嗎?並不是,而是沒有資料,對於定好目標、建立設施、最佳化算法、整合模型就都沒有了意義。

但是筆者提一個觀點是,如果我們企業要導入ML,也不能盲目的收集資料,而是要了解解決什麼問題。
所以回過頭來,一樣可以觀察公司目前的階段,從沒有ML->有ML,我們在「Individual contributor」、「Delegation」、「Digitization」、「Big data and Analytics」、「Machine learning」是哪一個階段,才能將資源妥善運用在導入ML的正確方向當中。

以上是筆者對於「How Google does Machine Learning」的Module 3 Quiz拙見,歡迎討論。

2017年3月5日 星期日

2017年台灣巨量資料(大數據)、資料科學家相關課程


很快的新的一年又開始了,筆者已經持續整理資料科學相關課程長達三年,今年也一樣整理相關課程與上課時間給有需要的朋友查詢。


工研院

資策會

中國生產力中心

三星課程網

臺灣資料科學協會


筆者整理這幾年來有發現一些心得,關於大數據或資料科學家課程,有越來越多元化的趨勢,另外除了資策會與工研院有長期開課之外,有不少新的公司或團體也有類似的課程出現,像是臺灣資料科學協會、中國生產力中心、三星課程網。

以上 如有遺漏 歡迎留言告知。



歷年資料參考:

2016年1月26日 星期二

2016年台灣巨量資料(大數據)、資料科學家相關課程 (更新時間2016.07.17)


很快的新的一年又開始了,筆者已經持續整理資料科學相關課程長達兩年,今年也一樣整理相關課程與上課時間給有需要的朋友查詢。



工研院
資策會
MIC產業顧問學院
三星課程網
木刻思
東吳大學



歷年資料參考:


2015年8月23日 星期日

「2015 台灣資料科學愛好者年會」精彩資料整理

2015 台灣資料科學愛好者年會」為一年一度的台灣資料科學盛事,參加人數超過千人,這次的活動從2014年的兩天,加長為四天的活動,並且同軌進行,包含「R資料分析上手課程」、「g0v 零時政府黑客松」、「DSP 資料開竅 ▪ 企業論壇」、「資料新聞實戰營」、「Hadoop/Spark 資料科學快速體驗營」、「地圖資料視覺化課程」,以及最精采的「年會主議程」,內容相當豐富也很精采。



以下為筆者所收集的資料科學年會相關活動資料內容

新聞:
  1. 阿里巴巴副總裁車品覺:資料是一種信仰!
  2. 中華電信如何培訓資料科學人才,先讓IT學會商業心法做起
  3. 大資料分析苦手不用怕,資料科學愛好者年會帶你Hadoop做中學
  4. 臺灣資料科學愛好者年會擴大舉辦,阿里巴巴和IBM華生團隊首席帶頭開講
  5. 【活動快訊】資料科學家們 attention!「2015 台灣資料科學愛好者年會」來啦
  6. 2015 台湾资料科学爱好者年会 开始售票!
  7. [展望2015]25%企業今年將導大資料,資料科學人才更搶手
  8. 阿里巴巴、KKBOX資料科學年會同台尬大數據心法
  9. 【資料科學愛好者年會】數據說故事的年代,國際資料新聞人為台灣記者上一課
  10. 為什麼打造一支資料科學團隊如此重要?
  11. 混搭多樣的會議-2015 台灣資料科學愛好者年會
  12. 港大計算機教授:大資料時代也要有大教育思維
文章:

  1. 資料新聞實戰營 d|Bootcamp Taipei!

簡報:
  1. 2015 台灣資料科學愛好者年會-開場
  2. Key Failure Factors of Building a Data Science Team - 趙國仁
  3. 運用空間決策改進緊急醫療品質-詹大千
  4. 巨量與開放資料之創新機會與關鍵挑戰-曾新穆
  5. 以健保資料分析對抗健康新聞的恐慌症候群-張俊鴻
  6. 人口統計應用於選舉預測-蔡佳泓
  7. Learning for Big Data - 林軒田
  8. 海量視覺資料-孫民
  9. 由點、線至面:從影像分析角度探討漫畫的組成與風格-朱威達
  10. 心理學x資料科學-黃從仁
  11. Big Education in the Era of Big Data-金國慶
  12. 從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪
  13. 資料科學在數位音樂的實踐與分析-KKBOX 林佑璟、羅經凱
  14. 雲端影音與物聯網平台的軟體工程挑戰:以 Skywatch 為例-陳維超
  15. 使用 Elasticsearch 及 Kibana 進行巨量資料搜尋及視覺化-曾書庭
  16. Visualization over Web: Tools and Tips-吳泰輝
  17. 軟工人的資料科學奇航-線上遊戲、網路學習與中華職棒 by 許懷中
  18. 計算社會學-江彥生
  19. 應用資料科學於交通網路解析-闕嘉宏
  20. 社會物理學-以意念流的數據化來打造智慧企業及城市 by 張毓倫
  21. 2015 台灣資料科學愛好者年會-閉幕

研討會共筆:


2015年7月29日 星期三

50個資料科學工具速查表(R、Python、Hadoop、Spark、Machine learning)

以下為國外整理的資料科學工具速查表,包含常見的工具R、Python、Hadoop、Spark,以及機器學習(Machine Learning)理論。


  1. R
  2. Python
  3. SQL
  4. Hadoop
  5. Spark
  6. Machine learning

2015年5月7日 星期四

2015年台灣巨量資料(大數據)、資料科學家相關課程

今年又開始看到許多巨量資料、資料科學家的相關課程持續出現,因此筆者整理一下,條列如下,方便大家去規劃自己的學習時間:


工研院
  1. 巨量資料分析應用與實作班(2015/05/13)
  2. 文字資料探勘與網路資料分析實作(2015/06/02)
  3. 資料探勘與R軟體應用實務II(2015/06/16)

資策會
  1. 文字資料探勘實作班(2015/5/16、5/17)
  2. R軟體與財金資料分析(2015/5/23、5/24)
  3. Spark巨量資料分析實務班(2015/5/30、5/31)
  4. 巨量資料分析-使用RHadoop (2015/6/6、6/7)
  5. Python資料探勘實作 (2015/6/13、6/14)
  6. R軟體與資料視覺化(2015/ 6/27~6/28)
  7. Big Data之處理與分析實務班(2015/7/4~7/5)
  8. R軟體實作班(2015/7/11~7/12)
  9. R軟體與資料探勘(2015/7/25~7/26)
  10. Elasticsearch分散式系統實務班 (2015/8/1、8/2)
  11. R軟體與網頁資料擷取應用(2015/8/22、8/23)
  12. Big Data之處理與分析(Hadoop)進階班(2015/10/17~10/18)
知意圖(Etu)
  1. 軟體開發者的 Hadoop 第一天 (2015/05/18)
  2. 資料分析者的 RHadoop 第一天 (2015/05/29)
  3. 軟體開發者前進 Pig (2015/06/05)
  4. 軟體開發者前進 Hive (2015/06/09)
  5. 軟體開發者前進 NoSQL-HBase (2015/06/25)
智庫驅動DSP
  1. A2: 資料分析進階班 (2015/5/23、24、30、31)
  2. E1: 資料工程基礎班(2015/7/4、5、11、12)
  3. 資料爬理析 Python 實戰班(2015/8/1、2、8、9)
  4. E1: 資料工程基礎班 (2015/11/14、15、21、22)
  5. 模型思考團訓班 Analytical thinking team training (2015/10/24, 25)
  6. 資料工程團訓班 Data Engineer training program (E1) (2015/11/14152122)
  7. 資料思考團訓班 Data thinking team training (2015/12/561213)
巨匠電腦
  1. Big Data實務分析與應用(持續開設中)
臺灣資料科學與商業應用協會

MIC產業顧問學院
  1. SAS教育訓練
Agilearning.IO

2015年3月3日 星期二

用大數據看2015年春運:百度遷徙

新年到!!新年好!!

還記得筆者去年整理的大數據春運主題「用巨量資料看春運:百度遷徙」,很快的又過了一年,這次的春運資料視覺化做的更棒更好了。

筆者去年有提到,百度遷徙是百度透過適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,做了資料視覺呈現。今年百度已經把LBS這個服務商品化,並且命名為「百度慧眼」,提供顧客行為收集與觀察。另外在基礎設施的部分,也改用了百度開放平台來做支持,讓整體的軟體效果處理更為順暢。從這樣一年的改變與觀察,我們可以發現大數據並不是一步到位,而是需要日經月累的耕耘。

我們一樣從介面設計來觀察,從最基本的時間來看,去年的時間選擇從小小的方格,變成了時間軸的概念,把時間具體做了切割,讓使用者更能直覺的選擇時間(如紅框)。


下圖中在選擇城市的地方,雖然沒做太多變動,但運輸往返的顯示效果做的更細緻了,值得一提的是數據更為精確了。


從下圖往返的數據上可以觀察到,除夕夜晚上從對岸到臺灣的人,以上海、廣州的人最多。
有趣的地方是,在時間軸上有提供折線圖,提供查詢每一天在到臺灣的人數變化。


除了豐富的遷移資訊之外,這次百度遷徙還提供了即時航班、機場熱度、車站熱度。

即時航班如下圖呈現,可以看到小型正在移動的飛機,以及該班機的細部資訊。

機場熱度的部分,則是如下圖呈現,以黃色小圓點作為機場,跳動的圓點作為熱門的機場。

如下圖所示,車站熱度與機場熱度類似,只是車站較多,黃色小圓點又更細了,跳動的圓點一樣作為熱門的車站。


最後值得一提的是,去年筆者提的建議,大部分都已經解決,尤其在手機與平板的處理上,這次系統做的更精緻了,只能說真的非常有效率。

筆者一樣做個小結論,百度遷徙的應用商業價值在於透明,透過大數據把交通資料透明化,讓兩岸商業有更多交集,像是筆者去年提的這幾點
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 更多......
都是值得參考的。






2015年2月18日 星期三

必學的10個R套件

最近非常的忙碌,終於逮到一個機會在除夕夜前,將幾個月前想要寫的文章整理一番。

圖:R de jeu


R軟體已在這兩年如黑馬般,串升到十大必學語言之一。從各種數據可以觀察到,由於R的開發者專注做資料分析這塊,因此資料分析的資源非常豐富,也奠定R這個工具在處理資料的獨特定位。

不過R的套件(Package)或稱R包,其實非常的豐富,目前已經有6,328 (2015/02/18)個套件,一定會有人想知道,到底哪些套件使用頻率最多,且被推薦使用。
所以筆者收集了不同的排名報告,包含Data CampyhatR-statistics blogRevolutions,整理了您不能不學的10個R套件。

整理如下:

這個套件是玩R繪圖必須知道的套件,
擁有非常強大的繪圖功能。早些年ggplot2與lattice同為高級繪圖套件,不過看來ggplot2略勝一籌。

這個套件可以將vector、list、data.frame的資料做快速的切割、應用、組合,是非常好用的套件,像是join功能,可以做inner、left、right、full等join功能。
plyr可以讓工程師以資料庫的概念,有效率的把玩資料。

這個套件跟plyr類似,但是針對data.frame、data.table、以及多種資料庫為基礎的資料。將資料做快速的切割、應用、組合,尤其處理大量資料,dplyr是非常好用的工具。 


這個套件可以幫助我們將資料進行縱向、橫向轉換,筆者發現對於該套件處理連續型或時間資料是非常好用的,如空氣品質資料、證券行情資料等。通常會再搭配dplyr,讓資料分析事半功倍。

這個套件更不用多說了,它可以讓R跟C++做完美的融合,演算法玩深一點的朋友就會發現,這個套件是調整效能的最佳工具。

該套件對於資工領域的人應該不陌生,digest可以用來處理雜湊函式(hash function),對岸譯為哈希表。雜湊函式通常是用來做資料壓縮,使資料量變小,常見像是網頁數位簽署、登入驗證、壓縮程式,甚至是現在的NoSQL Key-Value儲存概念,都有雜湊函式(Hash Function)的身影。值得一提的是這個套件的貢獻者Wush Wu是唯一台灣人,且也是Taiwan R User Group的共同創辦人。

這個可以透過正規表示式(Regular Expression)去處理大量的字串,像是檢查、配對、替換等等。

主要提供日期、時間、時區的標準化處理。

這個套件可以協助我們透過R做各種報告,像是HTML、Sweave等等,好處是我們可以透過該套件做可重製之研究(Reproducible Research),該套件目前已經內建在R studio中。此外這個套件的貢獻者也有Wush Wu。

這個套件是做原型(prototype)非常好用的工具,尤其在大型公司的資料團隊,我們經常會需要做原型在進行展示。透過shiny就可以達到這個目的。知名的例子像是ebay就是採用shiny產生原型測試後,在用Java語言佈署到應用層。有興趣可以參考筆者整理去年底2014 R Taiwan 研討會來自eBay資深資料採擷工程師的簡報

在此也祝大家新的一年新年快樂、事事順心、揚眉吐氣。


參考資料:






2014年12月30日 星期二

2014 R Taiwan 研討會精彩簡報整理

2014 Taiwan 研討會圓滿於12月19、20日圓滿落幕,這次較去年更為盛大,參與的人與單位也更多,本次活動主辦包含:

  1. 中華R軟體學會
  2. 臺北商業大學資訊與決策科學研究所
  3. 臺北商業大學資訊與決策科學研究所資料科學應用研究中心
  4. 東吳大學海量資料研究中心
協辦單位包含:
  1. 中華電信學院
  2. 統計之都(COS)
  3. 臺灣資料科學與商業應用協會
  4. 德明財經科技大學研發處
  5. 台北科技大學區域產學合作中心
  6. 中國電機工程學會
  7. 財團法人中華民國電腦技能基金會
  8.  東吳大學巨量資料管理學院
除了議題較去年更為多元,研討會時間更是從一天延長到兩天。研討會地點從學校,提升到業界單位,參加人數更是提升一倍以上。從這些數據可以觀察台灣在資料科學、大數據等相關數據領域的探索上,較2013年 R 研討會更為成熟。



以下為第一天的議程與簡報:
  1. 巨量資料對台灣產業的機會與挑戰
     (資策會 林蔚君 所長)
  2. 雲端巨量資料運算服務
    (
    中華電信 葉筱楓 副經理)
  3. R在新藥研發中的應用
    (中國統計之都 李艦 顧問)
  4. 運用R建置潛客預測模型
    (陳文欽 博士)
  5. R在行動廣告大數據分析與整合應用
    (VPON移動數據團隊 首席數據科學家趙國仁 博士)
  6. R與地圖信息的可視化
    (SupStat數據科學家  郎大為 先生)
  7. 台灣企業跨入大資料世界的兩難
     (美商Teradata台灣分公司  客戶經理 楊明禮 先生)
  8. R在金融數據分析之應用
    (東吳大學 吳牧恩 博士)
  9. 實現資料解析生態系統
     (Data Analytics Ecosystem)在高科技智慧工廠 (宇清數位智慧股份有限公司徐紹鐘副總)
以下為第二天的議程與簡報:
  1. 務實的大數據思維:Learning from political campaign trail–從Clinton, Obama選戰學習
    (愛訊國際顧問有限公司  陳彥廷 先生)
  2. Growh hacker 的 R 工具箱
    ("在路上"旅行APP Growth Hacker 張翔 先生)
  3. 網站實驗設計框架與實戰
    (eBay資深分析師 陳麗雲 女士)
  4. 粉絲團群集與推薦應用
    (國立臺北商業大學  資訊與決策科學研究所 林文政 先生)
  5. R的簡單網路應用-玩轉網站資料
    (中強光電新事業應用發展部  資料研發工程師 湯明軒 先生)
  6. 地理信息與LBS位置服務
    (中國統計之都 李艦 顧問)
  7. R和機器學習在ebay的企業級應用
    (eBay資深資料採擷工程師 趙揚 先生)
  8. R在新媒體中的應用
    (精品購物指南報社精品報系 首席編輯 別業青 女士)
  9. 基於R語言的投資監控平臺之構建
    (首鋼集團  財務部分析師 鄧一碩 先生) 
這兩天的研討會可以看到大數據在各個領域逐漸發展,像是顧客行為分析、新媒體應用、行動廣告、預測潛在顧客等行銷應用。像是半導體製程數據分析的製造業應用。像是乳癌篩檢的醫學應用等等。

在眾多R語言的應用中,筆者觀察R語言已經在大型企業與小型企業有異曲同工之妙,如在大型企業的eBay中資料分析師利用R具有多元演算法的特性,以R進行各項演算法模型的建立,並透過R語言打造基本雛形,再交給工程單位用Java進行軟體工程的調整,因此大型企業主要是透過R語言建立「分析流程」。

在一般小型企業,R語言則肩負了分析與工程的雙重角色,除了快速建立各項資料分析模型之外,並建立雛形,提供給PHP、ROR、Node.js進行軟體工程的整合,因此小型企業使用R語言進行「雛型建立」。

拜這些開放原始碼的進步,早期的艱澀難懂的演算法,透過R語言已能夠快速被應用,甚至在兩三天內做出雛形系統。因此資料科學家可以花較多的時間進行部門間的溝通,資料科學家除了熟悉演算法的特性之外,更要懂得透過演算法協助企業創造價值,譬如:哪些演算法可以提升業績、哪些演算法可以提升工作效率、哪些演算法可以降低營運成本等。透過R語言的應用彈性,為自己在公司中持續創造價值。


明年的資料科學相關研討會,將會更盛大更精彩,敬請期待!
祝各位2015新年快樂!



2014年資料相關領域研討會回顧:



2014年10月3日 星期五

什麼是大數據的新架構「資料湖泊」?

隨著資訊科技的發達,企業開始面臨大量數據的儲存問題。過去許多企業從導入資料庫,到導入 資料倉儲,甚至商業智慧。以面對不斷增長的資料以及資料的應用問題,但資料持續增加,傳統架構將可能不敷使用。

因此有個新名詞「資料湖泊(Data Lake)」(又稱數據湖泊、DL)因應而生。該名詞於2011年最早出現在富比士(Forbes)雜誌,「Big Data Requires a Big, New Architecture」一文中。

資料湖泊(Data Lake)有別於我們提到的資料倉儲(Data Warehouse),資料倉儲(DW)的資料通常是品質較高,且是被預先處理過的資料。而資料湖泊(DL)則是儲存大量且龐雜的資料,作為資料素材(Data Material)的儲存池(Pool),以便未來分析使用。

因此資料湖泊(DL)使資料科學家在資料分析上擁有更大的分析彈性。

資料湖泊(DL)被提起後,EMC也開始使用這個名詞進行大數據產品的推廣。

今年1月富比士(Forbes)雜誌的「The Data Lake Dream」一文中,提到了資料湖泊(DL)成熟度的分為四級,筆者將圖片重新翻譯繪製並整理如下:

圖一:資料湖泊成熟度第一級

首先是成熟度第一級「尚未導入DL」,紅色為應用服務(資料庫),綠色為資料倉儲,部分資料間互相串接,部分資料傳遞到資料倉儲進行分析。該架構也是目前企業普遍的資料架構,各個資料庫相互獨立,只有少部分資料庫整理資料後,傳到資料倉儲做分析應用。此成熟度有3個重點:
  1. 企業所有應用服務(資料庫)都各別獨立。
  2. 僅部分資料庫將資料傳遞到資料倉儲。
  3. 資料科學家透過資料倉儲進行資料分析。

圖二:資料湖泊成熟度第二級

當進入到成熟度第二級「導入Hadoop」,紅色為應用服務(資料庫),綠色為資料倉儲,藍色為Hadoop、深藍色為資料分析器。這時候資料庫開始把部分資料往Hadoop進行傳遞,資料科學家可透過Hadoop進行ETL(資料萃取、轉換、讀取),提升分析效率。本成熟度4個重點:
  1. 企業的應用服務(資料庫),開始將部份資料儲存到Hadoop。
  2. Hadoop開始透過MapReduce處理資料。
  3. 資料科學家使用Hadoop進行ETL接著放到資料倉儲或開發資料分析器。
  4. Hadoop處理好的資料傳回應用服務(資料庫)
圖三:資料湖泊成熟度第三級

進展到成熟度第三級「資料不斷增長的資料湖泊」,紅色為應用服務(資料庫),綠色為資料倉儲,藍色為Hadoop、深藍色為資料分析器。這階段Hadoop可以說是扮演資料中心的角色,負責儲存巨量、龐雜、高不確定的資料。本成熟度有4個重點:
  1. 所有應用服務(資料庫)都以Hadoop為中心進行串接。
  2. Hadoop開始整合外部的資料來源。
  3. 透過資料分析語言或工具(如:R、Python、Impala, Greenplum, Spark等) 與Hadoop進行互動。
  4. Hadoop成為所有資料儲存的目的地,以便利企業進行資料治理(Data Governance)。


圖四:資料湖泊成熟度第四級

最後到成熟度第四級「資料湖泊與應用雲端平台」,目前只有少部分公司的資料規模可以做到,像是Google、Amazon、Alibaba、Facebook,因為這類型企業的資料已經大到一個規模,需要高效率的資料處理架構。這時候企業應用服務(APPs)的資料存取大部分都由Hadoop這邊作互動。在這個階段主要強調資料安全(Data Security)與資料治理(Data Governance)的部分,進行加強。本成熟度有4個重點:

  1. 所有的新的應用服務全都建立在Hadoop的平台上。
  2. 新的應用服務的資料庫佈署時間將減少。
  3. Hadoop成為分散式的資料運算平台,運用於資料管理與分析。
  4. Hadoop強化資料安全與資料治理的功能。
最後筆者整理了資料庫、資料倉儲、資料湖泊三個不同特性比較給大家參考。

表:資料科學實驗室整理

上述表格,可以讓我們快速了解這些不同的名詞之間的差異。在企業中,面對大數據的浪潮,除了掌握上述的成長模式,也要依據資料庫、資料倉儲、資料湖泊的特性,分別將這些資料儲存模式定位,賦予不同的任務。

至於資料湖泊一定要用Hadoop嗎? 筆者的回答是不一定,就好像現在SQL Database有Oracle、MySQL、MS SQL等,NoSQL Database有MongoDB、CouchDB等,永遠都有很多選擇。只是目前Hadoop是國際間處理大數據較為穩定的技術,國外近年的新創公司也都採用Hadoop協助企業做資料管理。

筆者認為只要掌握前面四級的資料湖泊成長模式,相信企業就可以很快掌握大數據的處理方向,至於使用什麼技術,技術的特性是什麼,下回再談。先讓我們一起迎接充滿數據的未來吧!

參考資料:




2014年9月17日 星期三

2014年國際Top 50新興大數據服務公司


美國知名通路媒體(CRN),最近整理了2014年國際排名前100大的新興Big Data公司,筆者根據國外論壇報導,整理排名前50名公司來進行分享。

這些公司有65%都在美國矽谷,公司的服務項目包大數據的基礎設施建設、數據分析、數據管理等。值得注意的是,這些公司的平均年齡都小於4年,且服務項目都各有專注,像是PivotalXplenty專門處理Big Data的基礎設施,而Alpine Data LabsNumerify為數據分析的專業。


2014年8月31日 星期日

「2014 台灣資料科學愛好者年會」精彩資料整理

8/30~8/31於中央研究院舉辦的「2014 台灣資料科學愛好者年會」告一段落。
順手整理這兩天的精彩文章、演講與課程的簡報給大家參考!
共8篇文章、16份簡報、6場R課程簡報。



2014年8月30日 星期六

13個資料科學實驗室精選訊息(2014/08)

筆者精選資料科學相關的關注訊息之整理。

關鍵訊息:
  1. 看資料找故事工作坊-千萬資料可以化約成幾個數字,但每個數字背後都有一個故事
  2. 看資料找故事工作坊-橫看成嶺側成峰,遠近高低各不同,未識故事真面目,只緣身在資料中
  3. 資料科學 IN 白色巨塔
  4. 資料視覺化公司Re-LAB
    記得兩年前觀察國外的Infographic公司大多都從2010年開始,而且總數不到一百家,沒想到台灣開始也有類似公司。
  5. Data scientist: Your mileage may vary
  6. 文章指出,資料科學家的薪水,已經漲到一年最多30萬美金,折合台幣900萬台幣,而且只需兩年的工作經驗,這數字真的很驚人。但資料科學家本身除了要會做,還要會想,如同小弟之前的文章「蘋果的Big Data職缺,想進蘋果也要懂資料分析」所說的,人才真的不好找!
  7. 馬來西亞:線上預訂餐廳服務 TableApp,來台取經後快速成長
  8. 資料價值還缺一味,資料科學團隊還缺一位
  9. Data Is Money: Why The Cloud Is Transforming Data Into A New Global Currency
  10. 全臺資料科學家周末齊聚南港,價值百萬年薪的經驗大公開
  11. 大數據評估公司Wecash閃銀獲IDG千萬級投資
  12. R tops KDNuggets data analysis software poll for 4th consecutive year
    2014最新的資料分析軟體使用比較出爐,R還是高於其他的軟體,排名依序為R>SAS>Python>SQL>Java,組合使用的比例還是以R+Python居多,其次是Python+SAS 。

技術文章:

2014年7月10日 星期四

大數據探索航空資料系列-達美航空

Logo/達美航空、攝影/Jerry

繼續本系列主題,本次介紹的應用是來自達美航空(Delta Air Lines),達美航空在這幾年扶搖直上,於2010年完成跟西北航空合併之後,成為全世界航線里程與客運機隊規模最大的航空公司。

這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。