2014年12月30日 星期二

2014 R Taiwan 研討會精彩簡報整理

2014 Taiwan 研討會圓滿於12月19、20日圓滿落幕,這次較去年更為盛大,參與的人與單位也更多,本次活動主辦包含:

  1. 中華R軟體學會
  2. 臺北商業大學資訊與決策科學研究所
  3. 臺北商業大學資訊與決策科學研究所資料科學應用研究中心
  4. 東吳大學海量資料研究中心
協辦單位包含:
  1. 中華電信學院
  2. 統計之都(COS)
  3. 臺灣資料科學與商業應用協會
  4. 德明財經科技大學研發處
  5. 台北科技大學區域產學合作中心
  6. 中國電機工程學會
  7. 財團法人中華民國電腦技能基金會
  8.  東吳大學巨量資料管理學院
除了議題較去年更為多元,研討會時間更是從一天延長到兩天。研討會地點從學校,提升到業界單位,參加人數更是提升一倍以上。從這些數據可以觀察台灣在資料科學、大數據等相關數據領域的探索上,較2013年 R 研討會更為成熟。



以下為第一天的議程與簡報:
  1. 巨量資料對台灣產業的機會與挑戰
     (資策會 林蔚君 所長)
  2. 雲端巨量資料運算服務
    (
    中華電信 葉筱楓 副經理)
  3. R在新藥研發中的應用
    (中國統計之都 李艦 顧問)
  4. 運用R建置潛客預測模型
    (陳文欽 博士)
  5. R在行動廣告大數據分析與整合應用
    (VPON移動數據團隊 首席數據科學家趙國仁 博士)
  6. R與地圖信息的可視化
    (SupStat數據科學家  郎大為 先生)
  7. 台灣企業跨入大資料世界的兩難
     (美商Teradata台灣分公司  客戶經理 楊明禮 先生)
  8. R在金融數據分析之應用
    (東吳大學 吳牧恩 博士)
  9. 實現資料解析生態系統
     (Data Analytics Ecosystem)在高科技智慧工廠 (宇清數位智慧股份有限公司徐紹鐘副總)
以下為第二天的議程與簡報:
  1. 務實的大數據思維:Learning from political campaign trail–從Clinton, Obama選戰學習
    (愛訊國際顧問有限公司  陳彥廷 先生)
  2. Growh hacker 的 R 工具箱
    ("在路上"旅行APP Growth Hacker 張翔 先生)
  3. 網站實驗設計框架與實戰
    (eBay資深分析師 陳麗雲 女士)
  4. 粉絲團群集與推薦應用
    (國立臺北商業大學  資訊與決策科學研究所 林文政 先生)
  5. R的簡單網路應用-玩轉網站資料
    (中強光電新事業應用發展部  資料研發工程師 湯明軒 先生)
  6. 地理信息與LBS位置服務
    (中國統計之都 李艦 顧問)
  7. R和機器學習在ebay的企業級應用
    (eBay資深資料採擷工程師 趙揚 先生)
  8. R在新媒體中的應用
    (精品購物指南報社精品報系 首席編輯 別業青 女士)
  9. 基於R語言的投資監控平臺之構建
    (首鋼集團  財務部分析師 鄧一碩 先生) 
這兩天的研討會可以看到大數據在各個領域逐漸發展,像是顧客行為分析、新媒體應用、行動廣告、預測潛在顧客等行銷應用。像是半導體製程數據分析的製造業應用。像是乳癌篩檢的醫學應用等等。

在眾多R語言的應用中,筆者觀察R語言已經在大型企業與小型企業有異曲同工之妙,如在大型企業的eBay中資料分析師利用R具有多元演算法的特性,以R進行各項演算法模型的建立,並透過R語言打造基本雛形,再交給工程單位用Java進行軟體工程的調整,因此大型企業主要是透過R語言建立「分析流程」。

在一般小型企業,R語言則肩負了分析與工程的雙重角色,除了快速建立各項資料分析模型之外,並建立雛形,提供給PHP、ROR、Node.js進行軟體工程的整合,因此小型企業使用R語言進行「雛型建立」。

拜這些開放原始碼的進步,早期的艱澀難懂的演算法,透過R語言已能夠快速被應用,甚至在兩三天內做出雛形系統。因此資料科學家可以花較多的時間進行部門間的溝通,資料科學家除了熟悉演算法的特性之外,更要懂得透過演算法協助企業創造價值,譬如:哪些演算法可以提升業績、哪些演算法可以提升工作效率、哪些演算法可以降低營運成本等。透過R語言的應用彈性,為自己在公司中持續創造價值。


明年的資料科學相關研討會,將會更盛大更精彩,敬請期待!
祝各位2015新年快樂!



2014年資料相關領域研討會回顧:



2014年10月3日 星期五

什麼是大數據的新架構「資料湖泊」?

隨著資訊科技的發達,企業開始面臨大量數據的儲存問題。過去許多企業從導入資料庫,到導入 資料倉儲,甚至商業智慧。以面對不斷增長的資料以及資料的應用問題,但資料持續增加,傳統架構將可能不敷使用。

因此有個新名詞「資料湖泊(Data Lake)」(又稱數據湖泊、DL)因應而生。該名詞於2011年最早出現在富比士(Forbes)雜誌,「Big Data Requires a Big, New Architecture」一文中。

資料湖泊(Data Lake)有別於我們提到的資料倉儲(Data Warehouse),資料倉儲(DW)的資料通常是品質較高,且是被預先處理過的資料。而資料湖泊(DL)則是儲存大量且龐雜的資料,作為資料素材(Data Material)的儲存池(Pool),以便未來分析使用。

因此資料湖泊(DL)使資料科學家在資料分析上擁有更大的分析彈性。

資料湖泊(DL)被提起後,EMC也開始使用這個名詞進行大數據產品的推廣。

今年1月富比士(Forbes)雜誌的「The Data Lake Dream」一文中,提到了資料湖泊(DL)成熟度的分為四級,筆者將圖片重新翻譯繪製並整理如下:

圖一:資料湖泊成熟度第一級

首先是成熟度第一級「尚未導入DL」,紅色為應用服務(資料庫),綠色為資料倉儲,部分資料間互相串接,部分資料傳遞到資料倉儲進行分析。該架構也是目前企業普遍的資料架構,各個資料庫相互獨立,只有少部分資料庫整理資料後,傳到資料倉儲做分析應用。此成熟度有3個重點:
  1. 企業所有應用服務(資料庫)都各別獨立。
  2. 僅部分資料庫將資料傳遞到資料倉儲。
  3. 資料科學家透過資料倉儲進行資料分析。

圖二:資料湖泊成熟度第二級

當進入到成熟度第二級「導入Hadoop」,紅色為應用服務(資料庫),綠色為資料倉儲,藍色為Hadoop、深藍色為資料分析器。這時候資料庫開始把部分資料往Hadoop進行傳遞,資料科學家可透過Hadoop進行ETL(資料萃取、轉換、讀取),提升分析效率。本成熟度4個重點:
  1. 企業的應用服務(資料庫),開始將部份資料儲存到Hadoop。
  2. Hadoop開始透過MapReduce處理資料。
  3. 資料科學家使用Hadoop進行ETL接著放到資料倉儲或開發資料分析器。
  4. Hadoop處理好的資料傳回應用服務(資料庫)
圖三:資料湖泊成熟度第三級

進展到成熟度第三級「資料不斷增長的資料湖泊」,紅色為應用服務(資料庫),綠色為資料倉儲,藍色為Hadoop、深藍色為資料分析器。這階段Hadoop可以說是扮演資料中心的角色,負責儲存巨量、龐雜、高不確定的資料。本成熟度有4個重點:
  1. 所有應用服務(資料庫)都以Hadoop為中心進行串接。
  2. Hadoop開始整合外部的資料來源。
  3. 透過資料分析語言或工具(如:R、Python、Impala, Greenplum, Spark等) 與Hadoop進行互動。
  4. Hadoop成為所有資料儲存的目的地,以便利企業進行資料治理(Data Governance)。


圖四:資料湖泊成熟度第四級

最後到成熟度第四級「資料湖泊與應用雲端平台」,目前只有少部分公司的資料規模可以做到,像是Google、Amazon、Alibaba、Facebook,因為這類型企業的資料已經大到一個規模,需要高效率的資料處理架構。這時候企業應用服務(APPs)的資料存取大部分都由Hadoop這邊作互動。在這個階段主要強調資料安全(Data Security)與資料治理(Data Governance)的部分,進行加強。本成熟度有4個重點:

  1. 所有的新的應用服務全都建立在Hadoop的平台上。
  2. 新的應用服務的資料庫佈署時間將減少。
  3. Hadoop成為分散式的資料運算平台,運用於資料管理與分析。
  4. Hadoop強化資料安全與資料治理的功能。
最後筆者整理了資料庫、資料倉儲、資料湖泊三個不同特性比較給大家參考。

表:資料科學實驗室整理

上述表格,可以讓我們快速了解這些不同的名詞之間的差異。在企業中,面對大數據的浪潮,除了掌握上述的成長模式,也要依據資料庫、資料倉儲、資料湖泊的特性,分別將這些資料儲存模式定位,賦予不同的任務。

至於資料湖泊一定要用Hadoop嗎? 筆者的回答是不一定,就好像現在SQL Database有Oracle、MySQL、MS SQL等,NoSQL Database有MongoDB、CouchDB等,永遠都有很多選擇。只是目前Hadoop是國際間處理大數據較為穩定的技術,國外近年的新創公司也都採用Hadoop協助企業做資料管理。

筆者認為只要掌握前面四級的資料湖泊成長模式,相信企業就可以很快掌握大數據的處理方向,至於使用什麼技術,技術的特性是什麼,下回再談。先讓我們一起迎接充滿數據的未來吧!

參考資料:




2014年9月25日 星期四

21個醫學影像分析的R軟體套件


筆者由於工作需要,所以整理了一下在R裡面有關醫學影像分析(Medical Image Analysis)的技術,純粹供有需要的朋友們參考。小弟不是醫學影像專家,若有敘述錯誤,請不吝指正,謝謝。

第一個部分跟醫療數位影像傳輸協定(Digital Imaging and Communications in Medicine 簡稱DICOM)有關。DICOM是針對醫學領域所制訂的一種通訊規格,該規格把一般的影像包成一個物件IOD(Information Object Definition),有點像是XMLJSON格式,主要把影像分為兩大部分,像素資料與影像屬性。


2014年9月17日 星期三

2014年國際Top 50新興大數據服務公司


美國知名通路媒體(CRN),最近整理了2014年國際排名前100大的新興Big Data公司,筆者根據國外論壇報導,整理排名前50名公司來進行分享。

這些公司有65%都在美國矽谷,公司的服務項目包大數據的基礎設施建設、數據分析、數據管理等。值得注意的是,這些公司的平均年齡都小於4年,且服務項目都各有專注,像是PivotalXplenty專門處理Big Data的基礎設施,而Alpine Data LabsNumerify為數據分析的專業。


2014年8月31日 星期日

「2014 台灣資料科學愛好者年會」精彩資料整理

8/30~8/31於中央研究院舉辦的「2014 台灣資料科學愛好者年會」告一段落。
順手整理這兩天的精彩文章、演講與課程的簡報給大家參考!
共8篇文章、16份簡報、6場R課程簡報。



2014年8月30日 星期六

13個資料科學實驗室精選訊息(2014/08)

筆者精選資料科學相關的關注訊息之整理。

關鍵訊息:
  1. 看資料找故事工作坊-千萬資料可以化約成幾個數字,但每個數字背後都有一個故事
  2. 看資料找故事工作坊-橫看成嶺側成峰,遠近高低各不同,未識故事真面目,只緣身在資料中
  3. 資料科學 IN 白色巨塔
  4. 資料視覺化公司Re-LAB
    記得兩年前觀察國外的Infographic公司大多都從2010年開始,而且總數不到一百家,沒想到台灣開始也有類似公司。
  5. Data scientist: Your mileage may vary
  6. 文章指出,資料科學家的薪水,已經漲到一年最多30萬美金,折合台幣900萬台幣,而且只需兩年的工作經驗,這數字真的很驚人。但資料科學家本身除了要會做,還要會想,如同小弟之前的文章「蘋果的Big Data職缺,想進蘋果也要懂資料分析」所說的,人才真的不好找!
  7. 馬來西亞:線上預訂餐廳服務 TableApp,來台取經後快速成長
  8. 資料價值還缺一味,資料科學團隊還缺一位
  9. Data Is Money: Why The Cloud Is Transforming Data Into A New Global Currency
  10. 全臺資料科學家周末齊聚南港,價值百萬年薪的經驗大公開
  11. 大數據評估公司Wecash閃銀獲IDG千萬級投資
  12. R tops KDNuggets data analysis software poll for 4th consecutive year
    2014最新的資料分析軟體使用比較出爐,R還是高於其他的軟體,排名依序為R>SAS>Python>SQL>Java,組合使用的比例還是以R+Python居多,其次是Python+SAS 。

技術文章:

2014年7月10日 星期四

大數據探索航空資料系列-達美航空

Logo/達美航空、攝影/Jerry

繼續本系列主題,本次介紹的應用是來自達美航空(Delta Air Lines),達美航空在這幾年扶搖直上,於2010年完成跟西北航空合併之後,成為全世界航線里程與客運機隊規模最大的航空公司。

這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。


2014年7月3日 星期四

大數據探索航空資料系列-美國聯邦航空管理局

攝影/Jerry

最近筆者剛好讀到有關於大數據應用於航空資料分析,值得整理介紹給相關領域的朋友們參考。記得上Data Science Program的課程中,曾有學生邀請筆者至某航空公司擔任顧問,但筆者實在是分身乏術,所以希望這一篇能夠幫上航空界的忙。

其中一篇是2009年刊登在知名期刊Knowledge-Based Systems上的學術研究,主要是應用決策樹(Decision trees)從美國聯邦航空管理局(FAA)的數據來挖掘出可能會出現航空事故的特徵。研究所採用的分析工具為Megaputer Intelligence所開發的PolyAnalyst與挪威科技大學開發的Rosetta


2014年6月7日 星期六

蘋果的Big Data職缺,想進蘋果也要懂資料分析



最近全世界都吹起Big Data風潮,連蘋果(Apple)也一同蠢蠢欲動。最新的蘋果職缺中,今年2014年5月14日,蘋果的廣告部門開了一個高級軟體工程師的職缺。

筆者將職缺需求整理如下,提供相關的產業參考。

  1. 超過五年的軟體工程與資料分析的經驗
  2. 熟悉的工具須要包含Java、Python、Hadoop、R、SPSS、SAS
  3. 具有網路廣告的分析經驗
  4. 懂SQL,也就是過去大家熟悉的關聯式資料庫
  5. 理論的部分要懂資料探勘(Data mining)、資料匹配(Data matching)、機器學習(Machine learning)、 統計(Statistical techniques)、實驗設計(Experimental design)、最佳化(Optimization)。
  6. 具有大量數據的處理經驗,像是處理單位高達PB(Petabyte)以上的資料量。
  7. 具有解決真實問題的經驗
  8. 獨立的工作能力
  9. 關注資料分析的準確率與品質
以上主要的徵求內容,在台灣算是跨科系才能學到的能力,筆者舉例如下:
  • Java較偏資工系
  • R較偏統計系
  • Python與Hadoop可能偏資管系或資工系
  • SQL的部分偏資工與資管
理論的部分資管跟資工都可以選修到,有些還是必修,最佳化(Optimization)的課反而在工管系才可能碰到。當然現在有所謂的「資訊科學系」可能前述理論與工具都可能學習到。而個人覺得工具面的部份包含Java、Python、Hadoop、R這些開放原始碼,大部分都還是要靠學生自行學習。

最難的部分是在領域知識,像是蘋果的職缺需求就要網路廣告的分析經驗,對岸有些職缺需要懂金融、商業等領域知識的,這些領域知識在學校反而偏向是商業類科系才可能碰到,譬如筆者在大學修的廣告學、消費者行為,都需要跨修到企管系。

面對於這種職缺需要多年養成的職缺,企業不可能要求求職者百分之百都會以上技能,因為有些求職者即使會以上技能,個性與相處上反而也有問題,只能盡量取人格特質與技能較為平均的人才。i

以筆者的經驗,通常一般行情是很難請到具有上述能力的人才。因此筆者就根據企業所要發展的方向來決定這些能力的比重,像是工作在分析比重較高,就會著重在R與Python的能力,且具有商業分析概念,且具備「溝通」能力的人才,因為他一般的工作就是協助進行資料分析,並產製BI報表或平台的能力。而R跟Python本身就能完成這些事情,所以工作反而是在溝通與呈現,以及應用統計、資料探勘、機器學習等理論在實務上。

至於比較強調資料儲存與資料流通的,技術要求就會著重SQL、NoSQL上,因為這類人才就類似早期的資料庫管理師,強調在資料庫的配置,資料庫的管理,他的工作比較偏重資料庫、基礎設施、資訊安全,同時這個角色對於伺服器這些硬體設備也要有一定的了解。

最後,比較著重系統建置的,就會希望具有PHP、RoR、Python、C#與資料庫的能力。這個角色能夠提供前端與後端的系統建置,像是具有做過ERP、PLM這類大型系統的建置經驗,他們通常具備一些技能組合,像是PHP+MySQL、C#+MSSQL、RoR+PostgreSQL等等,他們負責將資料分析人員產生的雛型(Prototype)進行實踐。

這樣的分工組合就可以變成分析的人才專注在分析與商業應用探討,並做出雛形系統,資料庫人員專注協助資料庫管理與資訊安全,系統建置則專注將分析結果實施到企業系統上。

最後還要搭配專案經理或產品經理的角色,該角色具備領域知識與管理技能,如此一來就是一個理想的資料科學團隊雛型。

參考:
資料科學團訓班
資料爬理析 Python 實戰班2

2014年5月27日 星期二

10位國際頂尖資料探勘大師


近年來巨量資料(Big Data)的風行,讓沈寂20多年的資料探勘(Data Mining)技術又再度熱絡起來,並且延燒到企業中,像是前幾天甫落幕的活動,華碩與亞太資料探勘及知識發掘會議(Pacific-Asia Conference on Knowledge Discovery and Data Mining,簡稱PAKDD)共同舉辦的國際性大數據探勘競賽,就嘗試將為期5年的維修紀錄作為比賽的原始資料,要求參賽者推測出各元件每月報修數量的預測模型。
排名
學者
引用次數
1
Trevor Hastie
93283
2
Jiawei Han
88940
3
Jeffrey Ullman
88621
4
Rakesh Agrawal
80673
5
Jinyan Li
79323
6
John Canny
56691
7
Jeongkyu Lee
55065
8
Philip S. Yu
54020
9
Vipin Kumar
53489
10
Christos Faloutsos
46079


而每個領域都有所屬的專家,因此這邊筆者整理了國際頂尖10位的資料探勘專家,該排名依據是由Google Scholar中的文章引用次數(Cited),通常引用次數越高,也代表該名學者的學術聲望越高。

接下來讓我們一同向大師學習,依據排名這10位大師分別是Trevor HastieJeffrey UllmanJinyan LiJeongkyu LeeVipin KumarJiawei HanRakesh AgrawalJohn CannyPhilip S. YuChristos Faloutsos,以下表格包含排序與引用次數。

Trevor HastieJeffrey Ullman分別是史丹佛大學(Stanford University)的統計與電腦科學教授。其中Trevor Hastie教授以R語言作為主要工具,所撰寫的The Elements of Statistical Learning一書,就被引用高達一萬九千次,另一位教授Jeffrey Ullman則是知名的計算機概論書籍Compilers Principles Techniques and ToolsIntroduction to Automata Theory, Languages, and Computation的作者。接著Jiawei Han為伊利諾大學的電腦科學教授,這位教授大家應該就不陌生,因為JiaweiHan教授的書Data mining: concepts and techniques堪稱資料探勘界的經典書籍,該本書引用次數高達兩萬多,是超過前面兩位教授的。關於他的介紹,請大家直接參閱下面的報導:


接著是Rakesh Agrawal,為印度的數據挖掘之父,該名學者為微軟研究中心的研究員,曾在IBM 研究中心發表名為Fast algorithms for mining association rulesMining Association Rules between Sets of Items in Large Databases引用次數破萬次,使他位居於第四名。接著Jinyan Li為悉尼科技大學(University of Technology, Sydney)的教授,專長偏生物領域,發表多篇生物相關的資料探勘研究。

John Canny為加州大學柏克萊分校(University of California, Berkeley)的教授則為知名人工智慧的書籍Artificial intelligence: a modern approach作者,引用次數也高達兩萬多次。而Jeongkyu Lee為橋港大學(University of Bridgeport)的教授,跟Jinyan Li相同皆以多篇資料探勘生物應用研究,擁有較高的引用次數。

Jiawei Han同校並且也名列榜上的教授還有Philip S. Yu,而這兩位教授一個位於香檳分校,另一位於芝加哥分校,都是知名的資料探勘專家。Philip S. Yu教授以多篇資料探勘的理論研究為居第八,該學者的研究幾乎每篇都呈現破百的引用次數,像是Data mining: an overview from a database perspectiveAn effective hash-based algorithm for mining association rulesA framework for clustering evolving data streamsTop 10 algorithms in data mining等都是知名的文章。

接著是Vipin Kumar,他為明尼蘇達大學(University of Minnesota)的電腦科學教授,也曾與Philip S. Yu等人發表過Top 10 algorithms in data mining的文章,同時也是知名資料探勘書籍Introduction to Data Mining的作者,該書籍與Data mining: concepts and techniques都是台灣資料探勘課程的參考書籍。

最後一位Christos Faloutsos則是卡內基美隆大學(Carnegie Mellon University)的教授,該教授可以說是Graph mining的大師級人物,多篇Graph mining的研究,包含Graphs over time: densification laws, shrinking diameters and possible explanationsGraph evolution: Densification and shrinking diameters都是源於該學者

當然依照不同的角度,排名也就不同,其他排名在後的知名學者其實也不少,像是西門菲莎大學(Simon Fraser University)Jian Pei其實也是Data mining: concepts and techniques的作者之一,明尼蘇達大學(University of Minnesota)George Karypis教授就是知名推薦系統演算法Item-based collaborative filtering recommendation algorithms的作者。另外紐西蘭懷卡托大學(University of Waikato)Mark HallEibe Frank 兩位教授則是知名資料探勘軟體Weka的作者。而加利福尼亞大學歐文分校(University of California Irvine)的教授Padhraic Smyth則為提出資料庫知識發現(Knowledge-Discovery in Databases)流程的作者之一。

最後身為台灣人,台灣專家也要整理出來,依照Google Scholar的文章引用次數(Cited),名列前面的台灣專家還有台大網媒所的Chun-Wei LinChih-Jen Lin兩位教授,中研院的Ming-Syan Chen教授,三位都位居前30名中,所以台灣其實不簡單,小小一個國家就有三位專家在排名上。

從上面的資料可以發現,資料探勘領域專家多屬亞洲人居多,像是排名10大的就有4位亞洲人,Jiawei Han教授為上海人,Jinyan Li教授雖未說是哪裡人,但學士與碩士學位都是在中國拿的,因此可以推斷是亞洲人,Jeongkyu Lee教授則是韓國人,Philip S. Yu則是台灣出生,學士是在台大電機工程系拿的。所以在國內資料探勘專家其實不少喔!

下回筆者再來介紹機器學習的大師。


本文同步刊載於Data Science Program 資料科學計畫