資料科學實驗室: data mining tools

顯示具有 data mining tools 標籤的文章。顯示所有文章

2014年9月17日星期三

2014年國際Top 50新興大數據服務公司

美國知名通路媒體(CRN)，最近整理了2014年國際排名前100大的新興Big Data公司，筆者根據國外論壇報導，整理排名前50名公司來進行分享。

這些公司有65%都在美國矽谷，公司的服務項目包大數據的基礎設施建設、數據分析、數據管理等。值得注意的是，這些公司的平均年齡都小於4年，且服務項目都各有專注，像是Pivotal與Xplenty專門處理Big Data的基礎設施，而Alpine Data Labs與Numerify為數據分析的專業。

2014年8月30日星期六

13個資料科學實驗室精選訊息(2014/08)

筆者精選資料科學相關的關注訊息之整理。

關鍵訊息：

看資料找故事工作坊-千萬資料可以化約成幾個數字，但每個數字背後都有一個故事
看資料找故事工作坊-橫看成嶺側成峰，遠近高低各不同，未識故事真面目，只緣身在資料中
資料科學 IN 白色巨塔
資料視覺化公司Re-LAB
記得兩年前觀察國外的Infographic公司大多都從2010年開始，而且總數不到一百家，沒想到台灣開始也有類似公司。
Data scientist: Your mileage may vary
文章指出，資料科學家的薪水，已經漲到一年最多30萬美金，折合台幣900萬台幣，而且只需兩年的工作經驗，這數字真的很驚人。但資料科學家本身除了要會做，還要會想，如同小弟之前的文章「蘋果的Big Data職缺，想進蘋果也要懂資料分析」所說的，人才真的不好找!
馬來西亞：線上預訂餐廳服務 TableApp，來台取經後快速成長
資料價值還缺一味，資料科學團隊還缺一位
Data Is Money: Why The Cloud Is Transforming Data Into A New Global Currency
全臺資料科學家周末齊聚南港，價值百萬年薪的經驗大公開
大數據評估公司Wecash閃銀獲IDG千萬級投資
R tops KDNuggets data analysis software poll for 4th consecutive year
2014最新的資料分析軟體使用比較出爐，R還是高於其他的軟體，排名依序為R>SAS>Python>SQL>Java，組合使用的比例還是以R+Python居多，其次是Python+SAS 。

技術文章：

For Loop Tracking (Windows Progress Bar)
R建立讀取條的程式碼。
Python與R合併使用-Taiwan R User Group

2014年7月10日星期四

大數據探索航空資料系列-達美航空

Logo/達美航空、攝影/Jerry

繼續本系列主題，本次介紹的應用是來自達美航空(Delta Air Lines)，達美航空在這幾年扶搖直上，於2010年完成跟西北航空合併之後，成為全世界航線里程與客運機隊規模最大的航空公司。

這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章，介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。

2014年7月3日星期四

大數據探索航空資料系列-美國聯邦航空管理局

攝影/Jerry

最近筆者剛好讀到有關於大數據應用於航空資料分析，值得整理介紹給相關領域的朋友們參考。記得上Data Science Program的課程中，曾有學生邀請筆者至某航空公司擔任顧問，但筆者實在是分身乏術，所以希望這一篇能夠幫上航空界的忙。

其中一篇是2009年刊登在知名期刊Knowledge-Based Systems上的學術研究，主要是應用決策樹(Decision trees)從美國聯邦航空管理局(FAA)的數據來挖掘出可能會出現航空事故的特徵。研究所採用的分析工具為Megaputer Intelligence所開發的PolyAnalyst與挪威科技大學開發的Rosetta。

2014年5月27日星期二

10位國際頂尖資料探勘大師

原圖網址

近年來巨量資料(Big Data)的風行，讓沈寂20多年的資料探勘(Data Mining)技術又再度熱絡起來，並且延燒到企業中，像是前幾天甫落幕的活動，華碩與亞太資料探勘及知識發掘會議(Pacific-Asia Conference on Knowledge Discovery and Data Mining，簡稱PAKDD)共同舉辦的國際性大數據探勘競賽，就嘗試將為期5年的維修紀錄作為比賽的原始資料，要求參賽者推測出各元件每月報修數量的預測模型。

排名	學者	引用次數
1	Trevor Hastie	93283
2	Jiawei Han	88940
3	Jeffrey Ullman	88621
4	Rakesh Agrawal	80673
5	Jinyan Li	79323
6	John Canny	56691
7	Jeongkyu Lee	55065
8	Philip S. Yu	54020
9	Vipin Kumar	53489
10	Christos Faloutsos	46079

而每個領域都有所屬的專家，因此這邊筆者整理了國際頂尖10位的資料探勘專家，該排名依據是由Google Scholar中的文章引用次數(Cited)，通常引用次數越高，也代表該名學者的學術聲望越高。

接下來讓我們一同向大師學習，依據排名這10位大師分別是Trevor Hastie、Jeffrey Ullman、Jinyan Li、Jeongkyu Lee、Vipin Kumar、Jiawei Han、Rakesh Agrawal、John Canny、Philip S. Yu、Christos Faloutsos，以下表格包含排序與引用次數。

Trevor Hastie與Jeffrey Ullman分別是史丹佛大學(Stanford University)的統計與電腦科學教授。其中Trevor Hastie教授以R語言作為主要工具，所撰寫的The Elements of Statistical Learning一書，就被引用高達一萬九千次，另一位教授Jeffrey Ullman則是知名的計算機概論書籍Compilers Principles Techniques and Tools與Introduction to Automata Theory, Languages, and Computation的作者。接著Jiawei Han為伊利諾大學的電腦科學教授，這位教授大家應該就不陌生，因為JiaweiHan教授的書Data mining: concepts and techniques堪稱資料探勘界的經典書籍，該本書引用次數高達兩萬多，是超過前面兩位教授的。關於他的介紹，請大家直接參閱下面的報導：

韩家炜：数据挖掘第一人

韩家炜- 维基百科，自由的百科全书

接著是Rakesh Agrawal，為印度的數據挖掘之父，該名學者為微軟研究中心的研究員，曾在IBM 研究中心發表名為Fast algorithms for mining association rules與Mining Association Rules between Sets of Items in Large Databases引用次數破萬次，使他位居於第四名。接著Jinyan Li為悉尼科技大學(University of Technology, Sydney)的教授，專長偏生物領域，發表多篇生物相關的資料探勘研究。

John Canny為加州大學柏克萊分校(University of California, Berkeley)的教授則為知名人工智慧的書籍Artificial intelligence: a modern approach作者，引用次數也高達兩萬多次。而Jeongkyu Lee為橋港大學(University of Bridgeport)的教授，跟Jinyan Li相同皆以多篇資料探勘生物應用研究，擁有較高的引用次數。

跟Jiawei Han同校並且也名列榜上的教授還有Philip S. Yu，而這兩位教授一個位於香檳分校，另一位於芝加哥分校，都是知名的資料探勘專家。Philip S. Yu教授以多篇資料探勘的理論研究為居第八，該學者的研究幾乎每篇都呈現破百的引用次數，像是Data mining: an overview from a database perspective、An effective hash-based algorithm for mining association rules、A framework for clustering evolving data streams、Top 10 algorithms in data mining等都是知名的文章。

接著是Vipin Kumar，他為明尼蘇達大學(University of Minnesota)的電腦科學教授，也曾與Philip S. Yu等人發表過Top 10 algorithms in data mining的文章，同時也是知名資料探勘書籍Introduction to Data Mining的作者，該書籍與Data mining: concepts and techniques都是台灣資料探勘課程的參考書籍。

最後一位Christos Faloutsos則是卡內基美隆大學(Carnegie Mellon University)的教授，該教授可以說是Graph mining的大師級人物，多篇Graph mining的研究，包含Graphs over time: densification laws, shrinking diameters and possible explanations、Graph evolution: Densification and shrinking diameters都是源於該學者。

當然依照不同的角度，排名也就不同，其他排名在後的知名學者其實也不少，像是西門菲莎大學(Simon Fraser University)的Jian Pei其實也是Data mining: concepts and techniques的作者之一，明尼蘇達大學(University of Minnesota)的George Karypis教授就是知名推薦系統演算法Item-based collaborative filtering recommendation algorithms的作者。另外紐西蘭懷卡托大學(University of Waikato)的Mark Hall與Eibe Frank 兩位教授則是知名資料探勘與機器學習軟體Weka的作者。而加利福尼亞大學歐文分校(University of California Irvine)的教授Padhraic Smyth則為提出資料庫知識發現(Knowledge-Discovery in Databases)流程的作者之一。

最後身為台灣人，台灣專家也要整理出來，依照Google Scholar的文章引用次數(Cited)，名列前面的台灣專家還有台大網媒所的Chun-Wei Lin、Chih-Jen Lin兩位教授，中研院的Ming-Syan Chen教授，三位都位居前30名中，所以台灣其實不簡單，小小一個國家就有三位專家在排名上。

從上面的資料可以發現，資料探勘領域專家多屬亞洲人居多，像是排名10大的就有4位亞洲人，Jiawei Han教授為上海人，Jinyan Li教授雖未說是哪裡人，但學士與碩士學位都是在中國拿的，因此可以推斷是亞洲人，Jeongkyu Lee教授則是韓國人，Philip S. Yu則是台灣出生，學士是在台大電機工程系拿的。所以在國內資料探勘專家其實不少喔!

下回筆者再來介紹機器學習的大師。

本文同步刊載於Data Science Program 資料科學計畫

2014年5月20日星期二

12本免費的巨量資料分析書籍

幾本由專家提供的免費巨量資料分析書籍，包含R、Python、MATLAB等語言。也可以從這些書籍中發現目前巨量資料分析的理論主要還是以統計、資料探勘與機器學習為主。

本文同步刊載於Data Science Program 資料科學計畫

2014年2月28日星期五

13個必學的R軟體指令

整理列出常用的指令

GitHub網址：
https://github.com/rippleblue/Blog_R_code/blob/master/Useful%20functions.R

計算物件的長度
length(object)

計算物件維度
dim(object)

檢視物件架構
str(object)

檢視物件格式，有向量、矩陣、字元等
class(object)

檢視物件的名稱
names(object)

建立向量
c(object,object...)

以行的方式合併物件
cbind(object,object...)

以列的方式合併物件
rbind(object,object...)

印出物件
object

檢視物件最前面的資料
head(object)
head(object,10) #可檢視前10筆

檢視物件最後面的資料
tail(object)

列出環境目前有的物件
ls()

刪除單一物件或全部物件
rm(object)
rm(list = ls())

2013年12月17日星期二

2013 R Taiwan 研討會小記

小記一下心得，近期於12月6日(星期五)在德明財金科技大學舉辦的2013 R Taiwan 研討會，算是臺灣在R這塊領域比較盛大的活動之一，現場有來自內政部、中研院、工研院、資策會、環保署、中央大學、台達電、統一集團、台大醫院、榮總、仁寶......等產、官、學單位，一同齊聚了解關於R軟體在資料分析的最新趨勢。

筆者估算這次活動超過百人參與，現場可以說是座無虛席，可以媲美中國的R語言會議。

這次的演講主題所邀請的講師有淡江大學的吳漢銘博士主講VisFuzClust：Visualization of fuzzy clustering results in R、英國Mango Solutions資深顧問李艦主講中文文字資料探勘、中研院陳昇瑋博士主講資料科學家未曾公開之資安研究事件簿，但陳博士後來沒按表訂的題目演講，而是分享許多在資料分析研究上有趣的事情，像是魔獸世界、WhosCall，可以說是非常的精彩。

講到WhosCall就不能不提到關於他們振奮人心事情，這些事情讓台灣新創團隊有如吃下定心丸一樣勇往前進，相關事件如下：

當然他們也很重視資料分析，於是也有在找會寫R的資料科學家(Data Scientist)。

下午的講題也非常的豐富，講題有High Performance Predictive Analytics in R and Hadoop、Social Network Analysis With R、Sentiment, Market Order Choice, and Returns、iNEXT: An R package for interpolation and extrapolation species diversity、R for finding the non-dominated rules in multi-objective optimization、藉由歐盟F4K計畫來探討2011年墾丁核三廠入水口之熱帶魚行為分析、工作相依性與自我效能對工作滿意度的中介效果分析-以工作複雜度及社會支持為調節變數、智慧用電Big Data 分析平台、ggplot2 繪圖套件介紹、結合群集之多目標微粒群演算法、以非凌越排序基因演算法探討永續存貨管理、以文字資料探勘研究新技術趨勢，有近年流行的文字探勘(Text mining)、RHadoop，以及R應用的案例。

近年來R、Python、Hadoop應用在巨量資料已經是一門顯學，有許多企業紛紛在找尋屬於他們產業的資料科學家，因此巨量資料與資料科學家的相關課程也一個個開，請參閱2013台灣巨量資料、資料科學家等相關課程，而明年可以說是資料科學的元年，有許多的資料科學的議題會相繼出現，讓我們一起期待吧!

R研討會後記：

2013年11月18日星期一

資料探勘軟體Weka之安裝篇

最近在準備資料探勘相關課程，為了讓大家能快快上手玩資料，這邊就寫整理一篇Weka的安裝篇給大家。

Weka是以Java為基礎的資料探勘(Data mining )與(Machine learning)軟體，也是自由軟體(Open Source Software)。Weka全名為懷卡托智能分析環境(Waikato Environment for Knowledge Analysis)，而Weka同時也是紐西蘭(New Zealand)的特有種鳥名，而開發者也是來自紐西蘭的懷卡託大學(The University of Waikato)。