2014年5月27日 星期二

10位國際頂尖資料探勘大師


近年來巨量資料(Big Data)的風行,讓沈寂20多年的資料探勘(Data Mining)技術又再度熱絡起來,並且延燒到企業中,像是前幾天甫落幕的活動,華碩與亞太資料探勘及知識發掘會議(Pacific-Asia Conference on Knowledge Discovery and Data Mining,簡稱PAKDD)共同舉辦的國際性大數據探勘競賽,就嘗試將為期5年的維修紀錄作為比賽的原始資料,要求參賽者推測出各元件每月報修數量的預測模型。
排名
學者
引用次數
1
Trevor Hastie
93283
2
Jiawei Han
88940
3
Jeffrey Ullman
88621
4
Rakesh Agrawal
80673
5
Jinyan Li
79323
6
John Canny
56691
7
Jeongkyu Lee
55065
8
Philip S. Yu
54020
9
Vipin Kumar
53489
10
Christos Faloutsos
46079


而每個領域都有所屬的專家,因此這邊筆者整理了國際頂尖10位的資料探勘專家,該排名依據是由Google Scholar中的文章引用次數(Cited),通常引用次數越高,也代表該名學者的學術聲望越高。

接下來讓我們一同向大師學習,依據排名這10位大師分別是Trevor HastieJeffrey UllmanJinyan LiJeongkyu LeeVipin KumarJiawei HanRakesh AgrawalJohn CannyPhilip S. YuChristos Faloutsos,以下表格包含排序與引用次數。

Trevor HastieJeffrey Ullman分別是史丹佛大學(Stanford University)的統計與電腦科學教授。其中Trevor Hastie教授以R語言作為主要工具,所撰寫的The Elements of Statistical Learning一書,就被引用高達一萬九千次,另一位教授Jeffrey Ullman則是知名的計算機概論書籍Compilers Principles Techniques and ToolsIntroduction to Automata Theory, Languages, and Computation的作者。接著Jiawei Han為伊利諾大學的電腦科學教授,這位教授大家應該就不陌生,因為JiaweiHan教授的書Data mining: concepts and techniques堪稱資料探勘界的經典書籍,該本書引用次數高達兩萬多,是超過前面兩位教授的。關於他的介紹,請大家直接參閱下面的報導:


接著是Rakesh Agrawal,為印度的數據挖掘之父,該名學者為微軟研究中心的研究員,曾在IBM 研究中心發表名為Fast algorithms for mining association rulesMining Association Rules between Sets of Items in Large Databases引用次數破萬次,使他位居於第四名。接著Jinyan Li為悉尼科技大學(University of Technology, Sydney)的教授,專長偏生物領域,發表多篇生物相關的資料探勘研究。

John Canny為加州大學柏克萊分校(University of California, Berkeley)的教授則為知名人工智慧的書籍Artificial intelligence: a modern approach作者,引用次數也高達兩萬多次。而Jeongkyu Lee為橋港大學(University of Bridgeport)的教授,跟Jinyan Li相同皆以多篇資料探勘生物應用研究,擁有較高的引用次數。

Jiawei Han同校並且也名列榜上的教授還有Philip S. Yu,而這兩位教授一個位於香檳分校,另一位於芝加哥分校,都是知名的資料探勘專家。Philip S. Yu教授以多篇資料探勘的理論研究為居第八,該學者的研究幾乎每篇都呈現破百的引用次數,像是Data mining: an overview from a database perspectiveAn effective hash-based algorithm for mining association rulesA framework for clustering evolving data streamsTop 10 algorithms in data mining等都是知名的文章。

接著是Vipin Kumar,他為明尼蘇達大學(University of Minnesota)的電腦科學教授,也曾與Philip S. Yu等人發表過Top 10 algorithms in data mining的文章,同時也是知名資料探勘書籍Introduction to Data Mining的作者,該書籍與Data mining: concepts and techniques都是台灣資料探勘課程的參考書籍。

最後一位Christos Faloutsos則是卡內基美隆大學(Carnegie Mellon University)的教授,該教授可以說是Graph mining的大師級人物,多篇Graph mining的研究,包含Graphs over time: densification laws, shrinking diameters and possible explanationsGraph evolution: Densification and shrinking diameters都是源於該學者

當然依照不同的角度,排名也就不同,其他排名在後的知名學者其實也不少,像是西門菲莎大學(Simon Fraser University)Jian Pei其實也是Data mining: concepts and techniques的作者之一,明尼蘇達大學(University of Minnesota)George Karypis教授就是知名推薦系統演算法Item-based collaborative filtering recommendation algorithms的作者。另外紐西蘭懷卡托大學(University of Waikato)Mark HallEibe Frank 兩位教授則是知名資料探勘軟體Weka的作者。而加利福尼亞大學歐文分校(University of California Irvine)的教授Padhraic Smyth則為提出資料庫知識發現(Knowledge-Discovery in Databases)流程的作者之一。

最後身為台灣人,台灣專家也要整理出來,依照Google Scholar的文章引用次數(Cited),名列前面的台灣專家還有台大網媒所的Chun-Wei LinChih-Jen Lin兩位教授,中研院的Ming-Syan Chen教授,三位都位居前30名中,所以台灣其實不簡單,小小一個國家就有三位專家在排名上。

從上面的資料可以發現,資料探勘領域專家多屬亞洲人居多,像是排名10大的就有4位亞洲人,Jiawei Han教授為上海人,Jinyan Li教授雖未說是哪裡人,但學士與碩士學位都是在中國拿的,因此可以推斷是亞洲人,Jeongkyu Lee教授則是韓國人,Philip S. Yu則是台灣出生,學士是在台大電機工程系拿的。所以在國內資料探勘專家其實不少喔!

下回筆者再來介紹機器學習的大師。


本文同步刊載於Data Science Program 資料科學計畫