顯示具有 Data science 標籤的文章。 顯示所有文章
顯示具有 Data science 標籤的文章。 顯示所有文章

2019年9月9日 星期一

[ML Study Jam] How Google does Machine Learning的Module 3 Quiz學習日誌之企業導入機器學習的方法

How Google does Machine Learning的學習日誌

最近Google連續辦了兩次ML Study Jam的活動,包含
ML Study Jam 機器學習培訓計劃- 初級- 首頁,以及ML Study Jam 機器學習培訓計劃- 進階-首頁,這兩階段的課程內容,個人覺得非常適合企業在導入ML給同仁必上的內容,尤其適合非科班出身的又想轉型的朋友們。

在進階課程的當中,筆者覺得在「How Google does Machine Learning」當中,有許多有趣的題目與內容,是自己多年做資料科學服務有所共鳴的,希望能夠透過部落格分享學習的心得,提供給想導入ML的企業與想持續學習導入ML的朋友。(請注意本篇文章僅針對部分題目提供心得分享,並非答案分享)


過去筆者在導入多年的資料科學服務當中,發現資料科學家要有一個非常重要的能力,是能夠快速辨識這家企業與題目,到哪一個階段,接著再給予對應的服務內容,避免導入過程資源的浪費,而課程當中Google整理了一個「Path to ML」來幫忙大家釐清企業的ML導入階段。

在Module 3 Quiz的部分,有一題要學員能夠針對題目,以「Path to ML」五階段做辨認,而其中五階段包含「Individual contributor」、「Delegation」、「Digitization」、「Big data and Analytics」、「Machine learning」,在ML and Business Processes課程當中,個人覺得非常好的一個觀念是,企業要導入一個從無ML->有ML的過程,必須先找到流程上的輸入與輸出,接著在輸出中透過數據與ML找出具有洞見的結果,將結果回到流程上去改善輸出。

因此回到「Path to ML」,我們首先要能夠辨認,我們在企業流程中,到底是哪一個階段,才能去藉由階段工作來正確導入ML,筆者整理如下:

I for individual contributor:任務的本體,如單一櫃員
D for delegation:多個可執行任務的人,如多個店員
Z for digitization:數位化的工具,如ATM,可以透過機器進行重複化的工作
B for big data and analytics:透過資料挖掘洞見,提升營運效率,如汽車生產
M for machine learning:透過前面的數據,以機器學習來自動化改善整個營運效益,如推薦系統

聰明的朋友,如果題目如下,您會將上述的I,D,Z,B,M,分別放在哪裡呢?

問題1
製造工廠有許多機械手臂,整個生產團隊透過手臂上收集的數據來幫助確定生產的時間表。
問題2
一個客戶服務團隊持續接收在線上的訂單
問題3
一個圖書館員在城市圖書館工作
問題4
停車收費系統根據可能預期的需求來自動改變費率
問題5
自動電子收費器透過讀取汽車牌照跟駕駛索取過路費(如ETC)

問題1看起來非常明顯是以數據來挖掘洞見,問題2與問題3很容易理解是傳統的運作階段,問題4與問題5比較容易會有誤會是在「digitization」與「machine learning」的差別,但仔細一看,事實上ML有個關鍵是透過數據「自動化」原先的流程,因此會獲得一個不斷改變的輸出,答案就出來了。


看起來大家都有十足的把握了,我們繼續看一下去,如果題目如下,您們的選擇為何?

題目6
所有任務,包含執行參數、選擇參數、參數回饋都是自動化
題目7
一個人在執行任務,而這個任務與指令來自人與人之間的方式運作
題目8
一個電腦執行任務,而軟體工程師透過歷史的模式,來進行參數的調整。
題目9
一個電腦執行過程是透個人從介面上輸入參數來進行。
題目10
一個任務是從一群人來完成

問題6我們可以發現全數自動化,會是機器學習的強項,答案是非常明確的。接著在問題7與問題10的部分,也很容易辨識是傳統1個與多個人的運作方式,最後這次的題目8與題目9分別就相對明顯很多,題目9單純只有透過介面來做互動,而題目8則透過數據挖掘模式來進行參數調整。


最後在Quiz最尾端的題目也非常有趣,題目大意是在說一家企業需要在一年內導入ML,我們是這家企業的顧問,而我們應該請該企業集中資源在哪一個地方,譬如說:「定義關鍵目標」、「收集資料」、「建立基礎設施」、「最佳化演算法」、「整合模型」。

其實有經驗的顧問會選擇「收集資料」,因為這是所有企業導入ML的最重要的問題,尤其以筆者過去的經驗是,傳統企業常常是因為沒有資料而無法導入ML。而其他都不重要嗎?並不是,而是沒有資料,對於定好目標、建立設施、最佳化算法、整合模型就都沒有了意義。

但是筆者提一個觀點是,如果我們企業要導入ML,也不能盲目的收集資料,而是要了解解決什麼問題。
所以回過頭來,一樣可以觀察公司目前的階段,從沒有ML->有ML,我們在「Individual contributor」、「Delegation」、「Digitization」、「Big data and Analytics」、「Machine learning」是哪一個階段,才能將資源妥善運用在導入ML的正確方向當中。

以上是筆者對於「How Google does Machine Learning」的Module 3 Quiz拙見,歡迎討論。

2015年8月23日 星期日

「2015 台灣資料科學愛好者年會」精彩資料整理

2015 台灣資料科學愛好者年會」為一年一度的台灣資料科學盛事,參加人數超過千人,這次的活動從2014年的兩天,加長為四天的活動,並且同軌進行,包含「R資料分析上手課程」、「g0v 零時政府黑客松」、「DSP 資料開竅 ▪ 企業論壇」、「資料新聞實戰營」、「Hadoop/Spark 資料科學快速體驗營」、「地圖資料視覺化課程」,以及最精采的「年會主議程」,內容相當豐富也很精采。



以下為筆者所收集的資料科學年會相關活動資料內容

新聞:
  1. 阿里巴巴副總裁車品覺:資料是一種信仰!
  2. 中華電信如何培訓資料科學人才,先讓IT學會商業心法做起
  3. 大資料分析苦手不用怕,資料科學愛好者年會帶你Hadoop做中學
  4. 臺灣資料科學愛好者年會擴大舉辦,阿里巴巴和IBM華生團隊首席帶頭開講
  5. 【活動快訊】資料科學家們 attention!「2015 台灣資料科學愛好者年會」來啦
  6. 2015 台湾资料科学爱好者年会 开始售票!
  7. [展望2015]25%企業今年將導大資料,資料科學人才更搶手
  8. 阿里巴巴、KKBOX資料科學年會同台尬大數據心法
  9. 【資料科學愛好者年會】數據說故事的年代,國際資料新聞人為台灣記者上一課
  10. 為什麼打造一支資料科學團隊如此重要?
  11. 混搭多樣的會議-2015 台灣資料科學愛好者年會
  12. 港大計算機教授:大資料時代也要有大教育思維
文章:

  1. 資料新聞實戰營 d|Bootcamp Taipei!

簡報:
  1. 2015 台灣資料科學愛好者年會-開場
  2. Key Failure Factors of Building a Data Science Team - 趙國仁
  3. 運用空間決策改進緊急醫療品質-詹大千
  4. 巨量與開放資料之創新機會與關鍵挑戰-曾新穆
  5. 以健保資料分析對抗健康新聞的恐慌症候群-張俊鴻
  6. 人口統計應用於選舉預測-蔡佳泓
  7. Learning for Big Data - 林軒田
  8. 海量視覺資料-孫民
  9. 由點、線至面:從影像分析角度探討漫畫的組成與風格-朱威達
  10. 心理學x資料科學-黃從仁
  11. Big Education in the Era of Big Data-金國慶
  12. 從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪
  13. 資料科學在數位音樂的實踐與分析-KKBOX 林佑璟、羅經凱
  14. 雲端影音與物聯網平台的軟體工程挑戰:以 Skywatch 為例-陳維超
  15. 使用 Elasticsearch 及 Kibana 進行巨量資料搜尋及視覺化-曾書庭
  16. Visualization over Web: Tools and Tips-吳泰輝
  17. 軟工人的資料科學奇航-線上遊戲、網路學習與中華職棒 by 許懷中
  18. 計算社會學-江彥生
  19. 應用資料科學於交通網路解析-闕嘉宏
  20. 社會物理學-以意念流的數據化來打造智慧企業及城市 by 張毓倫
  21. 2015 台灣資料科學愛好者年會-閉幕

研討會共筆:


2015年3月3日 星期二

用大數據看2015年春運:百度遷徙

新年到!!新年好!!

還記得筆者去年整理的大數據春運主題「用巨量資料看春運:百度遷徙」,很快的又過了一年,這次的春運資料視覺化做的更棒更好了。

筆者去年有提到,百度遷徙是百度透過適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,做了資料視覺呈現。今年百度已經把LBS這個服務商品化,並且命名為「百度慧眼」,提供顧客行為收集與觀察。另外在基礎設施的部分,也改用了百度開放平台來做支持,讓整體的軟體效果處理更為順暢。從這樣一年的改變與觀察,我們可以發現大數據並不是一步到位,而是需要日經月累的耕耘。

我們一樣從介面設計來觀察,從最基本的時間來看,去年的時間選擇從小小的方格,變成了時間軸的概念,把時間具體做了切割,讓使用者更能直覺的選擇時間(如紅框)。


下圖中在選擇城市的地方,雖然沒做太多變動,但運輸往返的顯示效果做的更細緻了,值得一提的是數據更為精確了。


從下圖往返的數據上可以觀察到,除夕夜晚上從對岸到臺灣的人,以上海、廣州的人最多。
有趣的地方是,在時間軸上有提供折線圖,提供查詢每一天在到臺灣的人數變化。


除了豐富的遷移資訊之外,這次百度遷徙還提供了即時航班、機場熱度、車站熱度。

即時航班如下圖呈現,可以看到小型正在移動的飛機,以及該班機的細部資訊。

機場熱度的部分,則是如下圖呈現,以黃色小圓點作為機場,跳動的圓點作為熱門的機場。

如下圖所示,車站熱度與機場熱度類似,只是車站較多,黃色小圓點又更細了,跳動的圓點一樣作為熱門的車站。


最後值得一提的是,去年筆者提的建議,大部分都已經解決,尤其在手機與平板的處理上,這次系統做的更精緻了,只能說真的非常有效率。

筆者一樣做個小結論,百度遷徙的應用商業價值在於透明,透過大數據把交通資料透明化,讓兩岸商業有更多交集,像是筆者去年提的這幾點
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 更多......
都是值得參考的。






2014年8月30日 星期六

13個資料科學實驗室精選訊息(2014/08)

筆者精選資料科學相關的關注訊息之整理。

關鍵訊息:
  1. 看資料找故事工作坊-千萬資料可以化約成幾個數字,但每個數字背後都有一個故事
  2. 看資料找故事工作坊-橫看成嶺側成峰,遠近高低各不同,未識故事真面目,只緣身在資料中
  3. 資料科學 IN 白色巨塔
  4. 資料視覺化公司Re-LAB
    記得兩年前觀察國外的Infographic公司大多都從2010年開始,而且總數不到一百家,沒想到台灣開始也有類似公司。
  5. Data scientist: Your mileage may vary
  6. 文章指出,資料科學家的薪水,已經漲到一年最多30萬美金,折合台幣900萬台幣,而且只需兩年的工作經驗,這數字真的很驚人。但資料科學家本身除了要會做,還要會想,如同小弟之前的文章「蘋果的Big Data職缺,想進蘋果也要懂資料分析」所說的,人才真的不好找!
  7. 馬來西亞:線上預訂餐廳服務 TableApp,來台取經後快速成長
  8. 資料價值還缺一味,資料科學團隊還缺一位
  9. Data Is Money: Why The Cloud Is Transforming Data Into A New Global Currency
  10. 全臺資料科學家周末齊聚南港,價值百萬年薪的經驗大公開
  11. 大數據評估公司Wecash閃銀獲IDG千萬級投資
  12. R tops KDNuggets data analysis software poll for 4th consecutive year
    2014最新的資料分析軟體使用比較出爐,R還是高於其他的軟體,排名依序為R>SAS>Python>SQL>Java,組合使用的比例還是以R+Python居多,其次是Python+SAS 。

技術文章:

2014年7月10日 星期四

大數據探索航空資料系列-達美航空

Logo/達美航空、攝影/Jerry

繼續本系列主題,本次介紹的應用是來自達美航空(Delta Air Lines),達美航空在這幾年扶搖直上,於2010年完成跟西北航空合併之後,成為全世界航線里程與客運機隊規模最大的航空公司。

這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。


2014年7月3日 星期四

大數據探索航空資料系列-美國聯邦航空管理局

攝影/Jerry

最近筆者剛好讀到有關於大數據應用於航空資料分析,值得整理介紹給相關領域的朋友們參考。記得上Data Science Program的課程中,曾有學生邀請筆者至某航空公司擔任顧問,但筆者實在是分身乏術,所以希望這一篇能夠幫上航空界的忙。

其中一篇是2009年刊登在知名期刊Knowledge-Based Systems上的學術研究,主要是應用決策樹(Decision trees)從美國聯邦航空管理局(FAA)的數據來挖掘出可能會出現航空事故的特徵。研究所採用的分析工具為Megaputer Intelligence所開發的PolyAnalyst與挪威科技大學開發的Rosetta


2014年6月7日 星期六

蘋果的Big Data職缺,想進蘋果也要懂資料分析



最近全世界都吹起Big Data風潮,連蘋果(Apple)也一同蠢蠢欲動。最新的蘋果職缺中,今年2014年5月14日,蘋果的廣告部門開了一個高級軟體工程師的職缺。

筆者將職缺需求整理如下,提供相關的產業參考。

  1. 超過五年的軟體工程與資料分析的經驗
  2. 熟悉的工具須要包含Java、Python、Hadoop、R、SPSS、SAS
  3. 具有網路廣告的分析經驗
  4. 懂SQL,也就是過去大家熟悉的關聯式資料庫
  5. 理論的部分要懂資料探勘(Data mining)、資料匹配(Data matching)、機器學習(Machine learning)、 統計(Statistical techniques)、實驗設計(Experimental design)、最佳化(Optimization)。
  6. 具有大量數據的處理經驗,像是處理單位高達PB(Petabyte)以上的資料量。
  7. 具有解決真實問題的經驗
  8. 獨立的工作能力
  9. 關注資料分析的準確率與品質
以上主要的徵求內容,在台灣算是跨科系才能學到的能力,筆者舉例如下:
  • Java較偏資工系
  • R較偏統計系
  • Python與Hadoop可能偏資管系或資工系
  • SQL的部分偏資工與資管
理論的部分資管跟資工都可以選修到,有些還是必修,最佳化(Optimization)的課反而在工管系才可能碰到。當然現在有所謂的「資訊科學系」可能前述理論與工具都可能學習到。而個人覺得工具面的部份包含Java、Python、Hadoop、R這些開放原始碼,大部分都還是要靠學生自行學習。

最難的部分是在領域知識,像是蘋果的職缺需求就要網路廣告的分析經驗,對岸有些職缺需要懂金融、商業等領域知識的,這些領域知識在學校反而偏向是商業類科系才可能碰到,譬如筆者在大學修的廣告學、消費者行為,都需要跨修到企管系。

面對於這種職缺需要多年養成的職缺,企業不可能要求求職者百分之百都會以上技能,因為有些求職者即使會以上技能,個性與相處上反而也有問題,只能盡量取人格特質與技能較為平均的人才。i

以筆者的經驗,通常一般行情是很難請到具有上述能力的人才。因此筆者就根據企業所要發展的方向來決定這些能力的比重,像是工作在分析比重較高,就會著重在R與Python的能力,且具有商業分析概念,且具備「溝通」能力的人才,因為他一般的工作就是協助進行資料分析,並產製BI報表或平台的能力。而R跟Python本身就能完成這些事情,所以工作反而是在溝通與呈現,以及應用統計、資料探勘、機器學習等理論在實務上。

至於比較強調資料儲存與資料流通的,技術要求就會著重SQL、NoSQL上,因為這類人才就類似早期的資料庫管理師,強調在資料庫的配置,資料庫的管理,他的工作比較偏重資料庫、基礎設施、資訊安全,同時這個角色對於伺服器這些硬體設備也要有一定的了解。

最後,比較著重系統建置的,就會希望具有PHP、RoR、Python、C#與資料庫的能力。這個角色能夠提供前端與後端的系統建置,像是具有做過ERP、PLM這類大型系統的建置經驗,他們通常具備一些技能組合,像是PHP+MySQL、C#+MSSQL、RoR+PostgreSQL等等,他們負責將資料分析人員產生的雛型(Prototype)進行實踐。

這樣的分工組合就可以變成分析的人才專注在分析與商業應用探討,並做出雛形系統,資料庫人員專注協助資料庫管理與資訊安全,系統建置則專注將分析結果實施到企業系統上。

最後還要搭配專案經理或產品經理的角色,該角色具備領域知識與管理技能,如此一來就是一個理想的資料科學團隊雛型。

參考:
資料科學團訓班
資料爬理析 Python 實戰班2

2014年5月27日 星期二

10位國際頂尖資料探勘大師


近年來巨量資料(Big Data)的風行,讓沈寂20多年的資料探勘(Data Mining)技術又再度熱絡起來,並且延燒到企業中,像是前幾天甫落幕的活動,華碩與亞太資料探勘及知識發掘會議(Pacific-Asia Conference on Knowledge Discovery and Data Mining,簡稱PAKDD)共同舉辦的國際性大數據探勘競賽,就嘗試將為期5年的維修紀錄作為比賽的原始資料,要求參賽者推測出各元件每月報修數量的預測模型。
排名
學者
引用次數
1
Trevor Hastie
93283
2
Jiawei Han
88940
3
Jeffrey Ullman
88621
4
Rakesh Agrawal
80673
5
Jinyan Li
79323
6
John Canny
56691
7
Jeongkyu Lee
55065
8
Philip S. Yu
54020
9
Vipin Kumar
53489
10
Christos Faloutsos
46079


而每個領域都有所屬的專家,因此這邊筆者整理了國際頂尖10位的資料探勘專家,該排名依據是由Google Scholar中的文章引用次數(Cited),通常引用次數越高,也代表該名學者的學術聲望越高。

接下來讓我們一同向大師學習,依據排名這10位大師分別是Trevor HastieJeffrey UllmanJinyan LiJeongkyu LeeVipin KumarJiawei HanRakesh AgrawalJohn CannyPhilip S. YuChristos Faloutsos,以下表格包含排序與引用次數。

Trevor HastieJeffrey Ullman分別是史丹佛大學(Stanford University)的統計與電腦科學教授。其中Trevor Hastie教授以R語言作為主要工具,所撰寫的The Elements of Statistical Learning一書,就被引用高達一萬九千次,另一位教授Jeffrey Ullman則是知名的計算機概論書籍Compilers Principles Techniques and ToolsIntroduction to Automata Theory, Languages, and Computation的作者。接著Jiawei Han為伊利諾大學的電腦科學教授,這位教授大家應該就不陌生,因為JiaweiHan教授的書Data mining: concepts and techniques堪稱資料探勘界的經典書籍,該本書引用次數高達兩萬多,是超過前面兩位教授的。關於他的介紹,請大家直接參閱下面的報導:


接著是Rakesh Agrawal,為印度的數據挖掘之父,該名學者為微軟研究中心的研究員,曾在IBM 研究中心發表名為Fast algorithms for mining association rulesMining Association Rules between Sets of Items in Large Databases引用次數破萬次,使他位居於第四名。接著Jinyan Li為悉尼科技大學(University of Technology, Sydney)的教授,專長偏生物領域,發表多篇生物相關的資料探勘研究。

John Canny為加州大學柏克萊分校(University of California, Berkeley)的教授則為知名人工智慧的書籍Artificial intelligence: a modern approach作者,引用次數也高達兩萬多次。而Jeongkyu Lee為橋港大學(University of Bridgeport)的教授,跟Jinyan Li相同皆以多篇資料探勘生物應用研究,擁有較高的引用次數。

Jiawei Han同校並且也名列榜上的教授還有Philip S. Yu,而這兩位教授一個位於香檳分校,另一位於芝加哥分校,都是知名的資料探勘專家。Philip S. Yu教授以多篇資料探勘的理論研究為居第八,該學者的研究幾乎每篇都呈現破百的引用次數,像是Data mining: an overview from a database perspectiveAn effective hash-based algorithm for mining association rulesA framework for clustering evolving data streamsTop 10 algorithms in data mining等都是知名的文章。

接著是Vipin Kumar,他為明尼蘇達大學(University of Minnesota)的電腦科學教授,也曾與Philip S. Yu等人發表過Top 10 algorithms in data mining的文章,同時也是知名資料探勘書籍Introduction to Data Mining的作者,該書籍與Data mining: concepts and techniques都是台灣資料探勘課程的參考書籍。

最後一位Christos Faloutsos則是卡內基美隆大學(Carnegie Mellon University)的教授,該教授可以說是Graph mining的大師級人物,多篇Graph mining的研究,包含Graphs over time: densification laws, shrinking diameters and possible explanationsGraph evolution: Densification and shrinking diameters都是源於該學者

當然依照不同的角度,排名也就不同,其他排名在後的知名學者其實也不少,像是西門菲莎大學(Simon Fraser University)Jian Pei其實也是Data mining: concepts and techniques的作者之一,明尼蘇達大學(University of Minnesota)George Karypis教授就是知名推薦系統演算法Item-based collaborative filtering recommendation algorithms的作者。另外紐西蘭懷卡托大學(University of Waikato)Mark HallEibe Frank 兩位教授則是知名資料探勘軟體Weka的作者。而加利福尼亞大學歐文分校(University of California Irvine)的教授Padhraic Smyth則為提出資料庫知識發現(Knowledge-Discovery in Databases)流程的作者之一。

最後身為台灣人,台灣專家也要整理出來,依照Google Scholar的文章引用次數(Cited),名列前面的台灣專家還有台大網媒所的Chun-Wei LinChih-Jen Lin兩位教授,中研院的Ming-Syan Chen教授,三位都位居前30名中,所以台灣其實不簡單,小小一個國家就有三位專家在排名上。

從上面的資料可以發現,資料探勘領域專家多屬亞洲人居多,像是排名10大的就有4位亞洲人,Jiawei Han教授為上海人,Jinyan Li教授雖未說是哪裡人,但學士與碩士學位都是在中國拿的,因此可以推斷是亞洲人,Jeongkyu Lee教授則是韓國人,Philip S. Yu則是台灣出生,學士是在台大電機工程系拿的。所以在國內資料探勘專家其實不少喔!

下回筆者再來介紹機器學習的大師。


本文同步刊載於Data Science Program 資料科學計畫

2014年1月31日 星期五

用巨量資料看春運:百度遷徙


每年春運一直是對岸逢年過節的熱門話題,而今年1月26日對岸百度首次以適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,以「百度遷徙」的主題,報導整個春運的狀況。

而本次也是對岸首次運用巨量資料(Big data)的概念來報導春運的運輸全貌,藉此我們也可以看到大數據在整個運輸政策、文化交流上,都有重要的發展意義。


首先我們可以從百度遷徙看到幾個功能「月份」、「時間」、「地點」、「遷入熱市」、「遷出熱市」、「最熱線路」,是整個查詢網站的主要功能。月份可以查詢1月16日起到整個春節時間,地點則可用文字搜尋城市,例如搜尋”上海”,即可了解上海的熱門遷入與遷出城市。

上面每個點代表一個城市,金黃色的線則表示動向,而右邊有1~10名的排序,方便我們觀察遷入與遷出的比例。以上海來說,1月29日除夕前一天早上10點,遷入的熱門省份為「江蘇」、「浙江」、「安徽」、「廣東」、「山東」、「江西」、「福建」、「河北」、「四川」、「湖北」。而遷出的熱門省份,也就是從上海移動到的省份為「江蘇」、「浙江」、「安徽」、「江西」、「湖北」、「廣東」、「山東」、「河南」、「臺灣」、「福建」。從上面的排名可以發現有趣的現象,遷入與遷出的省份前三名都不變,後面開始就有不一樣的事情發生,像是遷出有了臺灣,於是我們可以再點臺灣去看熱門的遷入遷出省份。


可從上圖發現,從各個省份要回家排名前六名的有「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,這數據是否可以顯示「臺灣」與「上海」交流比「臺灣」與「北京」更活絡,從1月29日除夕前一天早上10點來講,這背後的意涵大家就可以自然衍生了。


另外一個角度是從台灣遷入過去的省份,如上圖排名前六包含「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,從這裡是否也能觀察到旅遊業這塊的市場呢?

接著我們回到最首頁,可以看「遷入熱市」、「遷出熱市」、「最熱線路」,也可以觀察到許多某個時間點,對岸的人流動向。


像是遷入排名前三名為「北京」、「重慶」、「武漢」。


遷出排名前三名為「北京」、「上海」、「廣州」。


最熱門的線路為「成都到北京」、「北京到成都」、「上海到滁洲」,從上圖也可以觀察到對岸省份交流比較活絡的是「北京」與「成都」,遷入成都1,000人當中有249人來自北京,從成都遷出的1,000人,有329人來自北京。


還有幾個是對岸新聞報導上的一些資訊,供大家參考:
  • 1月9日鐵路訂票「12306網站」和手機端的總訪問量達84億次,相當於每個中國人都通過電腦或手機訪問了該網站6次多。
  • 1400萬人次使用支付寶搶票。
  • 北京流出的人口就集中在保定、邯鄲、石家莊、張家口、天津。
  • 截止目前為止中國手機網民達5億人口。

最後簡單做個結論,筆者從這個平台看到幾件事情:
  • 通常20%已經是大家都知道的事情,透過巨量資料我們反而可觀察到80%人流動向,也就是長尾理論的概念。
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 用大數據結合LBS的服務來看觀察運輸全貌。
  • 巨量資料帶來新聞傳播領域的一種新的概念,像是資料新聞學,透過資料來強化新聞報導內容。
當然整個平台還是有些資料視覺化設計上的小缺點,這邊筆者也把它記錄下來,以便日後碰到相關的案子可以查詢。

一些想法與建議:
  • 沒辦法查詢一天或某一個時段(如:下午六點到八點)的遷入與遷出比例。
  • 無法以時間序列的概念觀察到每個省份的流量。
  • 本平台PC採用Flash製作,瀏覽速度不夠流暢。
  • 本平台行動載具版本採靜態的方式呈現,無法做細部查詢





參考資料:
  1. 大數據裏看春運:實時地圖上的春運全景
  2. 百度遷徙顯示北京榆林張家口來包旅客多
  3. 百度遷徙地圖看大數據 網友大讚接地氣!
  4. 百度遷徙:透過大數據看春運

2014年1月6日 星期一