顯示具有 open data 標籤的文章。 顯示所有文章
顯示具有 open data 標籤的文章。 顯示所有文章

2014年1月31日 星期五

用巨量資料看春運:百度遷徙


每年春運一直是對岸逢年過節的熱門話題,而今年1月26日對岸百度首次以適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,以「百度遷徙」的主題,報導整個春運的狀況。

而本次也是對岸首次運用巨量資料(Big data)的概念來報導春運的運輸全貌,藉此我們也可以看到大數據在整個運輸政策、文化交流上,都有重要的發展意義。


首先我們可以從百度遷徙看到幾個功能「月份」、「時間」、「地點」、「遷入熱市」、「遷出熱市」、「最熱線路」,是整個查詢網站的主要功能。月份可以查詢1月16日起到整個春節時間,地點則可用文字搜尋城市,例如搜尋”上海”,即可了解上海的熱門遷入與遷出城市。

上面每個點代表一個城市,金黃色的線則表示動向,而右邊有1~10名的排序,方便我們觀察遷入與遷出的比例。以上海來說,1月29日除夕前一天早上10點,遷入的熱門省份為「江蘇」、「浙江」、「安徽」、「廣東」、「山東」、「江西」、「福建」、「河北」、「四川」、「湖北」。而遷出的熱門省份,也就是從上海移動到的省份為「江蘇」、「浙江」、「安徽」、「江西」、「湖北」、「廣東」、「山東」、「河南」、「臺灣」、「福建」。從上面的排名可以發現有趣的現象,遷入與遷出的省份前三名都不變,後面開始就有不一樣的事情發生,像是遷出有了臺灣,於是我們可以再點臺灣去看熱門的遷入遷出省份。


可從上圖發現,從各個省份要回家排名前六名的有「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,這數據是否可以顯示「臺灣」與「上海」交流比「臺灣」與「北京」更活絡,從1月29日除夕前一天早上10點來講,這背後的意涵大家就可以自然衍生了。


另外一個角度是從台灣遷入過去的省份,如上圖排名前六包含「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,從這裡是否也能觀察到旅遊業這塊的市場呢?

接著我們回到最首頁,可以看「遷入熱市」、「遷出熱市」、「最熱線路」,也可以觀察到許多某個時間點,對岸的人流動向。


像是遷入排名前三名為「北京」、「重慶」、「武漢」。


遷出排名前三名為「北京」、「上海」、「廣州」。


最熱門的線路為「成都到北京」、「北京到成都」、「上海到滁洲」,從上圖也可以觀察到對岸省份交流比較活絡的是「北京」與「成都」,遷入成都1,000人當中有249人來自北京,從成都遷出的1,000人,有329人來自北京。


還有幾個是對岸新聞報導上的一些資訊,供大家參考:
  • 1月9日鐵路訂票「12306網站」和手機端的總訪問量達84億次,相當於每個中國人都通過電腦或手機訪問了該網站6次多。
  • 1400萬人次使用支付寶搶票。
  • 北京流出的人口就集中在保定、邯鄲、石家莊、張家口、天津。
  • 截止目前為止中國手機網民達5億人口。

最後簡單做個結論,筆者從這個平台看到幾件事情:
  • 通常20%已經是大家都知道的事情,透過巨量資料我們反而可觀察到80%人流動向,也就是長尾理論的概念。
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 用大數據結合LBS的服務來看觀察運輸全貌。
  • 巨量資料帶來新聞傳播領域的一種新的概念,像是資料新聞學,透過資料來強化新聞報導內容。
當然整個平台還是有些資料視覺化設計上的小缺點,這邊筆者也把它記錄下來,以便日後碰到相關的案子可以查詢。

一些想法與建議:
  • 沒辦法查詢一天或某一個時段(如:下午六點到八點)的遷入與遷出比例。
  • 無法以時間序列的概念觀察到每個省份的流量。
  • 本平台PC採用Flash製作,瀏覽速度不夠流暢。
  • 本平台行動載具版本採靜態的方式呈現,無法做細部查詢





參考資料:
  1. 大數據裏看春運:實時地圖上的春運全景
  2. 百度遷徙顯示北京榆林張家口來包旅客多
  3. 百度遷徙地圖看大數據 網友大讚接地氣!
  4. 百度遷徙:透過大數據看春運

2013年11月6日 星期三

2013資料科學家書籍學習清單

最近一直有朋友詢問,如果想當資料科學家,有沒有相關的書籍可以提供修讀。於是這邊整理一些清單如下,包含一些個人推薦書籍,歡迎大家一起推薦書籍:

資料探勘書籍(Data Mining Books)
Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management
Data Mining: Concepts and Techniques, Third Edition
Handbook of Statistical Analysis and Data Mining Applications
Introduction to Data Mining
Contrast Data Mining: Concepts, Algorithms, and Applications
Principles of Data Mining
Data Mining: Introductory and Advanced Topics
A First Course in Machine Learning

工具書籍(Tool Books)
R in a Nutshell
Data Mining with R: Learning with Case Studies
R Cookbook
R Graphics Cookbook
R in Action: Data Analysis and Graphics with R
Introductory Statistics with R
R by Example
Software for Data Analysis: Programming with R
Interactive and Dynamic Graphics for Data Analysis: With R and Ggobi
Data Mining: Practical Machine Learning Tools and Techniques, Third Edition

資料庫書籍(Database Books)
Database Systems
Database Systems: A Practical Approach to Design, Implementation and Management (5th Edition)
Database Management Systems
User Interface Design for Mere Mortals™
Beginning Database Design

資料倉儲書籍(Data Warehousing Books)
Building the Data Warehouse
The Data Warehouse Lifecycle Toolkit
The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling
Mastering Data Warehouse Design: Relational and Dimensional Techniques
Data Warehouse and Business Information Quality

資料視覺化(Data visualization)
Visualizing Data




  • 持續更新中.......

2013年8月18日 星期日

巨量資料與開放資料

IBM的視覺化程式Pearle,對維基百科使用者編輯之紀錄,其數據進行視覺化的呈現。(wiki)

近年來因為資料爆炸這樣的趨勢,使得多個資料(Data)議題,被大家不斷拿出討論,其中以巨量資料(Big data)與開放資料(Open data)最為熱絡,剛好筆者工作兩邊皆有所接觸,因此這邊做了些彙整。

首先我們從維基百科就可一探究竟,在巨量資料的大意指的就是「量大到無法透過主流軟體來解決的資料」,而開放資料的部分則是指「不受限制,可開放給任何人使用的資料」,從字面上看我們就可以將這兩議題分成「技術議題」與「社會議題」,但筆者覺得這其中在市場上其實有先後順序。

首先我們先談談巨量資料的基本定義,講到這個就一定要談到4V,也就是說巨量資料具備以下四種特性,這在「雲端時代的殺手級應用:BIG DATA海量資料分析」書籍介紹的一篇文章中也有提到:
  • 資料巨量性(Volume)
  • 資料多樣性(Variety)
  • 資料即時性(Velocity)
  • 資料不確定性(Veracity)
有了以上四種特性的資料,都可被定義為巨量資料。而當然巨量資料也有相當多的用途,像是在娛樂業女神卡卡找到吸引粉絲的方法、在電力公司與建築業可進行能源效率管理、在製造業養豬場也可透過條碼、溫度、濕度感測器、GPS收集資料取得豬隻狀態、在醫療業可統計疾病資料、在零售商可找到尿布與啤酒的關連......等,總之巨量資料可做到的事情非常多,不過事實上,筆者深入了解後,發現其實巨量資料除了是將資料「生、流、存、算、用、看」,在整個政策運作上也更要有所推動與落實。

接著我們談談開放資料的定義,其實開放資料(Open data)比較像是一個改革運動口號,其中像是開放政府資料(Open Government Data)、開放科學資料(Open science data)等,台灣以開放政府資料(Open Government Data)最為熱絡。在中研院於2013年出版的「藏智於民」一書可以了解其議題在整個社會的重要性,開放政府資料可促進資訊服務新興活動的發展,在美國英國加拿大世界銀行等地方皆有發展與商機。而在台灣,開放資料的應用也非常多,像是最近吵的很兇的核四議題、以及由一群黑客組成的g0v零時政府、甚至是國際組織OKFN Taiwan 開放知識基金會台灣、甚至是已舉辦多場的活動Open Data Day 2013地球日開放發展工作坊、Data Weekend #03 #04 #05等,從這裡可看到許多關於開放資料的端倪。

筆者認為上述兩件事情,都在講關於資料(Data)一事,面向雖不同,但皆有異曲同工之妙,且對於整個社會的脈動皆有幫助。開放資料可推動整個社會朝向資料治理(Data governance)的發展,促進整體資料市場脈動,而巨量資料則後在後續承接資料,以最佳的資料解決方案,來處理資料,使得整個世界朝向互聯化、感知化、智能化發展,在資料爆炸的時代,讓我們面對資料,而不是懼怕資料。

Don't fear data! Understand it! Manage it.

延伸閱讀:(持續更新中,歡迎讀者推薦)
  1. Big Data大數據的獲利模式
  2. 大數據
  3. 雲端時代的殺手級應用:Big Data海量資料分析
  4. BIG DATA:讓你看見真實欲望
  5. Big Data大數據的獲利模式:圖解.案例.策略.實戰
  6. 精準預測:如何從巨量雜訊中,看出重要的訊息?

2013年5月27日 星期一

關於數據科學於醫學的應用

圖片取自網路

這今天在思考,其實還滿想將資料分析所學應用在醫學上。所以自己為了紀錄資料分析在醫學上的一些應用,所以就找了一些文章來看,做一下記錄。
不過,還真是博大精深!

1.急診醫學
有篇是運用在急診醫療上,透過歷史資料挖掘,預測急診病患的嚴重性,嚴重性較高的優先治療,該方式改善某些較為嚴重的急診病患可獲得妥善的資源照顧,該概念有個專業名詞叫做檢傷分類。

2.癌症存活情形
也有學者運用數據分析於子宮頸癌、大腸癌存活時間的預測,透過演算法去做資料的預測,可幫助醫生了解癌症病患罹癌後,他可能存活的時間。

3.推薦疾病
在某本書上有看到,過去在電子商務上我們透過資料探勘推薦產品給消費者,而在醫學資料探勘上,則是可透過基因定序結合資料探勘的方式,可挖掘出哪些基因會得到哪種疾病,進而推薦疾病給消費者。

4.病情預測系統
有學者運用資料做了病情惡化的早期預警系統Early Warning System(EWS),幫助醫療人員能幫助病患做早期的預防決策,譬如說某個病人可能因為某些徵兆會引發更嚴重的疾病,透過系統抓到徵兆後,可將病人提早轉移到重症病房等等。

這本書算是一個整理 Medical Data Mining and Knowledge Discovery

個人覺得資料分析運用在醫學上,有很多的幫助,像是針對疾病、治療、倫理、管理上都可應用,且在開放資料(Open data)也有議題可以討論,只能說未來的世界醫療資料就是金礦阿

關鍵字:Medical Data Mining

2013年4月2日 星期二

雲端時代的殺手級應用:BIG DATA海量資料分析

最近一期的天下雜誌出版的書,介紹了海量資料分析的一些案例,這邊做個影片摘要整理。



海量資料(Big Data)的特色:
  • 資料巨量性(Volume)
  • 資料多樣性(Variety)
  • 資料即時性(Velocity)
  • 資料不確定性(Veracity)


海量資料分析可做的事情,比我們想像中的還要多:

  1. 分析顧客行為
  2. 提升企業獲利
  3. 紓解交通狀況
  4. 預測失業率
  5. 預防恐怖攻擊
  6. 打造即時服務
  7. 預測股票指數
  8. 降低犯罪率
  9. 改善服務流程
  10. 控制疫情蔓延
  11. 降低營運成本
  12. 提高醫學研發成效
  13. 增加作物產量
  14. 預防通膨變化
  15. More and more.......

資料分析實際案例:

辛辛那提動物園,以資料進行商業分析調整行銷模式與資源分配
增加35萬美元的收入,5萬人次的新遊客,降低43萬的廣告費用

美國疾病控制及預測中心,與Google合作發展Google Flu Trends,追蹤流感傳播趨勢
提早兩星期掌握流感爆發關鍵時刻

溫布頓網球公開賽,即時賽事分析
讓球迷親身體驗賽事

美國邦威電力管理局,以智慧電網即時調度用電
省下一座新電廠,約6~10億美元的支出

加拿大安大略理工大學,建立早產兒健康監護系統
協助醫護人員提前24小時,預防早產兒因敗血症引發感染問題

羅森(Lawson)便利商店,分析社群網站大量資訊,調整行銷策略
稅前營收五年增加60%

古都倫敦,整合海量資料提供服務
讓遊客隨時查詢地鐵動態與車輛調度情形
智慧型垃圾桶防犯罪與恐怖攻擊

剩下的等書拿到再來分享。