顯示具有 開放資料 標籤的文章。 顯示所有文章
顯示具有 開放資料 標籤的文章。 顯示所有文章

2015年3月3日 星期二

用大數據看2015年春運:百度遷徙

新年到!!新年好!!

還記得筆者去年整理的大數據春運主題「用巨量資料看春運:百度遷徙」,很快的又過了一年,這次的春運資料視覺化做的更棒更好了。

筆者去年有提到,百度遷徙是百度透過適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,做了資料視覺呈現。今年百度已經把LBS這個服務商品化,並且命名為「百度慧眼」,提供顧客行為收集與觀察。另外在基礎設施的部分,也改用了百度開放平台來做支持,讓整體的軟體效果處理更為順暢。從這樣一年的改變與觀察,我們可以發現大數據並不是一步到位,而是需要日經月累的耕耘。

我們一樣從介面設計來觀察,從最基本的時間來看,去年的時間選擇從小小的方格,變成了時間軸的概念,把時間具體做了切割,讓使用者更能直覺的選擇時間(如紅框)。


下圖中在選擇城市的地方,雖然沒做太多變動,但運輸往返的顯示效果做的更細緻了,值得一提的是數據更為精確了。


從下圖往返的數據上可以觀察到,除夕夜晚上從對岸到臺灣的人,以上海、廣州的人最多。
有趣的地方是,在時間軸上有提供折線圖,提供查詢每一天在到臺灣的人數變化。


除了豐富的遷移資訊之外,這次百度遷徙還提供了即時航班、機場熱度、車站熱度。

即時航班如下圖呈現,可以看到小型正在移動的飛機,以及該班機的細部資訊。

機場熱度的部分,則是如下圖呈現,以黃色小圓點作為機場,跳動的圓點作為熱門的機場。

如下圖所示,車站熱度與機場熱度類似,只是車站較多,黃色小圓點又更細了,跳動的圓點一樣作為熱門的車站。


最後值得一提的是,去年筆者提的建議,大部分都已經解決,尤其在手機與平板的處理上,這次系統做的更精緻了,只能說真的非常有效率。

筆者一樣做個小結論,百度遷徙的應用商業價值在於透明,透過大數據把交通資料透明化,讓兩岸商業有更多交集,像是筆者去年提的這幾點
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 更多......
都是值得參考的。






2014年1月31日 星期五

用巨量資料看春運:百度遷徙


每年春運一直是對岸逢年過節的熱門話題,而今年1月26日對岸百度首次以適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,以「百度遷徙」的主題,報導整個春運的狀況。

而本次也是對岸首次運用巨量資料(Big data)的概念來報導春運的運輸全貌,藉此我們也可以看到大數據在整個運輸政策、文化交流上,都有重要的發展意義。


首先我們可以從百度遷徙看到幾個功能「月份」、「時間」、「地點」、「遷入熱市」、「遷出熱市」、「最熱線路」,是整個查詢網站的主要功能。月份可以查詢1月16日起到整個春節時間,地點則可用文字搜尋城市,例如搜尋”上海”,即可了解上海的熱門遷入與遷出城市。

上面每個點代表一個城市,金黃色的線則表示動向,而右邊有1~10名的排序,方便我們觀察遷入與遷出的比例。以上海來說,1月29日除夕前一天早上10點,遷入的熱門省份為「江蘇」、「浙江」、「安徽」、「廣東」、「山東」、「江西」、「福建」、「河北」、「四川」、「湖北」。而遷出的熱門省份,也就是從上海移動到的省份為「江蘇」、「浙江」、「安徽」、「江西」、「湖北」、「廣東」、「山東」、「河南」、「臺灣」、「福建」。從上面的排名可以發現有趣的現象,遷入與遷出的省份前三名都不變,後面開始就有不一樣的事情發生,像是遷出有了臺灣,於是我們可以再點臺灣去看熱門的遷入遷出省份。


可從上圖發現,從各個省份要回家排名前六名的有「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,這數據是否可以顯示「臺灣」與「上海」交流比「臺灣」與「北京」更活絡,從1月29日除夕前一天早上10點來講,這背後的意涵大家就可以自然衍生了。


另外一個角度是從台灣遷入過去的省份,如上圖排名前六包含「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,從這裡是否也能觀察到旅遊業這塊的市場呢?

接著我們回到最首頁,可以看「遷入熱市」、「遷出熱市」、「最熱線路」,也可以觀察到許多某個時間點,對岸的人流動向。


像是遷入排名前三名為「北京」、「重慶」、「武漢」。


遷出排名前三名為「北京」、「上海」、「廣州」。


最熱門的線路為「成都到北京」、「北京到成都」、「上海到滁洲」,從上圖也可以觀察到對岸省份交流比較活絡的是「北京」與「成都」,遷入成都1,000人當中有249人來自北京,從成都遷出的1,000人,有329人來自北京。


還有幾個是對岸新聞報導上的一些資訊,供大家參考:
  • 1月9日鐵路訂票「12306網站」和手機端的總訪問量達84億次,相當於每個中國人都通過電腦或手機訪問了該網站6次多。
  • 1400萬人次使用支付寶搶票。
  • 北京流出的人口就集中在保定、邯鄲、石家莊、張家口、天津。
  • 截止目前為止中國手機網民達5億人口。

最後簡單做個結論,筆者從這個平台看到幾件事情:
  • 通常20%已經是大家都知道的事情,透過巨量資料我們反而可觀察到80%人流動向,也就是長尾理論的概念。
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 用大數據結合LBS的服務來看觀察運輸全貌。
  • 巨量資料帶來新聞傳播領域的一種新的概念,像是資料新聞學,透過資料來強化新聞報導內容。
當然整個平台還是有些資料視覺化設計上的小缺點,這邊筆者也把它記錄下來,以便日後碰到相關的案子可以查詢。

一些想法與建議:
  • 沒辦法查詢一天或某一個時段(如:下午六點到八點)的遷入與遷出比例。
  • 無法以時間序列的概念觀察到每個省份的流量。
  • 本平台PC採用Flash製作,瀏覽速度不夠流暢。
  • 本平台行動載具版本採靜態的方式呈現,無法做細部查詢





參考資料:
  1. 大數據裏看春運:實時地圖上的春運全景
  2. 百度遷徙顯示北京榆林張家口來包旅客多
  3. 百度遷徙地圖看大數據 網友大讚接地氣!
  4. 百度遷徙:透過大數據看春運

2014年1月9日 星期四

關於開房數據事件的啟示

最近資安事件頻傳,不只台灣遠通電收,在對岸最近也頻繁發生數據外洩的問題。
本篇筆者以對岸最近發生的「開房數據」為例,來分享從不同角度觀察得到的一些啟示。

開房數據事件的原由來自浙江慧達驛站,這一家專門協助飯店做IT系統的廠商,在102年10月份被發現該公司所開發的Wi-Fi認證伺服器中的數據庫遭外洩。而事實上中國的安全漏洞監測平台鳥雲網其實在102年8月已經發現此漏洞,並且通知慧達驛站,但已經來不及。

該事件的禍源在於,使用者進入酒店之後,使用酒店的Wi-Fi必須採用實名制進行提交認證,而該Wi-Fi認證伺服器需連到慧達驛站進行認證,因此有兩個漏洞造成數據外洩:

  1. 認證過程採用明文傳輸,使駭客有機可趁。
  2. 資料庫未做好安全措施,使駭客得以進行備份整個資料庫。

該事件發生後,駭客先將資料庫非法販售之後,102年10月駭客再將資料庫上網惡意散佈,造成數據庫在一個月內被下載22萬次,平均一天被下載1千7百次,損失慘重。

而除了前述兩大漏洞問題之外,筆者也認為還有下列問題:
  1. 資料庫的權限未做修改(還在使用資料庫預設權限)
  2. 資訊架構未做好妥善規劃(如:防火牆、網路)
  3. 資料庫傳輸未做好處理(如:重要資料需加密傳輸)
  4. 資料紀錄為做好規劃(如:資料依據加密等級分門別類置放)
所以最終造成兩千萬筆數據「裸奔」的悲劇。

受害的飯店名單如下:

包含多家酒店比如漢庭、如家、7天連鎖酒店、南苑e家、格林豪泰連鎖酒店、布丁酒店、杭州維景國際大酒店等。

以下為筆者所歸納與分享的一些觀察

首先我們可以看到近年來對岸數據裸奔事件也相當的頻繁,

【2010年】
「360」服務器事件,上千萬筆用戶資料於Google上被裸奔
【2011年】
開發者社區「CSDN」、同期包含天涯社區、京東商城、噹噹網、支付寶、新浪愛問遭攻擊、支付寶員工自行洩露,造成600萬~7000萬用戶資料被裸奔
【2012年】
「中國人壽」資料庫洩露,造成80萬筆投保數據被裸奔
【2013年】
酒店開房數據洩漏、腾讯QQ群資料庫洩漏、
高達2000萬(1.7G)筆~12億(90G)筆資料被裸奔

這幾年事件中可以看到數據洩漏的網站皆是電子商務網站居多,更甚者是支付寶的數據是由內部員工傳出,筆者不禁聯想,未來是否也會發生資料戰爭(Data of War)?!這值得警惕。

接著從「數據庫營銷」的角度來看,這次事件的發生,打開了許多數據庫的市場,從前也許只是玩玩Excel,但由於這次的數據較為龐大,Excel頂多開啟1百萬多筆,網路上開始有許多熱心人士發表開數據庫的打開方式,以及SQL的語法,更甚至有人教如何分析這些數據,從百度搜尋即可得知,如下圖所示:


                                    (圖)網路搜尋畫面

因此讓筆者聯想到整個數據庫營銷的流程,如下圖所示:


從行銷的角度來看就是「體驗行銷」,就像近年來的觀光工廠常常可以吃到、喝到特產,或是玩到特產的製作過程,這樣的體驗可以提升消費者的買氣。從數據庫來看也是,當消費者發現這資料很特殊但卻打不開,進而尋求解決方式時,他們就在體驗數據庫大小改變的流程,從一百萬筆到兩千萬筆,應用誘因進而創造數據庫市場。

接著從「資訊安全」的角度來看,我們可以發現未來的數據庫的管理,必須由網管人員與數據庫人員,甚至是數據科學家並肩作戰。幾點分享如下:

  1. 內網與外網的運用  (網管負責)
  2. 資訊服務架構 (網管負責)
  3. 數據流?(數據科學家負責)
  4. 數據庫權限?(數據庫人員負責)
  5. 數據庫安全設置?(數據庫人員負責)
但就筆者的了解,事實上除了資訊產業公司之外,一般傳統產業公司並不注意這些分工,也其實不重視資訊部門,在資源相對較少的情況下,進而導致許多資訊安全事件發生,因此從這些事件,大家必須重新省思資訊安全的重要性。

接著從「社會問題角度」來看這件事情,前面提到該數據庫被非法販售,筆者從網路訊息得知一筆為9角,換算後駭客利用該數據庫非法所得達2百萬人民幣。而駭客將數據庫賣到沒有價值之後轉而散佈,造成數據庫散播後,這些數據庫中的用戶飽受紛擾,如:
  1. 不明來歷的推銷廣告
  2. 不明來歷的短信、電話、傳真
  3. 微博、微信詐騙
尤其上海的數據在事件的數據庫牽涉最多,因此損失最為慘重。


最後從「法律角度」來看本問題,前面提到上海人損失最為慘重,所以事件發生後,有一名在上海從事10年資訊安全工作的白領王金龍像法院提出了訴訟,成為全國該事件的受害者中訴訟維權的第一人,王金龍向酒店、慧達驛站索賠20萬元。但由於對岸在洩漏個人資訊這塊的法律還是屬空白狀態,因此官司是否能打贏還是未知。

有對岸律師事務所指出,《刑法修正案(七)》刑法第253條雖然界定了具體的犯罪事實,但不含近年興起的網站發布者,且法條中規定需「情節嚴重」因此在洩漏定罪上難以界定,這也反映出對岸在個人資料的保護上有待改進。

好,前面從這麼多的角度看這件事情,大家應該很想知道該事件接下來的發展吧,因此筆者把事件條列如下:

2013年4月
  • A駭客入侵教育局取得學籍數據,大陸網警花了好幾個月仍查無頭緒
2013年10月
  • 多家酒店的開房記錄被從網絡上曝光,引起社會高度關注。
2013年11月
  • 網警大隊發現洩露開房數據的人與A駭客有密切聯繫。
2014年1月5日
  • 民警於四川涼山州將罪犯逮捕
  • 警方在駭客電腦中發現30億筆個人數據
    該事件在短短三個月內就破案,看來對岸對於該事件關注相當高。

最後筆者下個結論:

第一點

「數據就像兩面刃,用的好加分,用不好零分」雖然大數據能增加各家公司競爭力已經是事實,但面對大數據時代的潮流,大公司更要重視數據的「安全」,除了挹注資源給資訊部門,更要重視資訊人才的聘用與培養。

而新創公司更要注意數據安全,因為一旦類似事件發生,損失難以估計。

但千萬別因為擔心發生這些事情而因噎廢食,再也不碰大數據,這樣想法是錯誤的。因為我們知道企業內部進行數據開放,可增加跨部門間溝通與決策者管理的效率。而企業外部有效的數據開放也可以增加商業交流與企業競爭力(如:淘寶)。因此好好的保護資料才是上上道。

第二點

數據的開放可以打通任督二脈,促進血液循環,這幾次事件的發生讓對岸數據庫基礎知識有了提升,因為大家為了想了解數據庫內容,而開始學習使用SQL。接著對岸也開始對個資有了保護的意識,因為這次洩漏的資料實在過於詳細,且上海數據為最大宗,因此建立個資保護的相關法條對岸勢在必行。最後在資訊安全的部分,對岸各公司也相對開始提升相關資訊安全設備,以避免類似問題重蹈覆轍。

「人抓到了,數據回不來了」這是從該事件中筆者獲得的最大心得,由於數據可以被複製散佈分享,因此只要散佈出去,就可以被全世界的人任意使用,就會長期保留在網路上,難以收拾。希望從開房數據的案例中,我們能以此為借鏡,開始做好資料安全(Data security)的事情,避免造成無法收拾的悲劇。


參考資料:

  1. 網安出槌 陸20家酒店個資外洩
  2. 2000万开房数据泄露获法院受理 沪每17人中1人遭泄密
  3. 开房数据泄露案告破:人抓了,数据回不来了
  4. 法院受理开房数据泄露第一案
  5. 360泄密事件
  6. 2011年中國網站用戶信息泄露事件
  7. 中國人壽曝客戶信息泄露門
  8. 腾讯群关系数据泄漏 据QQ号可秒查用户姓名年龄
  9. 個資看透透 徐旭東變「全民公敵」?
  10. 遠通電收:非蓄意「牽拖」駭客
  11. 資料開放與個人隱私

2013年11月18日 星期一

資料探勘軟體Weka之安裝篇

最近在準備資料探勘相關課程,為了讓大家能快快上手玩資料,這邊就寫整理一篇Weka的安裝篇給大家。


Weka是以Java為基礎的資料探勘(Data mining )(Machine learning)軟體,也是自由軟體(Open Source Software)Weka全名為懷卡托智能分析環境(Waikato Environment for Knowledge Analysis),而Weka同時也是紐西蘭(New Zealand)的特有種鳥名,而開發者也是來自紐西蘭的懷卡託大學(The University of Waikato)
(圖片來源:網路)


Weka整合了大量的資料探勘的演算法,因此在2005年第11ACM SIGKDD國際會議上,Weka小組獲得了資料探勘與知識探索的最高服務獎(2005 ACM SIGKDD Service Award)。

首先我們先到Weka官方網頁中下載Weka 3.6版本,依據個人電腦版本(Windows x86Windows x64Mac OS XLinux)來做下載,本篇範例是下載Windowsx86包含Java VM 1.7的版本,大約51MB

進入安裝畫面後,跟一般軟體安裝一樣,非常簡單,Next, Next....Next!!
按下「Next

按下「I Agree

按下「Next

按下「Next

按下「Install」,就開始安裝!!


接下來是安裝 Java,如果您確定電腦有就可以跳過,如果不確定就繼續安裝。



 再回到剛剛的安裝畫面,按下「Next」。

按下「Finish」,就可看到Weka的畫面了! 

Weka 工具畫面,請點選「Explorer



 接下來還沒完,由於我們探勘的資料集大部分都是華文為主,直接放到Weka裡面會發生下面亂碼悲劇。
因此要進行中文資料的參數調整。


首先我們要到Weka的資料夾中找尋RunWeka.ini的文件,使用記事本開啟。


接著在密密麻麻的文字中找 fileEncoding=Cp1252
接著將Cp1252 換成 UTF-8後儲存,接下來將Weka重新啟動即可。

提供大家測試資料做測試,若顯示下面畫面,表示您已更改成功!!


Weka如有無法啟動的問題,表示環境變量需設定,如下:
PATH:C:\Program Files\Java\jre7\bin


延伸閱讀:
Data Mining: Practical Machine Learning Tools and Techniques, Third Edition
台灣生活資料科學培養計畫 Data Science Program

2013年11月6日 星期三

2013資料科學家書籍學習清單

最近一直有朋友詢問,如果想當資料科學家,有沒有相關的書籍可以提供修讀。於是這邊整理一些清單如下,包含一些個人推薦書籍,歡迎大家一起推薦書籍:

資料探勘書籍(Data Mining Books)
Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management
Data Mining: Concepts and Techniques, Third Edition
Handbook of Statistical Analysis and Data Mining Applications
Introduction to Data Mining
Contrast Data Mining: Concepts, Algorithms, and Applications
Principles of Data Mining
Data Mining: Introductory and Advanced Topics
A First Course in Machine Learning

工具書籍(Tool Books)
R in a Nutshell
Data Mining with R: Learning with Case Studies
R Cookbook
R Graphics Cookbook
R in Action: Data Analysis and Graphics with R
Introductory Statistics with R
R by Example
Software for Data Analysis: Programming with R
Interactive and Dynamic Graphics for Data Analysis: With R and Ggobi
Data Mining: Practical Machine Learning Tools and Techniques, Third Edition

資料庫書籍(Database Books)
Database Systems
Database Systems: A Practical Approach to Design, Implementation and Management (5th Edition)
Database Management Systems
User Interface Design for Mere Mortals™
Beginning Database Design

資料倉儲書籍(Data Warehousing Books)
Building the Data Warehouse
The Data Warehouse Lifecycle Toolkit
The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling
Mastering Data Warehouse Design: Relational and Dimensional Techniques
Data Warehouse and Business Information Quality

資料視覺化(Data visualization)
Visualizing Data




  • 持續更新中.......