資料科學實驗室: 巨量資料

顯示具有 巨量資料 標籤的文章。顯示所有文章

2016年5月22日星期日

一天上手SparkR

Spark是近幾年在數據分析領域非常火紅的技術，繼上一次「透過Python與Spark做氣象大數據分析」的文章，筆者這次希望分享的是原生Spark 在 R上面的改變，從Spark 1.4版開始對R有較完整的支持，而今年推出的Spark 1.6版上面，可以看到Spark 已經特別為R做了一個專屬的核心，這個核心也只有R才有，其目標就是希望把過去R累積的運算套件無痛移植到Spark上。

圖1：SparkR架構(來源)

從「SparkR: Scaling R Programs with Spark」這篇期刊文章上可以觀察到，圖1中的R的Spark Context透過R-JVM跟Java Spark Context做溝通，將工作分散到每個有R的Worker上面，透過Spark Executor進行運算，其實有Hadoop MR的味道。

但重點是效率變得更好，程式碼變得更好寫，從效率來看，圖2中SparkR的DataFrame效率跟Scala、Python其實也差不多了，而且做Cache會更快。

圖2：DataFrame的效率比較(來源)

另外一個重點是寫R的程式碼邏輯不需變換，因此寫R的資料科學家可以更輕鬆的轉移過去的R程式碼，另外2015年從SparkR 1.4開始已提供66種函式，到Spark1.5提供197個函式，到今年的SparkR 1.6.x版本已提供225種函式，這種增長速度是非常驚人的，因為SparkR 1.4 是去年2015年6月發表，距離筆者寫這篇文章的時間才剛剛準備要滿一年，因此SparkR的發展非常的快速。

接下來我們就來用Windows平台先快快的體驗一下SparkR的威力吧，首先到Spark官網上去下載Spark，透過下圖的點選，下載spark-1.6.1-bin-hadoop2.6.tgz版本。

下載完成後直接解壓縮到您想要放的位置，像筆者是放在C槽區，並把名字變更為Spark。接下來打開RStudio、R、Microsoft R Open都可以，這篇筆者以RStudio做示範。

首先我們進行環境的設定


Sys.setenv(SPARK_HOME = "C:\\spark") #其中C:\\Spark是您的Spark路徑與目錄名稱
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
library(SparkR)

接下來我們就可以開始使用SparkR，我們先使用下面兩行指令做起手式。


sc = sparkR.init();sqlContext = sparkRSQL.init(sc)

其中sc的第一行可以設定Spark的初始狀態，如：要給Spark的記憶體，詳細可參考SparkR的SparkR.init文件。第二行就是前面筆者提到的SparkContext，主要是從JavaSparkContext做初始化的動作。

接下來我們來玩玩經典的iris例子，首先先把iris的欄位名稱做修改，因為Spark裡面很多「.」的函式，避免出錯，我們先把欄位名稱以「_」取代。


newiris = iris;names(newiris) = c("Sepal_Length","Sepal_Width","Petal_Length","Petal_Width","Species")

接下來我們產生Spark超強的DataFrame，這對R使用者不陌生，只是這次是使用Spark去產生DataFrame。


df = createDataFrame(sqlContext, newiris)

接下來我們可以使用head或showDF函式觀察資料。


head(df, 5)
showDF(df, 5)

接下來我們可以透過printSchema去觀察一下資料的架構。


printSchema(df)

接著我們可以透過head與select去挑選某個欄位的資料，如挑選Sepal_Length。


head(select(df, df$Sepal_Length))
head(select(df, df$Sepal_Length),10) #挑選10筆

假設筆者想挑選Sepal_Length大於5.4的資料，可以使用head與filter這兩個函式，這兩個函式用起來有沒有覺得很像R的dplyr呢? 相信R使用者很快就能夠上手SparkR。


head(filter(df, df$Sepal_Length > 5.4))

如果dplyr您夠了解，那接下來如果我們想計算Sepal_Length的做簡單的Aggregation，就可以使用下面的指令。


sepal_counts = summarize(groupBy(df, df$Sepal_Length), count = n(df$Sepal_Length))

當然如果要做廣義線性模型(GLM)，SparkR的做法跟原生的R做法是完全一模一樣。


model = glm(Sepal_Length ~., data = df, family = "gaussian");summary(model)

如果還想知道其他的功能，請直接拜訪SparkR的文件

從本篇文章中我們可以快速掌握SparkR的使用，同時也了解到目前SparkR不僅支援資料選擇(Selection)、資料過濾(Filtering)、資料聚合(Aggregation)，更已經開始支援Spark MLlib可以進行分散式的機器學習。因此我們可以期待未來R的資料科學家在分散式運算上可以透過SparkR更暢通無阻。

當然實務上真的全部資料都要使用SparkR嗎? 不一定，R在記憶體運算(In-memory computing)的部分也有很強的處理能力，因此有時候單機的記憶體夠多，像是MRO + Math Kernel Library，或是寫法稍微改一下(如矩陣寫法)，基本上也無須要動用SparkR，雖然如此，在分散式的環境下SparkR還是有它能發展的舞台，所以讓我們繼續期待下去。

2015年3月3日星期二

用大數據看2015年春運:百度遷徙

新年到！！新年好！！

還記得筆者去年整理的大數據春運主題「用巨量資料看春運:百度遷徙」，很快的又過了一年，這次的春運資料視覺化做的更棒更好了。

筆者去年有提到，百度遷徙是百度透過適地性服務 (Location Based Services簡稱LBS)技術，取得網民的移動資料，並整合百度地圖，做了資料視覺呈現。今年百度已經把LBS這個服務商品化，並且命名為「百度慧眼」，提供顧客行為收集與觀察。另外在基礎設施的部分，也改用了百度開放平台來做支持，讓整體的軟體效果處理更為順暢。從這樣一年的改變與觀察，我們可以發現大數據並不是一步到位，而是需要日經月累的耕耘。

我們一樣從介面設計來觀察，從最基本的時間來看，去年的時間選擇從小小的方格，變成了時間軸的概念，把時間具體做了切割，讓使用者更能直覺的選擇時間（如紅框）。

下圖中在選擇城市的地方，雖然沒做太多變動，但運輸往返的顯示效果做的更細緻了，值得一提的是數據更為精確了。

從下圖往返的數據上可以觀察到，除夕夜晚上從對岸到臺灣的人，以上海、廣州的人最多。

有趣的地方是，在時間軸上有提供折線圖，提供查詢每一天在到臺灣的人數變化。

除了豐富的遷移資訊之外，這次百度遷徙還提供了即時航班、機場熱度、車站熱度。

即時航班如下圖呈現，可以看到小型正在移動的飛機，以及該班機的細部資訊。

機場熱度的部分，則是如下圖呈現，以黃色小圓點作為機場，跳動的圓點作為熱門的機場。

如下圖所示，車站熱度與機場熱度類似，只是車站較多，黃色小圓點又更細了，跳動的圓點一樣作為熱門的車站。

最後值得一提的是，去年筆者提的建議，大部分都已經解決，尤其在手機與平板的處理上，這次系統做的更精緻了，只能說真的非常有效率。

筆者一樣做個小結論，百度遷徙的應用商業價值在於透明，透過大數據把交通資料透明化，讓兩岸商業有更多交集，像是筆者去年提的這幾點

兩岸旅遊業可透過這張圖了解市場，像是較具發展潛力的旅遊省份。
兩岸運輸業透過這張圖了解運輸動脈，像是台灣過年間較愛飛的省份。
可觀察到兩岸交流較為熱絡的城市，甚至是對岸在省份間較為熱絡的城市。
商人也可以觀察哪個城市交流最為活絡。
更多......

都是值得參考的。

2014年10月3日星期五

什麼是大數據的新架構「資料湖泊」?

隨著資訊科技的發達，企業開始面臨大量數據的儲存問題。過去許多企業從導入資料庫，到導入資料倉儲，甚至商業智慧。以面對不斷增長的資料以及資料的應用問題，但資料持續增加，傳統架構將可能不敷使用。

因此有個新名詞「資料湖泊(Data Lake)」(又稱數據湖泊、DL)因應而生。該名詞於2011年最早出現在富比士(Forbes)雜誌，「Big Data Requires a Big, New Architecture」一文中。

資料湖泊(Data Lake)有別於我們提到的資料倉儲(Data Warehouse)，資料倉儲(DW)的資料通常是品質較高，且是被預先處理過的資料。而資料湖泊(DL)則是儲存大量且龐雜的資料，作為資料素材(Data Material)的儲存池(Pool)，以便未來分析使用。

因此資料湖泊(DL)使資料科學家在資料分析上擁有更大的分析彈性。

資料湖泊(DL)被提起後，EMC也開始使用這個名詞進行大數據產品的推廣。

今年1月富比士(Forbes)雜誌的「The Data Lake Dream」一文中，提到了資料湖泊(DL)成熟度的分為四級，筆者將圖片重新翻譯繪製並整理如下：

圖一：資料湖泊成熟度第一級

首先是成熟度第一級「尚未導入DL」，紅色為應用服務(資料庫)，綠色為資料倉儲，部分資料間互相串接，部分資料傳遞到資料倉儲進行分析。該架構也是目前企業普遍的資料架構，各個資料庫相互獨立，只有少部分資料庫整理資料後，傳到資料倉儲做分析應用。此成熟度有3個重點：

企業所有應用服務(資料庫)都各別獨立。
僅部分資料庫將資料傳遞到資料倉儲。
資料科學家透過資料倉儲進行資料分析。

圖二：資料湖泊成熟度第二級

當進入到成熟度第二級「導入Hadoop」，紅色為應用服務(資料庫)，綠色為資料倉儲，藍色為Hadoop、深藍色為資料分析器。這時候資料庫開始把部分資料往Hadoop進行傳遞，資料科學家可透過Hadoop進行ETL(資料萃取、轉換、讀取)，提升分析效率。本成熟度4個重點：

企業的應用服務(資料庫)，開始將部份資料儲存到Hadoop。
Hadoop開始透過MapReduce處理資料。
資料科學家使用Hadoop進行ETL接著放到資料倉儲或開發資料分析器。
Hadoop處理好的資料傳回應用服務(資料庫)

圖三：資料湖泊成熟度第三級

進展到成熟度第三級「資料不斷增長的資料湖泊」，紅色為應用服務(資料庫)，綠色為資料倉儲，藍色為Hadoop、深藍色為資料分析器。這階段Hadoop可以說是扮演資料中心的角色，負責儲存巨量、龐雜、高不確定的資料。本成熟度有4個重點：

所有應用服務(資料庫)都以Hadoop為中心進行串接。
Hadoop開始整合外部的資料來源。
透過資料分析語言或工具(如：R、Python、Impala, Greenplum, Spark等) 與Hadoop進行互動。
Hadoop成為所有資料儲存的目的地，以便利企業進行資料治理(Data Governance)。

圖四：資料湖泊成熟度第四級

最後到成熟度第四級「資料湖泊與應用雲端平台」，目前只有少部分公司的資料規模可以做到，像是Google、Amazon、Alibaba、Facebook，因為這類型企業的資料已經大到一個規模，需要高效率的資料處理架構。這時候企業應用服務(APPs)的資料存取大部分都由Hadoop這邊作互動。在這個階段主要強調資料安全(Data Security)與資料治理(Data Governance)的部分，進行加強。本成熟度有4個重點：

所有的新的應用服務全都建立在Hadoop的平台上。
新的應用服務的資料庫佈署時間將減少。
Hadoop成為分散式的資料運算平台，運用於資料管理與分析。
Hadoop強化資料安全與資料治理的功能。

最後筆者整理了資料庫、資料倉儲、資料湖泊三個不同特性比較給大家參考。

表：資料科學實驗室整理

上述表格，可以讓我們快速了解這些不同的名詞之間的差異。在企業中，面對大數據的浪潮，除了掌握上述的成長模式，也要依據資料庫、資料倉儲、資料湖泊的特性，分別將這些資料儲存模式定位，賦予不同的任務。

至於資料湖泊一定要用Hadoop嗎? 筆者的回答是不一定，就好像現在SQL Database有Oracle、MySQL、MS SQL等，NoSQL Database有MongoDB、CouchDB等，永遠都有很多選擇。只是目前Hadoop是國際間處理大數據較為穩定的技術，國外近年的新創公司也都採用Hadoop協助企業做資料管理。

筆者認為只要掌握前面四級的資料湖泊成長模式，相信企業就可以很快掌握大數據的處理方向，至於使用什麼技術，技術的特性是什麼，下回再談。先讓我們一起迎接充滿數據的未來吧!

參考資料：

Big Data Requires a Big, New Architecture

The Data Lake Dream

Pivotal Big Data Suite : Eliminating the Tax on a growing hadoop cluster

2014年7月3日星期四

大數據探索航空資料系列-美國聯邦航空管理局

攝影/Jerry

最近筆者剛好讀到有關於大數據應用於航空資料分析，值得整理介紹給相關領域的朋友們參考。記得上Data Science Program的課程中，曾有學生邀請筆者至某航空公司擔任顧問，但筆者實在是分身乏術，所以希望這一篇能夠幫上航空界的忙。

其中一篇是2009年刊登在知名期刊Knowledge-Based Systems上的學術研究，主要是應用決策樹(Decision trees)從美國聯邦航空管理局(FAA)的數據來挖掘出可能會出現航空事故的特徵。研究所採用的分析工具為Megaputer Intelligence所開發的PolyAnalyst與挪威科技大學開發的Rosetta。

2014年5月20日星期二

12本免費的巨量資料分析書籍

幾本由專家提供的免費巨量資料分析書籍，包含R、Python、MATLAB等語言。也可以從這些書籍中發現目前巨量資料分析的理論主要還是以統計、資料探勘與機器學習為主。

本文同步刊載於Data Science Program 資料科學計畫

2014年1月31日星期五

用巨量資料看春運:百度遷徙

圖：百度遷徙

每年春運一直是對岸逢年過節的熱門話題，而今年1月26日對岸百度首次以適地性服務 (Location Based Services簡稱LBS)技術，取得網民的移動資料，並整合百度地圖，以「百度遷徙」的主題，報導整個春運的狀況。

而本次也是對岸首次運用巨量資料(Big data)的概念來報導春運的運輸全貌，藉此我們也可以看到大數據在整個運輸政策、文化交流上，都有重要的發展意義。

首先我們可以從百度遷徙看到幾個功能「月份」、「時間」、「地點」、「遷入熱市」、「遷出熱市」、「最熱線路」，是整個查詢網站的主要功能。月份可以查詢1月16日起到整個春節時間，地點則可用文字搜尋城市，例如搜尋”上海”，即可了解上海的熱門遷入與遷出城市。

上面每個點代表一個城市，金黃色的線則表示動向，而右邊有1~10名的排序，方便我們觀察遷入與遷出的比例。以上海來說，1月29日除夕前一天早上10點，遷入的熱門省份為「江蘇」、「浙江」、「安徽」、「廣東」、「山東」、「江西」、「福建」、「河北」、「四川」、「湖北」。而遷出的熱門省份，也就是從上海移動到的省份為「江蘇」、「浙江」、「安徽」、「江西」、「湖北」、「廣東」、「山東」、「河南」、「臺灣」、「福建」。從上面的排名可以發現有趣的現象，遷入與遷出的省份前三名都不變，後面開始就有不一樣的事情發生，像是遷出有了臺灣，於是我們可以再點臺灣去看熱門的遷入遷出省份。

可從上圖發現，從各個省份要回家排名前六名的有「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」，這數據是否可以顯示「臺灣」與「上海」交流比「臺灣」與「北京」更活絡，從1月29日除夕前一天早上10點來講，這背後的意涵大家就可以自然衍生了。

另外一個角度是從台灣遷入過去的省份，如上圖排名前六包含「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」，從這裡是否也能觀察到旅遊業這塊的市場呢?

接著我們回到最首頁，可以看「遷入熱市」、「遷出熱市」、「最熱線路」，也可以觀察到許多某個時間點，對岸的人流動向。

像是遷入排名前三名為「北京」、「重慶」、「武漢」。

遷出排名前三名為「北京」、「上海」、「廣州」。

最熱門的線路為「成都到北京」、「北京到成都」、「上海到滁洲」，從上圖也可以觀察到對岸省份交流比較活絡的是「北京」與「成都」，遷入成都1,000人當中有249人來自北京，從成都遷出的1,000人，有329人來自北京。

還有幾個是對岸新聞報導上的一些資訊，供大家參考：

1月9日鐵路訂票「12306網站」和手機端的總訪問量達84億次，相當於每個中國人都通過電腦或手機訪問了該網站6次多。
1400萬人次使用支付寶搶票。
北京流出的人口就集中在保定、邯鄲、石家莊、張家口、天津。
截止目前為止中國手機網民達5億人口。

最後簡單做個結論，筆者從這個平台看到幾件事情：

通常20%已經是大家都知道的事情，透過巨量資料我們反而可觀察到80%人流動向，也就是長尾理論的概念。
兩岸旅遊業可透過這張圖了解市場，像是較具發展潛力的旅遊省份。
兩岸運輸業透過這張圖了解運輸動脈，像是台灣過年間較愛飛的省份。
可觀察到兩岸交流較為熱絡的城市，甚至是對岸在省份間較為熱絡的城市。
商人也可以觀察哪個城市交流最為活絡。
用大數據結合LBS的服務來看觀察運輸全貌。
巨量資料帶來新聞傳播領域的一種新的概念，像是資料新聞學，透過資料來強化新聞報導內容。

當然整個平台還是有些資料視覺化設計上的小缺點，這邊筆者也把它記錄下來，以便日後碰到相關的案子可以查詢。

一些想法與建議：

沒辦法查詢一天或某一個時段(如：下午六點到八點)的遷入與遷出比例。
無法以時間序列的概念觀察到每個省份的流量。
本平台PC採用Flash製作，瀏覽速度不夠流暢。
本平台行動載具版本採靜態的方式呈現，無法做細部查詢

參考資料：

2014年1月9日星期四

關於開房數據事件的啟示

最近資安事件頻傳，不只台灣遠通電收，在對岸最近也頻繁發生數據外洩的問題。
本篇筆者以對岸最近發生的「開房數據」為例，來分享從不同角度觀察得到的一些啟示。

開房數據事件的原由來自浙江慧達驛站，這一家專門協助飯店做IT系統的廠商，在102年10月份被發現該公司所開發的Wi-Fi認證伺服器中的數據庫遭外洩。而事實上中國的安全漏洞監測平台鳥雲網其實在102年8月已經發現此漏洞，並且通知慧達驛站，但已經來不及。

該事件的禍源在於，使用者進入酒店之後，使用酒店的Wi-Fi必須採用實名制進行提交認證，而該Wi-Fi認證伺服器需連到慧達驛站進行認證，因此有兩個漏洞造成數據外洩：

認證過程採用明文傳輸，使駭客有機可趁。
資料庫未做好安全措施，使駭客得以進行備份整個資料庫。

該事件發生後，駭客先將資料庫非法販售之後，102年10月駭客再將資料庫上網惡意散佈，造成數據庫在一個月內被下載22萬次，平均一天被下載1千7百次，損失慘重。

而除了前述兩大漏洞問題之外，筆者也認為還有下列問題：

資料庫的權限未做修改(還在使用資料庫預設權限)
資訊架構未做好妥善規劃(如：防火牆、網路)
資料庫傳輸未做好處理(如：重要資料需加密傳輸)
資料紀錄為做好規劃(如：資料依據加密等級分門別類置放)

所以最終造成兩千萬筆數據「裸奔」的悲劇。

受害的飯店名單如下：

http://www.yyct.com/zhuanlan/20113.html

包含多家酒店比如漢庭、如家、7天連鎖酒店、南苑e家、格林豪泰連鎖酒店、布丁酒店、杭州維景國際大酒店等。

以下為筆者所歸納與分享的一些觀察

首先我們可以看到近年來對岸數據裸奔事件也相當的頻繁，

【2010年】
「360」服務器事件，上千萬筆用戶資料於Google上被裸奔
【2011年】
開發者社區「CSDN」、同期包含天涯社區、京東商城、噹噹網、支付寶、新浪愛問遭攻擊、支付寶員工自行洩露，造成600萬~7000萬用戶資料被裸奔
【2012年】
「中國人壽」資料庫洩露，造成80萬筆投保數據被裸奔
【2013年】
酒店開房數據洩漏、腾讯QQ群資料庫洩漏、
高達2000萬(1.7G)筆~12億(90G)筆資料被裸奔

這幾年事件中可以看到數據洩漏的網站皆是電子商務網站居多，更甚者是支付寶的數據是由內部員工傳出，筆者不禁聯想，未來是否也會發生資料戰爭(Data of War)?!這值得警惕。

接著從「數據庫營銷」的角度來看，這次事件的發生，打開了許多數據庫的市場，從前也許只是玩玩Excel，但由於這次的數據較為龐大，Excel頂多開啟1百萬多筆，網路上開始有許多熱心人士發表開數據庫的打開方式，以及SQL的語法，更甚至有人教如何分析這些數據，從百度搜尋即可得知，如下圖所示：

(圖)網路搜尋畫面

因此讓筆者聯想到整個數據庫營銷的流程，如下圖所示：

從行銷的角度來看就是「體驗行銷」，就像近年來的觀光工廠常常可以吃到、喝到特產，或是玩到特產的製作過程，這樣的體驗可以提升消費者的買氣。從數據庫來看也是，當消費者發現這資料很特殊但卻打不開，進而尋求解決方式時，他們就在體驗數據庫大小改變的流程，從一百萬筆到兩千萬筆，應用誘因進而創造數據庫市場。

接著從「資訊安全」的角度來看，我們可以發現未來的數據庫的管理，必須由網管人員與數據庫人員，甚至是數據科學家並肩作戰。幾點分享如下：

內網與外網的運用 (網管負責)
資訊服務架構 (網管負責)
數據流？(數據科學家負責)
數據庫權限？(數據庫人員負責)
數據庫安全設置？(數據庫人員負責)

但就筆者的了解，事實上除了資訊產業公司之外，一般傳統產業公司並不注意這些分工，也其實不重視資訊部門，在資源相對較少的情況下，進而導致許多資訊安全事件發生，因此從這些事件，大家必須重新省思資訊安全的重要性。

接著從「社會問題角度」來看這件事情，前面提到該數據庫被非法販售，筆者從網路訊息得知一筆為9角，換算後駭客利用該數據庫非法所得達2百萬人民幣。而駭客將數據庫賣到沒有價值之後轉而散佈，造成數據庫散播後，這些數據庫中的用戶飽受紛擾，如：

不明來歷的推銷廣告
不明來歷的短信、電話、傳真
微博、微信詐騙

尤其上海的數據在事件的數據庫牽涉最多，因此損失最為慘重。

最後從「法律角度」來看本問題，前面提到上海人損失最為慘重，所以事件發生後，有一名在上海從事10年資訊安全工作的白領王金龍像法院提出了訴訟，成為全國該事件的受害者中訴訟維權的第一人，王金龍向酒店、慧達驛站索賠20萬元。但由於對岸在洩漏個人資訊這塊的法律還是屬空白狀態，因此官司是否能打贏還是未知。

有對岸律師事務所指出，《刑法修正案(七)》刑法第253條雖然界定了具體的犯罪事實，但不含近年興起的網站發布者，且法條中規定需「情節嚴重」因此在洩漏定罪上難以界定，這也反映出對岸在個人資料的保護上有待改進。

好，前面從這麼多的角度看這件事情，大家應該很想知道該事件接下來的發展吧，因此筆者把事件條列如下：

2013年4月

A駭客入侵教育局取得學籍數據，大陸網警花了好幾個月仍查無頭緒

2013年10月

多家酒店的開房記錄被從網絡上曝光，引起社會高度關注。

2013年11月

網警大隊發現洩露開房數據的人與A駭客有密切聯繫。

2014年1月5日

民警於四川涼山州將罪犯逮捕
警方在駭客電腦中發現30億筆個人數據
該事件在短短三個月內就破案，看來對岸對於該事件關注相當高。

最後筆者下個結論：

第一點

「數據就像兩面刃，用的好加分，用不好零分」雖然大數據能增加各家公司競爭力已經是事實，但面對大數據時代的潮流，大公司更要重視數據的「安全」，除了挹注資源給資訊部門，更要重視資訊人才的聘用與培養。

而新創公司更要注意數據安全，因為一旦類似事件發生，損失難以估計。

但千萬別因為擔心發生這些事情而因噎廢食，再也不碰大數據，這樣想法是錯誤的。因為我們知道企業內部進行數據開放，可增加跨部門間溝通與決策者管理的效率。而企業外部有效的數據開放也可以增加商業交流與企業競爭力(如：淘寶)。因此好好的保護資料才是上上道。

第二點

數據的開放可以打通任督二脈，促進血液循環，這幾次事件的發生讓對岸數據庫基礎知識有了提升，因為大家為了想了解數據庫內容，而開始學習使用SQL。接著對岸也開始對個資有了保護的意識，因為這次洩漏的資料實在過於詳細，且上海數據為最大宗，因此建立個資保護的相關法條對岸勢在必行。最後在資訊安全的部分，對岸各公司也相對開始提升相關資訊安全設備，以避免類似問題重蹈覆轍。

「人抓到了，數據回不來了」這是從該事件中筆者獲得的最大心得，由於數據可以被複製散佈分享，因此只要散佈出去，就可以被全世界的人任意使用，就會長期保留在網路上，難以收拾。希望從開房數據的案例中，我們能以此為借鏡，開始做好資料安全(Data security)的事情，避免造成無法收拾的悲劇。

參考資料：

2014年1月6日星期一

2014年台灣巨量資料、資料科學家相關課程

工研院

資策會

精誠

Hadoop 直通學習地圖(持續開設中)

資料科學計畫DSP

第一次畫地圖就上手(2014/9/27-28)
看資料找故事工作坊(已結束)

DSP智庫驅動

R 語言的探索之旅(2014/12/13)

經理人月刊

大數據時代的管理策略(2014/11/27)

微軟

微軟資料科學研究院(持續開設中)

巨匠電腦

Big Data實務分析與應用(持續開設中)

SAS

巨量資料科學家—基礎養成班(持續開設中)

全域科技

Big Data巨量資料應用(持續開設中)

MIC產業顧問學院

Hadoop 認證課程(2014/07/21-24)

其他：
2015年台灣巨量資料、資料科學家相關課程 (2015.05更新)

2013年12月18日星期三

2013年兩岸資料科學家職缺

最近玩資料庫、資料探勘、分散式運算，有志成為資料科學家、巨量資料專家的朋友們有福了，以下為2013年12月份筆者收集關於這行的職缺，這些職缺的薪水隨著資料的成長水漲船高，部分職缺薪水已經可以媲美早期的科技新貴。

為了方便大家閱讀，已將薪水轉換為台幣，並依照薪水排序。

招募公司：金电联行（北京）
工作地點：北京
月薪：1,128,000元
網址：http://www.wealink.com/zhiwei/view/15389767/

招募公司：SuccessFactors(台灣分公司)
工作地點：台灣
月薪：235,000元
網址：http://www.wealink.com/zhiwei/view/4483392/

招募公司：NTT DATA(北京分公司)
工作地點：北京
月薪：235,000元
網址：http://www.wealink.com/zhiwei/view/16341665/

招募公司：Amazon(北京分公司)
工作地點：北京
月薪：211,600元
網址：http://www.wealink.com/zhiwei/view/13896177/

招募公司：Teradata(台灣分公司)
工作地點：台灣
月薪：197,400元
網址：http://www.wealink.com/zhiwei/view/16489605/

招募公司：新東方教育科技集團
工作地點：北京
月薪：188,000元
網址：http://www.wealink.com/zhiwei/view/17733552/

招募公司：Gogolook(WhosCall)
工作地點：台灣
月薪：100,000元
網址：http://www.ptt.cc/bbs/Soft_Job/M.1380274016.A.55D.html

招募公司：安居客(內地第一房地產租售平台)
工作地點：上海
月薪：94,000元
網址：http://www.wealink.com/zhiwei/view/18388892/

12月截止目前，資料科學家在內地的薪水平均月薪在20W上下，台灣本地約在10W上下。

2013年11月18日星期一

資料探勘軟體Weka之安裝篇

最近在準備資料探勘相關課程，為了讓大家能快快上手玩資料，這邊就寫整理一篇Weka的安裝篇給大家。

Weka是以Java為基礎的資料探勘(Data mining )與(Machine learning)軟體，也是自由軟體(Open Source Software)。Weka全名為懷卡托智能分析環境(Waikato Environment for Knowledge Analysis)，而Weka同時也是紐西蘭(New Zealand)的特有種鳥名，而開發者也是來自紐西蘭的懷卡託大學(The University of Waikato)。