顯示具有 巨量資料 標籤的文章。 顯示所有文章
顯示具有 巨量資料 標籤的文章。 顯示所有文章

2016年5月22日 星期日

一天上手SparkR

Spark是近幾年在數據分析領域非常火紅的技術,繼上一次「透過Python與Spark做氣象大數據分析」的文章,筆者這次希望分享的是原生Spark 在 R上面的改變,從Spark 1.4版開始對R有較完整的支持,而今年推出的Spark 1.6版上面,可以看到Spark 已經特別為R做了一個專屬的核心,這個核心也只有R才有,其目標就是希望把過去R累積的運算套件無痛移植到Spark上。

圖1:SparkR架構(來源)

從「SparkR: Scaling R Programs with Spark」這篇期刊文章上可以觀察到,圖1中的R的Spark Context透過R-JVM跟Java Spark Context做溝通,將工作分散到每個有R的Worker上面,透過Spark Executor進行運算,其實有Hadoop MR的味道。

但重點是效率變得更好,程式碼變得更好寫,從效率來看,圖2中SparkR的DataFrame效率跟Scala、Python其實也差不多了,而且做Cache會更快。

圖2:DataFrame的效率比較(來源)

另外一個重點是寫R的程式碼邏輯不需變換,因此寫R的資料科學家可以更輕鬆的轉移過去的R程式碼,另外2015年從SparkR 1.4開始已提供66種函式,到Spark1.5提供197個函式,到今年的SparkR 1.6.x版本已提供225種函式,這種增長速度是非常驚人的,因為SparkR 1.4 是去年2015年6月發表,距離筆者寫這篇文章的時間才剛剛準備要滿一年,因此SparkR的發展非常的快速。

接下來我們就來用Windows平台先快快的體驗一下SparkR的威力吧,首先到Spark官網上去下載Spark,透過下圖的點選,下載spark-1.6.1-bin-hadoop2.6.tgz版本。


下載完成後直接解壓縮到您想要放的位置,像筆者是放在C槽區,並把名字變更為Spark。接下來打開RStudioRMicrosoft R Open都可以,這篇筆者以RStudio做示範。

首先我們進行環境的設定

Sys.setenv(SPARK_HOME = "C:\\spark") #其中C:\\Spark是您的Spark路徑與目錄名稱 library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"))) library(SparkR) 
接下來我們就可以開始使用SparkR,我們先使用下面兩行指令做起手式。

sc = sparkR.init();sqlContext = sparkRSQL.init(sc)
其中sc的第一行可以設定Spark的初始狀態,如:要給Spark的記憶體,詳細可參考SparkR的SparkR.init文件。第二行就是前面筆者提到的SparkContext,主要是從JavaSparkContext做初始化的動作。

接下來我們來玩玩經典的iris例子,首先先把iris的欄位名稱做修改,因為Spark裡面很多「.」的函式,避免出錯,我們先把欄位名稱以「_」取代。

newiris = iris;names(newiris) = c("Sepal_Length","Sepal_Width","Petal_Length","Petal_Width","Species")
接下來我們產生Spark超強的DataFrame,這對R使用者不陌生,只是這次是使用Spark去產生DataFrame。

df = createDataFrame(sqlContext, newiris)
接下來我們可以使用head或showDF函式觀察資料。

head(df, 5) showDF(df, 5)
接下來我們可以透過printSchema去觀察一下資料的架構。

printSchema(df)
接著我們可以透過head與select去挑選某個欄位的資料,如挑選Sepal_Length。

head(select(df, df$Sepal_Length)) head(select(df, df$Sepal_Length),10) #挑選10筆
假設筆者想挑選Sepal_Length大於5.4的資料,可以使用head與filter這兩個函式,這兩個函式用起來有沒有覺得很像R的dplyr呢? 相信R使用者很快就能夠上手SparkR。

head(filter(df, df$Sepal_Length > 5.4))
如果dplyr您夠了解,那接下來如果我們想計算Sepal_Length的做簡單的Aggregation,就可以使用下面的指令。

sepal_counts = summarize(groupBy(df, df$Sepal_Length), count = n(df$Sepal_Length))
當然如果要做廣義線性模型(GLM),SparkR的做法跟原生的R做法是完全一模一樣。

model = glm(Sepal_Length ~., data = df, family = "gaussian");summary(model)
如果還想知道其他的功能,請直接拜訪SparkR的文件

從本篇文章中我們可以快速掌握SparkR的使用,同時也了解到目前SparkR不僅支援資料選擇(Selection)、資料過濾(Filtering)、資料聚合(Aggregation),更已經開始支援Spark MLlib可以進行分散式的機器學習。因此我們可以期待未來R的資料科學家在分散式運算上可以透過SparkR更暢通無阻。

當然實務上真的全部資料都要使用SparkR嗎? 不一定,R在記憶體運算(In-memory computing)的部分也有很強的處理能力,因此有時候單機的記憶體夠多,像是MRO + Math Kernel Library,或是寫法稍微改一下(如矩陣寫法),基本上也無須要動用SparkR,雖然如此,在分散式的環境下SparkR還是有它能發展的舞台,所以讓我們繼續期待下去。

2015年3月3日 星期二

用大數據看2015年春運:百度遷徙

新年到!!新年好!!

還記得筆者去年整理的大數據春運主題「用巨量資料看春運:百度遷徙」,很快的又過了一年,這次的春運資料視覺化做的更棒更好了。

筆者去年有提到,百度遷徙是百度透過適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,做了資料視覺呈現。今年百度已經把LBS這個服務商品化,並且命名為「百度慧眼」,提供顧客行為收集與觀察。另外在基礎設施的部分,也改用了百度開放平台來做支持,讓整體的軟體效果處理更為順暢。從這樣一年的改變與觀察,我們可以發現大數據並不是一步到位,而是需要日經月累的耕耘。

我們一樣從介面設計來觀察,從最基本的時間來看,去年的時間選擇從小小的方格,變成了時間軸的概念,把時間具體做了切割,讓使用者更能直覺的選擇時間(如紅框)。


下圖中在選擇城市的地方,雖然沒做太多變動,但運輸往返的顯示效果做的更細緻了,值得一提的是數據更為精確了。


從下圖往返的數據上可以觀察到,除夕夜晚上從對岸到臺灣的人,以上海、廣州的人最多。
有趣的地方是,在時間軸上有提供折線圖,提供查詢每一天在到臺灣的人數變化。


除了豐富的遷移資訊之外,這次百度遷徙還提供了即時航班、機場熱度、車站熱度。

即時航班如下圖呈現,可以看到小型正在移動的飛機,以及該班機的細部資訊。

機場熱度的部分,則是如下圖呈現,以黃色小圓點作為機場,跳動的圓點作為熱門的機場。

如下圖所示,車站熱度與機場熱度類似,只是車站較多,黃色小圓點又更細了,跳動的圓點一樣作為熱門的車站。


最後值得一提的是,去年筆者提的建議,大部分都已經解決,尤其在手機與平板的處理上,這次系統做的更精緻了,只能說真的非常有效率。

筆者一樣做個小結論,百度遷徙的應用商業價值在於透明,透過大數據把交通資料透明化,讓兩岸商業有更多交集,像是筆者去年提的這幾點
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 更多......
都是值得參考的。






2014年10月3日 星期五

什麼是大數據的新架構「資料湖泊」?

隨著資訊科技的發達,企業開始面臨大量數據的儲存問題。過去許多企業從導入資料庫,到導入 資料倉儲,甚至商業智慧。以面對不斷增長的資料以及資料的應用問題,但資料持續增加,傳統架構將可能不敷使用。

因此有個新名詞「資料湖泊(Data Lake)」(又稱數據湖泊、DL)因應而生。該名詞於2011年最早出現在富比士(Forbes)雜誌,「Big Data Requires a Big, New Architecture」一文中。

資料湖泊(Data Lake)有別於我們提到的資料倉儲(Data Warehouse),資料倉儲(DW)的資料通常是品質較高,且是被預先處理過的資料。而資料湖泊(DL)則是儲存大量且龐雜的資料,作為資料素材(Data Material)的儲存池(Pool),以便未來分析使用。

因此資料湖泊(DL)使資料科學家在資料分析上擁有更大的分析彈性。

資料湖泊(DL)被提起後,EMC也開始使用這個名詞進行大數據產品的推廣。

今年1月富比士(Forbes)雜誌的「The Data Lake Dream」一文中,提到了資料湖泊(DL)成熟度的分為四級,筆者將圖片重新翻譯繪製並整理如下:

圖一:資料湖泊成熟度第一級

首先是成熟度第一級「尚未導入DL」,紅色為應用服務(資料庫),綠色為資料倉儲,部分資料間互相串接,部分資料傳遞到資料倉儲進行分析。該架構也是目前企業普遍的資料架構,各個資料庫相互獨立,只有少部分資料庫整理資料後,傳到資料倉儲做分析應用。此成熟度有3個重點:
  1. 企業所有應用服務(資料庫)都各別獨立。
  2. 僅部分資料庫將資料傳遞到資料倉儲。
  3. 資料科學家透過資料倉儲進行資料分析。

圖二:資料湖泊成熟度第二級

當進入到成熟度第二級「導入Hadoop」,紅色為應用服務(資料庫),綠色為資料倉儲,藍色為Hadoop、深藍色為資料分析器。這時候資料庫開始把部分資料往Hadoop進行傳遞,資料科學家可透過Hadoop進行ETL(資料萃取、轉換、讀取),提升分析效率。本成熟度4個重點:
  1. 企業的應用服務(資料庫),開始將部份資料儲存到Hadoop。
  2. Hadoop開始透過MapReduce處理資料。
  3. 資料科學家使用Hadoop進行ETL接著放到資料倉儲或開發資料分析器。
  4. Hadoop處理好的資料傳回應用服務(資料庫)
圖三:資料湖泊成熟度第三級

進展到成熟度第三級「資料不斷增長的資料湖泊」,紅色為應用服務(資料庫),綠色為資料倉儲,藍色為Hadoop、深藍色為資料分析器。這階段Hadoop可以說是扮演資料中心的角色,負責儲存巨量、龐雜、高不確定的資料。本成熟度有4個重點:
  1. 所有應用服務(資料庫)都以Hadoop為中心進行串接。
  2. Hadoop開始整合外部的資料來源。
  3. 透過資料分析語言或工具(如:R、Python、Impala, Greenplum, Spark等) 與Hadoop進行互動。
  4. Hadoop成為所有資料儲存的目的地,以便利企業進行資料治理(Data Governance)。


圖四:資料湖泊成熟度第四級

最後到成熟度第四級「資料湖泊與應用雲端平台」,目前只有少部分公司的資料規模可以做到,像是Google、Amazon、Alibaba、Facebook,因為這類型企業的資料已經大到一個規模,需要高效率的資料處理架構。這時候企業應用服務(APPs)的資料存取大部分都由Hadoop這邊作互動。在這個階段主要強調資料安全(Data Security)與資料治理(Data Governance)的部分,進行加強。本成熟度有4個重點:

  1. 所有的新的應用服務全都建立在Hadoop的平台上。
  2. 新的應用服務的資料庫佈署時間將減少。
  3. Hadoop成為分散式的資料運算平台,運用於資料管理與分析。
  4. Hadoop強化資料安全與資料治理的功能。
最後筆者整理了資料庫、資料倉儲、資料湖泊三個不同特性比較給大家參考。

表:資料科學實驗室整理

上述表格,可以讓我們快速了解這些不同的名詞之間的差異。在企業中,面對大數據的浪潮,除了掌握上述的成長模式,也要依據資料庫、資料倉儲、資料湖泊的特性,分別將這些資料儲存模式定位,賦予不同的任務。

至於資料湖泊一定要用Hadoop嗎? 筆者的回答是不一定,就好像現在SQL Database有Oracle、MySQL、MS SQL等,NoSQL Database有MongoDB、CouchDB等,永遠都有很多選擇。只是目前Hadoop是國際間處理大數據較為穩定的技術,國外近年的新創公司也都採用Hadoop協助企業做資料管理。

筆者認為只要掌握前面四級的資料湖泊成長模式,相信企業就可以很快掌握大數據的處理方向,至於使用什麼技術,技術的特性是什麼,下回再談。先讓我們一起迎接充滿數據的未來吧!

參考資料:




2014年7月3日 星期四

大數據探索航空資料系列-美國聯邦航空管理局

攝影/Jerry

最近筆者剛好讀到有關於大數據應用於航空資料分析,值得整理介紹給相關領域的朋友們參考。記得上Data Science Program的課程中,曾有學生邀請筆者至某航空公司擔任顧問,但筆者實在是分身乏術,所以希望這一篇能夠幫上航空界的忙。

其中一篇是2009年刊登在知名期刊Knowledge-Based Systems上的學術研究,主要是應用決策樹(Decision trees)從美國聯邦航空管理局(FAA)的數據來挖掘出可能會出現航空事故的特徵。研究所採用的分析工具為Megaputer Intelligence所開發的PolyAnalyst與挪威科技大學開發的Rosetta


2014年1月31日 星期五

用巨量資料看春運:百度遷徙


每年春運一直是對岸逢年過節的熱門話題,而今年1月26日對岸百度首次以適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,以「百度遷徙」的主題,報導整個春運的狀況。

而本次也是對岸首次運用巨量資料(Big data)的概念來報導春運的運輸全貌,藉此我們也可以看到大數據在整個運輸政策、文化交流上,都有重要的發展意義。


首先我們可以從百度遷徙看到幾個功能「月份」、「時間」、「地點」、「遷入熱市」、「遷出熱市」、「最熱線路」,是整個查詢網站的主要功能。月份可以查詢1月16日起到整個春節時間,地點則可用文字搜尋城市,例如搜尋”上海”,即可了解上海的熱門遷入與遷出城市。

上面每個點代表一個城市,金黃色的線則表示動向,而右邊有1~10名的排序,方便我們觀察遷入與遷出的比例。以上海來說,1月29日除夕前一天早上10點,遷入的熱門省份為「江蘇」、「浙江」、「安徽」、「廣東」、「山東」、「江西」、「福建」、「河北」、「四川」、「湖北」。而遷出的熱門省份,也就是從上海移動到的省份為「江蘇」、「浙江」、「安徽」、「江西」、「湖北」、「廣東」、「山東」、「河南」、「臺灣」、「福建」。從上面的排名可以發現有趣的現象,遷入與遷出的省份前三名都不變,後面開始就有不一樣的事情發生,像是遷出有了臺灣,於是我們可以再點臺灣去看熱門的遷入遷出省份。


可從上圖發現,從各個省份要回家排名前六名的有「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,這數據是否可以顯示「臺灣」與「上海」交流比「臺灣」與「北京」更活絡,從1月29日除夕前一天早上10點來講,這背後的意涵大家就可以自然衍生了。


另外一個角度是從台灣遷入過去的省份,如上圖排名前六包含「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,從這裡是否也能觀察到旅遊業這塊的市場呢?

接著我們回到最首頁,可以看「遷入熱市」、「遷出熱市」、「最熱線路」,也可以觀察到許多某個時間點,對岸的人流動向。


像是遷入排名前三名為「北京」、「重慶」、「武漢」。


遷出排名前三名為「北京」、「上海」、「廣州」。


最熱門的線路為「成都到北京」、「北京到成都」、「上海到滁洲」,從上圖也可以觀察到對岸省份交流比較活絡的是「北京」與「成都」,遷入成都1,000人當中有249人來自北京,從成都遷出的1,000人,有329人來自北京。


還有幾個是對岸新聞報導上的一些資訊,供大家參考:
  • 1月9日鐵路訂票「12306網站」和手機端的總訪問量達84億次,相當於每個中國人都通過電腦或手機訪問了該網站6次多。
  • 1400萬人次使用支付寶搶票。
  • 北京流出的人口就集中在保定、邯鄲、石家莊、張家口、天津。
  • 截止目前為止中國手機網民達5億人口。

最後簡單做個結論,筆者從這個平台看到幾件事情:
  • 通常20%已經是大家都知道的事情,透過巨量資料我們反而可觀察到80%人流動向,也就是長尾理論的概念。
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 用大數據結合LBS的服務來看觀察運輸全貌。
  • 巨量資料帶來新聞傳播領域的一種新的概念,像是資料新聞學,透過資料來強化新聞報導內容。
當然整個平台還是有些資料視覺化設計上的小缺點,這邊筆者也把它記錄下來,以便日後碰到相關的案子可以查詢。

一些想法與建議:
  • 沒辦法查詢一天或某一個時段(如:下午六點到八點)的遷入與遷出比例。
  • 無法以時間序列的概念觀察到每個省份的流量。
  • 本平台PC採用Flash製作,瀏覽速度不夠流暢。
  • 本平台行動載具版本採靜態的方式呈現,無法做細部查詢





參考資料:
  1. 大數據裏看春運:實時地圖上的春運全景
  2. 百度遷徙顯示北京榆林張家口來包旅客多
  3. 百度遷徙地圖看大數據 網友大讚接地氣!
  4. 百度遷徙:透過大數據看春運

2014年1月9日 星期四

關於開房數據事件的啟示

最近資安事件頻傳,不只台灣遠通電收,在對岸最近也頻繁發生數據外洩的問題。
本篇筆者以對岸最近發生的「開房數據」為例,來分享從不同角度觀察得到的一些啟示。

開房數據事件的原由來自浙江慧達驛站,這一家專門協助飯店做IT系統的廠商,在102年10月份被發現該公司所開發的Wi-Fi認證伺服器中的數據庫遭外洩。而事實上中國的安全漏洞監測平台鳥雲網其實在102年8月已經發現此漏洞,並且通知慧達驛站,但已經來不及。

該事件的禍源在於,使用者進入酒店之後,使用酒店的Wi-Fi必須採用實名制進行提交認證,而該Wi-Fi認證伺服器需連到慧達驛站進行認證,因此有兩個漏洞造成數據外洩:

  1. 認證過程採用明文傳輸,使駭客有機可趁。
  2. 資料庫未做好安全措施,使駭客得以進行備份整個資料庫。

該事件發生後,駭客先將資料庫非法販售之後,102年10月駭客再將資料庫上網惡意散佈,造成數據庫在一個月內被下載22萬次,平均一天被下載1千7百次,損失慘重。

而除了前述兩大漏洞問題之外,筆者也認為還有下列問題:
  1. 資料庫的權限未做修改(還在使用資料庫預設權限)
  2. 資訊架構未做好妥善規劃(如:防火牆、網路)
  3. 資料庫傳輸未做好處理(如:重要資料需加密傳輸)
  4. 資料紀錄為做好規劃(如:資料依據加密等級分門別類置放)
所以最終造成兩千萬筆數據「裸奔」的悲劇。

受害的飯店名單如下:

包含多家酒店比如漢庭、如家、7天連鎖酒店、南苑e家、格林豪泰連鎖酒店、布丁酒店、杭州維景國際大酒店等。

以下為筆者所歸納與分享的一些觀察

首先我們可以看到近年來對岸數據裸奔事件也相當的頻繁,

【2010年】
「360」服務器事件,上千萬筆用戶資料於Google上被裸奔
【2011年】
開發者社區「CSDN」、同期包含天涯社區、京東商城、噹噹網、支付寶、新浪愛問遭攻擊、支付寶員工自行洩露,造成600萬~7000萬用戶資料被裸奔
【2012年】
「中國人壽」資料庫洩露,造成80萬筆投保數據被裸奔
【2013年】
酒店開房數據洩漏、腾讯QQ群資料庫洩漏、
高達2000萬(1.7G)筆~12億(90G)筆資料被裸奔

這幾年事件中可以看到數據洩漏的網站皆是電子商務網站居多,更甚者是支付寶的數據是由內部員工傳出,筆者不禁聯想,未來是否也會發生資料戰爭(Data of War)?!這值得警惕。

接著從「數據庫營銷」的角度來看,這次事件的發生,打開了許多數據庫的市場,從前也許只是玩玩Excel,但由於這次的數據較為龐大,Excel頂多開啟1百萬多筆,網路上開始有許多熱心人士發表開數據庫的打開方式,以及SQL的語法,更甚至有人教如何分析這些數據,從百度搜尋即可得知,如下圖所示:


                                    (圖)網路搜尋畫面

因此讓筆者聯想到整個數據庫營銷的流程,如下圖所示:


從行銷的角度來看就是「體驗行銷」,就像近年來的觀光工廠常常可以吃到、喝到特產,或是玩到特產的製作過程,這樣的體驗可以提升消費者的買氣。從數據庫來看也是,當消費者發現這資料很特殊但卻打不開,進而尋求解決方式時,他們就在體驗數據庫大小改變的流程,從一百萬筆到兩千萬筆,應用誘因進而創造數據庫市場。

接著從「資訊安全」的角度來看,我們可以發現未來的數據庫的管理,必須由網管人員與數據庫人員,甚至是數據科學家並肩作戰。幾點分享如下:

  1. 內網與外網的運用  (網管負責)
  2. 資訊服務架構 (網管負責)
  3. 數據流?(數據科學家負責)
  4. 數據庫權限?(數據庫人員負責)
  5. 數據庫安全設置?(數據庫人員負責)
但就筆者的了解,事實上除了資訊產業公司之外,一般傳統產業公司並不注意這些分工,也其實不重視資訊部門,在資源相對較少的情況下,進而導致許多資訊安全事件發生,因此從這些事件,大家必須重新省思資訊安全的重要性。

接著從「社會問題角度」來看這件事情,前面提到該數據庫被非法販售,筆者從網路訊息得知一筆為9角,換算後駭客利用該數據庫非法所得達2百萬人民幣。而駭客將數據庫賣到沒有價值之後轉而散佈,造成數據庫散播後,這些數據庫中的用戶飽受紛擾,如:
  1. 不明來歷的推銷廣告
  2. 不明來歷的短信、電話、傳真
  3. 微博、微信詐騙
尤其上海的數據在事件的數據庫牽涉最多,因此損失最為慘重。


最後從「法律角度」來看本問題,前面提到上海人損失最為慘重,所以事件發生後,有一名在上海從事10年資訊安全工作的白領王金龍像法院提出了訴訟,成為全國該事件的受害者中訴訟維權的第一人,王金龍向酒店、慧達驛站索賠20萬元。但由於對岸在洩漏個人資訊這塊的法律還是屬空白狀態,因此官司是否能打贏還是未知。

有對岸律師事務所指出,《刑法修正案(七)》刑法第253條雖然界定了具體的犯罪事實,但不含近年興起的網站發布者,且法條中規定需「情節嚴重」因此在洩漏定罪上難以界定,這也反映出對岸在個人資料的保護上有待改進。

好,前面從這麼多的角度看這件事情,大家應該很想知道該事件接下來的發展吧,因此筆者把事件條列如下:

2013年4月
  • A駭客入侵教育局取得學籍數據,大陸網警花了好幾個月仍查無頭緒
2013年10月
  • 多家酒店的開房記錄被從網絡上曝光,引起社會高度關注。
2013年11月
  • 網警大隊發現洩露開房數據的人與A駭客有密切聯繫。
2014年1月5日
  • 民警於四川涼山州將罪犯逮捕
  • 警方在駭客電腦中發現30億筆個人數據
    該事件在短短三個月內就破案,看來對岸對於該事件關注相當高。

最後筆者下個結論:

第一點

「數據就像兩面刃,用的好加分,用不好零分」雖然大數據能增加各家公司競爭力已經是事實,但面對大數據時代的潮流,大公司更要重視數據的「安全」,除了挹注資源給資訊部門,更要重視資訊人才的聘用與培養。

而新創公司更要注意數據安全,因為一旦類似事件發生,損失難以估計。

但千萬別因為擔心發生這些事情而因噎廢食,再也不碰大數據,這樣想法是錯誤的。因為我們知道企業內部進行數據開放,可增加跨部門間溝通與決策者管理的效率。而企業外部有效的數據開放也可以增加商業交流與企業競爭力(如:淘寶)。因此好好的保護資料才是上上道。

第二點

數據的開放可以打通任督二脈,促進血液循環,這幾次事件的發生讓對岸數據庫基礎知識有了提升,因為大家為了想了解數據庫內容,而開始學習使用SQL。接著對岸也開始對個資有了保護的意識,因為這次洩漏的資料實在過於詳細,且上海數據為最大宗,因此建立個資保護的相關法條對岸勢在必行。最後在資訊安全的部分,對岸各公司也相對開始提升相關資訊安全設備,以避免類似問題重蹈覆轍。

「人抓到了,數據回不來了」這是從該事件中筆者獲得的最大心得,由於數據可以被複製散佈分享,因此只要散佈出去,就可以被全世界的人任意使用,就會長期保留在網路上,難以收拾。希望從開房數據的案例中,我們能以此為借鏡,開始做好資料安全(Data security)的事情,避免造成無法收拾的悲劇。


參考資料:

  1. 網安出槌 陸20家酒店個資外洩
  2. 2000万开房数据泄露获法院受理 沪每17人中1人遭泄密
  3. 开房数据泄露案告破:人抓了,数据回不来了
  4. 法院受理开房数据泄露第一案
  5. 360泄密事件
  6. 2011年中國網站用戶信息泄露事件
  7. 中國人壽曝客戶信息泄露門
  8. 腾讯群关系数据泄漏 据QQ号可秒查用户姓名年龄
  9. 個資看透透 徐旭東變「全民公敵」?
  10. 遠通電收:非蓄意「牽拖」駭客
  11. 資料開放與個人隱私

2014年1月6日 星期一

2013年12月18日 星期三

2013年 兩岸資料科學家職缺

最近玩資料庫、資料探勘、分散式運算,有志成為資料科學家、巨量資料專家的朋友們有福了,以下為2013年12月份筆者收集關於這行的職缺,這些職缺的薪水隨著資料的成長水漲船高,部分職缺薪水已經可以媲美早期的科技新貴。

為了方便大家閱讀,已將薪水轉換為台幣,並依照薪水排序。

招募公司:金电联行(北京)
工作地點:北京
月薪:1,128,000元
網址:http://www.wealink.com/zhiwei/view/15389767/

招募公司:SuccessFactors(台灣分公司)
工作地點:台灣
月薪:235,000元
網址:http://www.wealink.com/zhiwei/view/4483392/

招募公司:NTT DATA(北京分公司)
工作地點:北京
月薪:235,000元
網址:http://www.wealink.com/zhiwei/view/16341665/

招募公司:Amazon(北京分公司)
工作地點:北京
月薪:211,600元
網址:http://www.wealink.com/zhiwei/view/13896177/

招募公司:Teradata(台灣分公司)
工作地點:台灣
月薪:197,400元
網址:http://www.wealink.com/zhiwei/view/16489605/

招募公司:新東方教育科技集團
工作地點:北京
月薪:188,000元
網址:http://www.wealink.com/zhiwei/view/17733552/

招募公司:Gogolook(WhosCall)
工作地點:台灣
月薪:100,000元
網址:http://www.ptt.cc/bbs/Soft_Job/M.1380274016.A.55D.html

招募公司:安居客(內地第一房地產租售平台)
工作地點:上海
月薪:94,000元
網址:http://www.wealink.com/zhiwei/view/18388892/


12月截止目前,資料科學家在內地的薪水平均月薪在20W上下,台灣本地約在10W上下。




2013年11月18日 星期一

資料探勘軟體Weka之安裝篇

最近在準備資料探勘相關課程,為了讓大家能快快上手玩資料,這邊就寫整理一篇Weka的安裝篇給大家。


Weka是以Java為基礎的資料探勘(Data mining )(Machine learning)軟體,也是自由軟體(Open Source Software)Weka全名為懷卡托智能分析環境(Waikato Environment for Knowledge Analysis),而Weka同時也是紐西蘭(New Zealand)的特有種鳥名,而開發者也是來自紐西蘭的懷卡託大學(The University of Waikato)
(圖片來源:網路)


Weka整合了大量的資料探勘的演算法,因此在2005年第11ACM SIGKDD國際會議上,Weka小組獲得了資料探勘與知識探索的最高服務獎(2005 ACM SIGKDD Service Award)。

首先我們先到Weka官方網頁中下載Weka 3.6版本,依據個人電腦版本(Windows x86Windows x64Mac OS XLinux)來做下載,本篇範例是下載Windowsx86包含Java VM 1.7的版本,大約51MB

進入安裝畫面後,跟一般軟體安裝一樣,非常簡單,Next, Next....Next!!
按下「Next

按下「I Agree

按下「Next

按下「Next

按下「Install」,就開始安裝!!


接下來是安裝 Java,如果您確定電腦有就可以跳過,如果不確定就繼續安裝。



 再回到剛剛的安裝畫面,按下「Next」。

按下「Finish」,就可看到Weka的畫面了! 

Weka 工具畫面,請點選「Explorer



 接下來還沒完,由於我們探勘的資料集大部分都是華文為主,直接放到Weka裡面會發生下面亂碼悲劇。
因此要進行中文資料的參數調整。


首先我們要到Weka的資料夾中找尋RunWeka.ini的文件,使用記事本開啟。


接著在密密麻麻的文字中找 fileEncoding=Cp1252
接著將Cp1252 換成 UTF-8後儲存,接下來將Weka重新啟動即可。

提供大家測試資料做測試,若顯示下面畫面,表示您已更改成功!!


Weka如有無法啟動的問題,表示環境變量需設定,如下:
PATH:C:\Program Files\Java\jre7\bin


延伸閱讀:
Data Mining: Practical Machine Learning Tools and Techniques, Third Edition
台灣生活資料科學培養計畫 Data Science Program

2013年11月6日 星期三

2013資料科學家書籍學習清單

最近一直有朋友詢問,如果想當資料科學家,有沒有相關的書籍可以提供修讀。於是這邊整理一些清單如下,包含一些個人推薦書籍,歡迎大家一起推薦書籍:

資料探勘書籍(Data Mining Books)
Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management
Data Mining: Concepts and Techniques, Third Edition
Handbook of Statistical Analysis and Data Mining Applications
Introduction to Data Mining
Contrast Data Mining: Concepts, Algorithms, and Applications
Principles of Data Mining
Data Mining: Introductory and Advanced Topics
A First Course in Machine Learning

工具書籍(Tool Books)
R in a Nutshell
Data Mining with R: Learning with Case Studies
R Cookbook
R Graphics Cookbook
R in Action: Data Analysis and Graphics with R
Introductory Statistics with R
R by Example
Software for Data Analysis: Programming with R
Interactive and Dynamic Graphics for Data Analysis: With R and Ggobi
Data Mining: Practical Machine Learning Tools and Techniques, Third Edition

資料庫書籍(Database Books)
Database Systems
Database Systems: A Practical Approach to Design, Implementation and Management (5th Edition)
Database Management Systems
User Interface Design for Mere Mortals™
Beginning Database Design

資料倉儲書籍(Data Warehousing Books)
Building the Data Warehouse
The Data Warehouse Lifecycle Toolkit
The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling
Mastering Data Warehouse Design: Relational and Dimensional Techniques
Data Warehouse and Business Information Quality

資料視覺化(Data visualization)
Visualizing Data




  • 持續更新中.......