資料科學實驗室: Spark

Spark是近幾年在數據分析領域非常火紅的技術，繼上一次「透過Python與Spark做氣象大數據分析」的文章，筆者這次希望分享的是原生Spark 在 R上面的改變，從Spark 1.4版開始對R有較完整的支持，而今年推出的Spark 1.6版上面，可以看到Spark 已經特別為R做了一個專屬的核心，這個核心也只有R才有，其目標就是希望把過去R累積的運算套件無痛移植到Spark上。

圖1：SparkR架構(來源)

從「SparkR: Scaling R Programs with Spark」這篇期刊文章上可以觀察到，圖1中的R的Spark Context透過R-JVM跟Java Spark Context做溝通，將工作分散到每個有R的Worker上面，透過Spark Executor進行運算，其實有Hadoop MR的味道。

但重點是效率變得更好，程式碼變得更好寫，從效率來看，圖2中SparkR的DataFrame效率跟Scala、Python其實也差不多了，而且做Cache會更快。

圖2：DataFrame的效率比較(來源)

另外一個重點是寫R的程式碼邏輯不需變換，因此寫R的資料科學家可以更輕鬆的轉移過去的R程式碼，另外2015年從SparkR 1.4開始已提供66種函式，到Spark1.5提供197個函式，到今年的SparkR 1.6.x版本已提供225種函式，這種增長速度是非常驚人的，因為SparkR 1.4 是去年2015年6月發表，距離筆者寫這篇文章的時間才剛剛準備要滿一年，因此SparkR的發展非常的快速。

接下來我們就來用Windows平台先快快的體驗一下SparkR的威力吧，首先到Spark官網上去下載Spark，透過下圖的點選，下載spark-1.6.1-bin-hadoop2.6.tgz版本。

下載完成後直接解壓縮到您想要放的位置，像筆者是放在C槽區，並把名字變更為Spark。接下來打開RStudio、R、Microsoft R Open都可以，這篇筆者以RStudio做示範。

首先我們進行環境的設定


Sys.setenv(SPARK_HOME = "C:\\spark") #其中C:\\Spark是您的Spark路徑與目錄名稱
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
library(SparkR)

接下來我們就可以開始使用SparkR，我們先使用下面兩行指令做起手式。


sc = sparkR.init();sqlContext = sparkRSQL.init(sc)

其中sc的第一行可以設定Spark的初始狀態，如：要給Spark的記憶體，詳細可參考SparkR的SparkR.init文件。第二行就是前面筆者提到的SparkContext，主要是從JavaSparkContext做初始化的動作。

接下來我們來玩玩經典的iris例子，首先先把iris的欄位名稱做修改，因為Spark裡面很多「.」的函式，避免出錯，我們先把欄位名稱以「_」取代。


newiris = iris;names(newiris) = c("Sepal_Length","Sepal_Width","Petal_Length","Petal_Width","Species")

接下來我們產生Spark超強的DataFrame，這對R使用者不陌生，只是這次是使用Spark去產生DataFrame。


df = createDataFrame(sqlContext, newiris)

接下來我們可以使用head或showDF函式觀察資料。


head(df, 5)
showDF(df, 5)

接下來我們可以透過printSchema去觀察一下資料的架構。


printSchema(df)

接著我們可以透過head與select去挑選某個欄位的資料，如挑選Sepal_Length。


head(select(df, df$Sepal_Length))
head(select(df, df$Sepal_Length),10) #挑選10筆

假設筆者想挑選Sepal_Length大於5.4的資料，可以使用head與filter這兩個函式，這兩個函式用起來有沒有覺得很像R的dplyr呢? 相信R使用者很快就能夠上手SparkR。


head(filter(df, df$Sepal_Length > 5.4))

如果dplyr您夠了解，那接下來如果我們想計算Sepal_Length的做簡單的Aggregation，就可以使用下面的指令。


sepal_counts = summarize(groupBy(df, df$Sepal_Length), count = n(df$Sepal_Length))

當然如果要做廣義線性模型(GLM)，SparkR的做法跟原生的R做法是完全一模一樣。


model = glm(Sepal_Length ~., data = df, family = "gaussian");summary(model)

如果還想知道其他的功能，請直接拜訪SparkR的文件

從本篇文章中我們可以快速掌握SparkR的使用，同時也了解到目前SparkR不僅支援資料選擇(Selection)、資料過濾(Filtering)、資料聚合(Aggregation)，更已經開始支援Spark MLlib可以進行分散式的機器學習。因此我們可以期待未來R的資料科學家在分散式運算上可以透過SparkR更暢通無阻。

當然實務上真的全部資料都要使用SparkR嗎? 不一定，R在記憶體運算(In-memory computing)的部分也有很強的處理能力，因此有時候單機的記憶體夠多，像是MRO + Math Kernel Library，或是寫法稍微改一下(如矩陣寫法)，基本上也無須要動用SparkR，雖然如此，在分散式的環境下SparkR還是有它能發展的舞台，所以讓我們繼續期待下去。

2016年1月26日星期二

2016年台灣巨量資料(大數據)、資料科學家相關課程 (更新時間2016.07.17)

很快的新的一年又開始了，筆者已經持續整理資料科學相關課程長達兩年，今年也一樣整理相關課程與上課時間給有需要的朋友查詢。

工研院

資料探勘與R軟體應用實務(2016/02/23~ 02/24)
巨量資料分析應用與實作班(2016/03/09、03/16、03/23)
資料探勘與文本數據實作(2016/3/14、3/15)
巨量資料分析智慧製造應用~設備故障預診斷與健康管理系統(2016/05/26、05/27)
大數據BigData於Excel資料智慧分析應用培訓班(2016/08/28~09/11)
使用專利大數據分析建立專利地圖之實務研習班(2016/08/16~08/17)
雲端ERP系統結合物聯網及大數據之應用(2016/10/05~10/07)
工業4.0的核心-大數據與小數據的分析(2016/10/25~10/25)
物聯網時代的大數據智能應用專題演講(2016/08/22~08/22)
巨量資料分析智慧製造應用~設備故障預診斷與健康管理系統(2016/09/29~09/30)
巨量資料分析應用與實作班(2016/08/09~08/23)

資策會

Big Data資料分析二部曲-R軟體與資料探勘(2016/1/30~1/31)
文字資料探勘實作班(2016/2/20、2/21)
Big Data之處理與分析(Hadoop)進階班(2016/2/20~2/21)
Big Data資料分析首部曲-R軟體實作(2016/3/5、3/6)
Python資料探勘實作(2016/3/12、3/13)
Big Data之處理與分析(Hadoop)實務班(2016/3/12~3/13)
Elasticsearch分散式系統實務班(2016/3/19、3/20)
Spark巨量資料分析實務班(2016/3/26、3/27)
視覺式資料探勘實作(2016/3/26、3/27)
Big Data資料分析三部曲-R軟體與資料視覺化(2016/3/26~3/27)
R軟體與財金資料分析(2016/4/9、4/10)
R軟體與網頁資料擷取應用(2016/4/16、4/17)
Spark Streaming巨量資料串流分析實務班(2016/4/23、4/24)
巨量資料分析-使用RHadoop
文字資料探勘實作班(2016/7/23、7/24)
Big Data資料分析三部曲-R軟體與資料視覺化(2016/ 7/23~7/24)
R軟體與網頁資料擷取應用(2016/7/30、7/31)
Big Data之處理與分析(Hadoop)進階班(2016/8/6、8/7)
R軟體與財金資料分析(2016/8/13、8/14)
R軟體與串流資料分析(2016/8/20、8/21)
Big Data資料分析首部曲-R軟體實作(2016/8/27、8/28)
Python資料探勘實作(2016/9/3、9/4)
Elasticsearch分散式系統實務班(2016/9/3、9/4)
視覺式資料探勘實作(2016/9/24、9/25)
Spark巨量資料分析實務班(2016/9/24、9/25)
Big Data資料分析二部曲-R軟體與資料探勘(2016/10/15、10/16)
巨量資料分析-使用SparkR (2016/10/15、10/16)
Big Data之處理與分析(Hadoop)實務班(2016/10/29、10/30)

MIC產業顧問學院

大數據分析與數位行銷技能精修班(2016/3/15~2016/3/29)

SAS

SAS教育訓練

三星課程網

資料治理與大數據分析(2016/1/17)
Big Data大數據採礦分析R語言教學(2016/1/23-1/24)

木刻思

2016「資料科學首部曲－數據甦醒」(2016/01/27~01/28)

東吳大學

大數據分析基礎與應用-挖資料的金礦(2016/3/2~4/27)

文化大學

大數據行銷(2016/01/29)

歷年資料參考：

2015年台灣巨量資料(大數據)、資料科學家相關課程

2014年台灣巨量資料、資料科學家相關課程

2015年10月16日星期五

透過Python與Spark做氣象大數據分析

In this project, we applied Spark in weather data analysis. This application includes uploading data to Object Storage, establishing RDD, making data filtered, calculating the average of data, printing results and sorting. Based on the uses mentioned above, Bluemix Spark includes many advantages. It can start to make data analysis within one minute. Users only need to push one to two button to make resource extension. (You can choose the memory and the number of hosts) It is convenient for users to make data storage and access and they do not have to consider infrastructure problem.

Spark helps us enter data analysis environment quickly, so that data scientists can create more values for the data.

還記得幾年前接觸Hadoop的時候，碰到運算分析的問題，都要特別的去考量分散運算的問題，像是有些需要做迭代的演算法(如：基因演算法)，作法上因為需要一直大量做Map Reduce，所以都會有效能的問題，因此最後大部分的做法都回到In-Memory上做計算。

一直到去年2014年11月Databricks團隊透過 Apache Spark在國際資料排序基準競賽(Sort Benchmark Competition)(新聞)，以不到30分鐘的時間排序高達100 TB的資料量，打破Hadoop的72分鐘，將分散式運算(Distributed Computing)產業的應用領域帶到另一個高峰。Spark源自於加州柏克萊大學的AMPLab，這個實驗室投入各項數據分析的應用已經很多年，像是資料探勘、機器學習、資料庫等等，其中一位成員Matei為Spark主要發展者，目前已經是麻省理工學院的助理教授，同時也是Databricks的技術長。

Spark目前依存在Hadoop Ecosystem裡面，像是Hortonworks (HDP2.2)開始就有包含Spark，而普遍的做法就是搭配Hadoop的Hbase或HDFS使用，搭配的語言包含Java、Scala、Python、R (1.4版本開始支援)，這些都是目前資料科學家常使用的語言。

今天的主題並不是主要介紹Spark，而是於2015年8月剛IBM推出的Apache Spark for Bluemix。我們都知道資料科學家需要專注於分析上，因此在基礎設施上需要一個便利的環境讓資料科學家能夠使用。(筆者按：其他雲端服務亦有類似功能，但仍須安裝與設定，包含：Azure、AWS)

而Bluxmix上的Spark就有這樣的潛力，他們把Jupyter Notebooks直接整合在Spark上面，讓資料科學家可以直接進行計算與分析，在儲存方面則採用Swift Object Storage的檔案儲存方式，方便做存取之用。如下圖所示，資料科學家只需要在Jupyter Notebooks上面直接下指令，就可以與資料進行互動，完全不需要擔心基礎設施的問題。

筆者接下來就進行簡單的實作，透過Python語言體驗一下Apache Spark for Bluemix。

首先我們必須申請Bluemix的帳號，登入後進入下面網址：
https://console.ng.bluemix.net/catalog/apache-spark-starter/

步驟一、
接著就會看到下圖，接下來選擇右邊的「Apache Spark」，並點選Create進行Deploy。

步驟二、

不到一分鐘，就會看到已經佈署好的Spark，同時他也把Object Storage也整合完成，同時我們也可在Instances與Memory Quota上面直接調整我們想要的Spark分散主機數量，以及每一台的記憶體多寡。最後我們就可以透過上方Routes旁的網址，直接進入Spark的畫面。

步驟三、

進入後，直接點選右邊的Launch即可登入。

步驟四、

進入之後會出現Jupyter Notebooks需要做帳號密碼的輸入，我們可以回到前面步驟二的畫面中找到下圖所示的密碼資訊，它放在Environment Variables裡面的app_pw裡面。

步驟五、

接著我們就可以直接進入Jupyter Notebooks直接做分析!

首先我們到國際氣候數據網站(National Climatic Data website)進行天氣資料下載，如下圖所示。

步驟六、
使用ZIP將檔案進行解壓縮，得到2015.csv檔案，因為檔案內容相當大，透過Excel打開會很久，筆者這邊是使用Sublime Text把檔案打開，在第一行加入「STATION, DATE, METRIC, VALUE, C5, C6, C7, C8」，如下圖所示：

步驟七、

回到步驟三的頁面，點選右下角的Manage Files，我們要把csv檔案上傳到Bluemix Object Storage，如下圖紅框所示：

步驟八、

Object Storage的密碼與Jupyter Notebooks登入密碼相同，我們輸入後就到右邊「+」的符號進行新增資料，並填入ClimateDataForTutorial，建立內容，完成後就會如下圖這樣呈現：

步驟九、

點選我們建立的ClimateDataForTutorial，上傳資料集，如下圖所示：

步驟十、

從這個階段開始，我們將開始進行資料分析，下面操作程式碼都已內建在Jupyter Notebooks上面，所以讀者只要照著操作，基本上不會有太大的問題，如果需要筆者的程式碼，請參考筆者GitHub，如果您想自己安裝Spark，也可參考這裡。

首先我們先設定資料路徑，Spark的資料結構名為彈性分佈式數據集(Resilient Distributed Dataset 簡稱RDD)，Spark透過RDD將資料進行分區儲存與處理，因此我們透過sc.textFile這個指令就可以建立RDD，接著在輸入weather.count()就可以查看整個資料集筆數，如下圖所示，2015.csv有超過兩千萬筆資料。

步驟十一、
接下來透過Lambda指令建立一個匿名函數(Anonymous functions)，將line : line.split(",")結果進行回傳，將資料改成行並以逗號做分割，透過map產生一個新的RDD，叫做weatherParse，如下圖所示：

步驟十二、
透過filter抓取降雨量(PRCP)的資料，獲得weatherPrecp資料，接著將資料做個整理，一樣透過map加上Lambda將資料轉換產生新的RDD為weatherPrecpCountByKey，如下圖所示：

步驟十三、
接著透過reduceByKey，將把個Key的相同元素做一個reduce的動作，譬如說我們RDD資料有(A,2)、(B,2)、(A,5)，我們想把它做x + y的動作，那reduceByKey就會產生(A,7)、(B,2)的結果。同樣地用到這裡，是希望將前面整理好的氣象站降雨量資料，做某一些特定動作，在這裡我們一樣做加總，並產生新的RDD為weatherPrecpAddByKey如下圖所示：

步驟十三、
接著我們將資料做平均的計算，一樣透過map搭配計算公式的方式取得每個氣象站的平均值，產生名為weatherAverages的RDD。

步驟十四、
到這一步基本上都已取得各氣象站的平均降雨量，接著我們只要印出來即可。透過下面指令的動作，我們可以獲得前10筆的資料，結果如下圖所示：

for pair in weatherAverages.top(10):
    print "Station %s had average precipitations of %f" % (pair[0],pair[1])

步驟十五、
我們再透過下面指令做降冪排序的動作，由大排到小，結果如圖所示：

for pair in weatherAverages.map(lambda (x,y):  (y,x)).top(10):
    print "Station %s had average precipitations of %f" % (pair[1],pair[0])

完成了簡單的資料讀取與處理。

透過上面實作，我們完成了幾個部分，包含上傳資料到Object Storage、建立RDD資料、將資料做過濾、將資料進行平均的計算、以及印出結果與排序。綜合以上使用，筆者整理Bluemix Spark特色如下：

不到1分鐘就可以開始進行資料科學運算
只有1~2個按鈕就可以資源擴展 (可自選記憶體與主機數量)
便利的資料儲存與取用
不用顧慮基礎設施問題

2015年7月29日星期三

50個資料科學工具速查表(R、Python、Hadoop、Spark、Machine learning)

以下為國外整理的資料科學工具速查表，包含常見的工具R、Python、Hadoop、Spark，以及機器學習(Machine Learning)理論。

Python

Hadoop

Spark

Machine learning

2015年5月7日星期四

2015年台灣巨量資料(大數據)、資料科學家相關課程

今年又開始看到許多巨量資料、資料科學家的相關課程持續出現，因此筆者整理一下，條列如下，方便大家去規劃自己的學習時間：

工研院

資策會

文字資料探勘實作班(2015/5/16、5/17)
R軟體與財金資料分析(2015/5/23、5/24)
Spark巨量資料分析實務班(2015/5/30、5/31)
巨量資料分析-使用RHadoop (2015/6/6、6/7)
Python資料探勘實作 (2015/6/13、6/14)
R軟體與資料視覺化(2015/ 6/27~6/28)
Big Data之處理與分析實務班(2015/7/4~7/5)
R軟體實作班(2015/7/11~7/12)
R軟體與資料探勘(2015/7/25~7/26)
Elasticsearch分散式系統實務班 (2015/8/1、8/2)
R軟體與網頁資料擷取應用(2015/8/22、8/23)
Big Data之處理與分析(Hadoop)進階班(2015/10/17~10/18)

知意圖(Etu)

智庫驅動DSP

A2: 資料分析進階班 (2015/5/23、24、30、31)
E1: 資料工程基礎班(2015/7/4、5、11、12)
資料爬理析 Python 實戰班(2015/8/1、2、8、9)
E1: 資料工程基礎班 (2015/11/14、15、21、22)
模型思考團訓班 Analytical thinking team training (2015/10/24, 25)
資料工程團訓班 Data Engineer training program (E1) (2015/11/14、15、21、22)
資料思考團訓班 Data thinking team training (2015/12/5、6、12、13)

巨匠電腦

Big Data實務分析與應用(持續開設中)

臺灣資料科學與商業應用協會

2015 資料科學與產業應用工作坊 (2015/06/05)

MIC產業顧問學院

大數據時代之數位行銷策略 (2015/7/29)

SAS

SAS教育訓練

Agilearning.IO

R Crawler 101

訂閱：文章 (Atom)

資料科學實驗室

2017年3月5日星期日

2017年台灣巨量資料(大數據)、資料科學家相關課程

2016年5月22日星期日

一天上手SparkR

2016年1月26日星期二

2016年台灣巨量資料(大數據)、資料科學家相關課程 (更新時間2016.07.17)

2015年10月16日星期五

透過Python與Spark做氣象大數據分析

2015年7月29日星期三

50個資料科學工具速查表(R、Python、Hadoop、Spark、Machine learning)

2015年5月7日星期四

2015年台灣巨量資料(大數據)、資料科學家相關課程

Translate

總網頁瀏覽量

2017年3月5日 星期日

2016年5月22日 星期日

2016年1月26日 星期二

2015年10月16日 星期五

2015年7月29日 星期三

2015年5月7日 星期四

2017年3月5日星期日

2016年5月22日星期日

2016年1月26日星期二

2015年10月16日星期五

2015年7月29日星期三

2015年5月7日星期四