資料科學實驗室: Machine Learning

顯示具有 Machine Learning 標籤的文章。顯示所有文章

2020年10月17日星期六

如何透過TensorFlow建構負責任的AI系統-DevFest 2020

今天的devfest2020 活動非常精彩，感謝大家的參與

今天主要分享如何透過TensorFlow以及Google相關的技術，建立可解釋AI(Explainable AI)與具備負責任的AI(Responsible AI)，並且打造具備負責任的機器學習機制，包含從界定問題、建構及準備資料、建構與訓練模型、評估模型、部署與監控等流程，運用的工具像是 Tensorboard、Embedding Projector、What-If Tool等，協助大家了解機器學習的近期新發展方向。

附上活動的簡報與相關連結。

1.演講簡報

2.機器學習與應用

3.更多了解TensorFlow

4.RAI with TensorFlow

5.直播回放網址

2020年3月30日星期一

五分鐘掌握2020的TensorFlow新發展-機器學習公平性指標篇

這次的TensorFlow的2020年研討會還有正式公開的工具叫做公平性衡量指標(Fairness Indicators)，這個是非常進階的機器學習工具。而公平性衡量指標(Fairness Indicators)是近年機器學習有關公平性研究熱門的研究領域，主要用於二元、多分類的機器學習題目。

過去的評估工具在大量數據集、大量的模型的情境下處理都不太好，Google需要十億個客戶系統上運作一個穩定的機器學習模型評估工具就變得非常重要。該工具評估的項目會包含：數據的分佈、模型的性能、多個不同參數下的表現。

上述的影片就是Google介紹如何透過公平性衡量指標(Fairness Indicators)概念實現公平的機器學習。

ML Practicum: Fairness in Perspective API相關的課程
https://developers.google.com/machine-learning/practica/fairness-indicators

在也指出幾個很重要的機器學習問題

從上圖上來觀察可以看到機器學習在各個流程上

包含從定義問題、準備資料、建立模型、部署、迭代的過程

都會出現人的主觀行為，進而影響到學習的偏差。

因此Google提出了一個機器學習公平性研究的工作流程

包含透過Tensorflow的資料驗證工具、模型分析工具、互動式視覺化工具來達到

改善機器學習有人類偏差的問題。

在這些介紹後，大家一定很好奇工具會有哪些。

首先這個必須學會TensorBoard，這個工具以前主要是用來視覺化模型的表現，在2.0之後功能就變得非常的多元。理解了TensorBoard（TensorFlow視覺化）之後，就可以理解以下的工具：

Tensorflow Data Analysis (TFDV)：主要用於分析數據集的分佈。

Tensorflow Model Analysis (TFMA)：主要用於分析模型的效能、也包含公平性指標可以分析不同模型表現。

The What-If Tool (WIT)：主要透過互動的方式分析模型。

光說明沒有範例不夠看，所以請透過下面連結，可以直接到工具的範例中去深讀內容。

Tensorflow Data Analysis (TFDV)

https://www.tensorflow.org/tfx/guide/tfdv

Tensorflow Model Analysis (TFMA)

https://www.tensorflow.org/tfx/model_analysis/get_started

What-If Tool Dashboard

https://www.tensorflow.org/tensorboard/what_if_tool

以上就是機器學習關於TensorFlow在公平性指標的簡單介紹。

2020年3月20日星期五

五分鐘掌握2020的TensorFlow新發展-TF_Hub模型篇

想要免費的預訓練模型(Pre-trained Model)或演算法嗎？這裡通通都有。

這次的TensorFlow研討會還有正式公開的工具叫做TensorFlow Hub，裡面目前為止累積 472 個(2020/03)模型可以使用，大致上分為圖片(Image)、文字(Text)、影片(Video)
三種資料類型的模型，而且在裝置上面支持基本的TensorFlow之外，也包含TF.js、TFLite、Coral。

首先我們可以進入這裡 https://tfhub.dev/

接著就可以根據自己需求挑選模型，譬如說筆者這兩年流行的BERT，挑選bert_cased_L-12_H-768_A-12這個版本

接著可以看到幾個功能
1.下載模型離線使用(Download Model)
2.打開Colab觀看範例(Open Colab Notebook)

如上圖，如果我們選擇2.直接看範例，則可以執行Run all（如上圖範例），就可以進一步了解模型運作結果，以這個範例為例是以BERT去分類電影評論的情緒分析。

接著再往下看像是

透過Overview了解模型功能
透過Example use直接使用模型
透過Inputs、Outputs了解輸入與輸出

特別注意的是每一個模型都會有輸入、輸出的樣態
所以資料在設計上要注意輸入的類型或格式

這樣就可以直接享用模型囉，在未來不一定是資料科學家
只要了解概念與用途，就可以直接使用模型。

最後就是Google TensorFlow Hub也支持上架模型，只要四個步驟
1.建立模型
2.打包模型
3.撰寫文件
4.上架
詳細請參閱這裡
https://github.com/tensorflow/hub/tree/master/tfhub_dev

未來的趨勢就是，大家可以貢獻模型，提升全球在資料科學上的模型交流，筆者覺得是一個很棒的事情。

2020年TensorFlow相關文章：
五分鐘掌握2020的TensorFlow新發展-TF_Hub模型篇
五分鐘掌握2020的TensorFlow新發展-生態圈篇

2020年3月6日星期五

五分鐘學會在Colab上使用免費的TPU訓練模型

哈囉大家好，雖然忙碌，還是趁空擋想跟大家分享關於TensorFlow2.1.x系列的兩三事，一般來說做機器學習模型最需要的就是運算資源，而除了GPU之外，大家一定很想使用Google所推出的Google Cloud TPU來做機器學習模型，重點它很貴，能不能免費的使用他呢？使用Colab就是首選了。

而這次TF2.1新版推出之後，TPU使用有了一個很大幅度的改版，在Colab上使用TPU已經變得非常的容易與簡單，這邊就讓Jerry老師來跟大家娓娓道來。

首先不要忘記在Edit -> Notebook settings 要把硬體調整成TPU，如下圖：

然後就會獲得TPU資源，如下圖：

首先幾個在Colab上要跑TPU的API要了解一下：

1.tf.distribute.cluster_resolver.TPUClusterResolver()

這是負責偵測TPU，可以透過該指令了解Google TPU集群的狀況。

2.tf.config.experimental_connect_to_cluster(tpu)

這是負責連結Google雲端的TPU環境

3.tf.tpu.experimental.initialize_tpu_system(tpu)

這是負責初始化TPU的裝置

所以前置作業如下：

必須設定TensorFlow2.x 以及設定tpu的變數。

接下來要使用TPU，目前模型有固定的寫法，必須寫成函式，舉例如下：

資料的部分也是要寫成函式，這邊範例是採用mnist，所以舉例如下：

最後是訓練模型的程式碼，有個重點是

4.tf.distribute.experimental.TPUStrategy

是呼叫前面TPU分配策略的指令，所以要搭配在程式碼當中

5.strategy.scope()

搭配這段程式碼，可以把模型與要計算的優化器、衡量標準放到運算引擎上

如下：

目前實測的結果，如果以mnist資料為例，

TPU：36秒

GPU(P100)：90秒

CPU：291秒

使用心得是，程式碼不用改動太多，在TensorFlow 2.x的架構下，可以很快的進行訓練，程式碼也可以很快速地調整，以後大家就可以用前所未有的速度訓練模型囉！

當然如果您很想更近一步了解Google Cloud Platform上面的TPU費用，可以參考下面連結

https://cloud.google.com/tpu/docs/types-zones

https://cloud.google.com/tpu/pricing

相關程式碼請參考

https://github.com/jerrywu2013/TensorFlow_TPU

2019年9月9日星期一

[ML Study Jam] How Google does Machine Learning的Module 3 Quiz學習日誌之企業導入機器學習的方法

How Google does Machine Learning的學習日誌

最近Google連續辦了兩次ML Study Jam的活動，包含
ML Study Jam 機器學習培訓計劃- 初級- 首頁，以及ML Study Jam 機器學習培訓計劃- 進階-首頁，這兩階段的課程內容，個人覺得非常適合企業在導入ML給同仁必上的內容，尤其適合非科班出身的又想轉型的朋友們。

在進階課程的當中，筆者覺得在「How Google does Machine Learning」當中，有許多有趣的題目與內容，是自己多年做資料科學服務有所共鳴的，希望能夠透過部落格分享學習的心得，提供給想導入ML的企業與想持續學習導入ML的朋友。（請注意本篇文章僅針對部分題目提供心得分享，並非答案分享）

過去筆者在導入多年的資料科學服務當中，發現資料科學家要有一個非常重要的能力，是能夠快速辨識這家企業與題目，到哪一個階段，接著再給予對應的服務內容，避免導入過程資源的浪費，而課程當中Google整理了一個「Path to ML」來幫忙大家釐清企業的ML導入階段。

在Module 3 Quiz的部分，有一題要學員能夠針對題目，以「Path to ML」五階段做辨認，而其中五階段包含「Individual contributor」、「Delegation」、「Digitization」、「Big data and Analytics」、「Machine learning」，在ML and Business Processes課程當中，個人覺得非常好的一個觀念是，企業要導入一個從無ML->有ML的過程，必須先找到流程上的輸入與輸出，接著在輸出中透過數據與ML找出具有洞見的結果，將結果回到流程上去改善輸出。

因此回到「Path to ML」，我們首先要能夠辨認，我們在企業流程中，到底是哪一個階段，才能去藉由階段工作來正確導入ML，筆者整理如下:

I for individual contributor:任務的本體，如單一櫃員
D for delegation:多個可執行任務的人，如多個店員
Z for digitization:數位化的工具，如ATM，可以透過機器進行重複化的工作
B for big data and analytics:透過資料挖掘洞見，提升營運效率，如汽車生產
M for machine learning:透過前面的數據，以機器學習來自動化改善整個營運效益，如推薦系統

聰明的朋友，如果題目如下，您會將上述的I,D,Z,B,M，分別放在哪裡呢？

問題1
製造工廠有許多機械手臂，整個生產團隊透過手臂上收集的數據來幫助確定生產的時間表。
問題2
一個客戶服務團隊持續接收在線上的訂單
問題3
一個圖書館員在城市圖書館工作
問題4
停車收費系統根據可能預期的需求來自動改變費率
問題5
自動電子收費器透過讀取汽車牌照跟駕駛索取過路費(如ETC)

問題1看起來非常明顯是以數據來挖掘洞見，問題2與問題3很容易理解是傳統的運作階段，問題4與問題5比較容易會有誤會是在「digitization」與「machine learning」的差別，但仔細一看，事實上ML有個關鍵是透過數據「自動化」原先的流程，因此會獲得一個不斷改變的輸出，答案就出來了。

看起來大家都有十足的把握了，我們繼續看一下去，如果題目如下，您們的選擇為何？

題目6
所有任務，包含執行參數、選擇參數、參數回饋都是自動化
題目7
一個人在執行任務，而這個任務與指令來自人與人之間的方式運作
題目8
一個電腦執行任務，而軟體工程師透過歷史的模式，來進行參數的調整。
題目9
一個電腦執行過程是透個人從介面上輸入參數來進行。
題目10
一個任務是從一群人來完成

問題6我們可以發現全數自動化，會是機器學習的強項，答案是非常明確的。接著在問題7與問題10的部分，也很容易辨識是傳統1個與多個人的運作方式，最後這次的題目8與題目9分別就相對明顯很多，題目9單純只有透過介面來做互動，而題目8則透過數據挖掘模式來進行參數調整。

最後在Quiz最尾端的題目也非常有趣，題目大意是在說一家企業需要在一年內導入ML，我們是這家企業的顧問，而我們應該請該企業集中資源在哪一個地方，譬如說：「定義關鍵目標」、「收集資料」、「建立基礎設施」、「最佳化演算法」、「整合模型」。

其實有經驗的顧問會選擇「收集資料」，因為這是所有企業導入ML的最重要的問題，尤其以筆者過去的經驗是，傳統企業常常是因為沒有資料而無法導入ML。而其他都不重要嗎？並不是，而是沒有資料，對於定好目標、建立設施、最佳化算法、整合模型就都沒有了意義。

但是筆者提一個觀點是，如果我們企業要導入ML，也不能盲目的收集資料，而是要了解解決什麼問題。
所以回過頭來，一樣可以觀察公司目前的階段，從沒有ML->有ML，我們在「Individual contributor」、「Delegation」、「Digitization」、「Big data and Analytics」、「Machine learning」是哪一個階段，才能將資源妥善運用在導入ML的正確方向當中。

以上是筆者對於「How Google does Machine Learning」的Module 3 Quiz拙見，歡迎討論。

2016年3月23日星期三

雲端機器學習上手篇-以非監督式學習演算法為例

由於筆者對於數據分析都非常有興趣，也因為工作關係需要接觸到各種不同的雲端數據分析工具，繼上次筆者分享過「透過Python與Spark做氣象大數據分析」是屬於IBM Bluemix的服務，這次筆者要分享的是關於2015年2月微軟推出的Azure Machine Learning工具，有興趣的朋友可以從這裡選擇「Guest Access」快速進行試用。或是申請一個帳號，依照筆者的步驟執行，進行Microsoft Azure Machine Learning(MAML)的體驗。

過去在實務上經常發現要做一個數學模型與系統整合一起應用，是非常困難的一件事情，通常作法是需要先請統計學家設計好數學模型並驗證後，再交由軟體工程師進行系統整合，然後再依照市場需求做調整，再這樣反覆的過程中，統計學家改模型，軟體工程師調整系統，人力物力都消耗非常多。

在微軟這套Azure Machine Learning有幾個讓筆者覺得很方便的地方，筆者條列如下

應用模型即刻上線
多種現成應用選擇
採用拖拉互動介面

第一「應用模型即可上線」就是機器學習後的模型可反覆利用之外，還可快速佈署到雲端上，以筆者為例，要預測汽車價格，可在二十分鐘內完成模型佈署。第二「多種現成應用選擇」在Azure上有許多使用者分享了數學模型可以馬上使用，像是預測汽車價格、電影推薦、更多......等。第三是「採用拖拉互動介面」介面使用容易，類似SPSS、SAS的概念，都是採用資料探勘的流程來進行資料分析。

接下來在本次的體驗中，我們採用最經典的安德森鳶尾花卉數據集(Anderson's Iris data set)為例，並使用非監督式學習(Unsupervised Learning)方法中的K-means演算法來進行實作，以快速體驗雲端機器學習的便利性。

首先大家須先登入Microsoft Azure的介面，目前Azure新版的介面只要使用到Azure Machine Learning都會跳轉到舊的介面，因此就參考筆者以下的畫面，照著操作即可。

首先選擇機器學習服務。

選擇「新增」，並點選「快速建立」，我們可以在工作區名稱上，建立自己的工作區名稱，像是ML這樣的名稱。

接著進入工作區之後，點選下方的「在Studio中開啟」的選項，進入MAML的使用介面。

接著我們必須點選「DATASETS」去上傳資料集，將資料做上船的動作，我們採用這裡的資料，這是一份相當經典的示範資料集，只要到Google搜尋iris csv就有許多參考資料，資料中有150筆資料與5種資料欄位，下載之後我們點選「NEW」如下圖所示。

接著點選「FROM LOCAL FILE」將資料進行上傳的動作。

接著在介面上面直接「選擇檔案」，將檔案選好之後，點選右下角的勾勾，就可以進行上傳。

接著點選「EXPERIMENTS」，再點選下方的「NEW」。

接著我們會看到許多Machine Learning Samples，不過我們今天要自己做一個，所以點選「Blank Experiment」可以產生新的實驗環境。

接著看到工作區後，我們可以在下圖紅色框中輸入這個專案的名稱，像是筆者輸入「My First Azure Machine Learning Case」，接著就可以開始實作囉!

首先我們從「Saved Datasets」裡面的「My Datasets」將剛剛上傳的資料集「iris.csv」整個拖曳到右邊的工作區。

接下來我們可以很快的對這個資料集做資料視覺化(Visualization)，這是筆者覺得滿方便的地方，使用者只要一個右鍵，就可以對資料集做初步的了解。

這個簡易的資料視覺化目前可以透過盒鬚圖(Box-plot)、長條圖(Bar Chart)、平均數(Mean)、中位數(Median)、最小值(Min)、最大值(Max)、標準差(Standard Deviation)......等統計資訊去觀察資料的狀況。

接著原始iris資料集裡面包含萼片長(Sepal length)、萼片寬(Sepal width)、花瓣長(Petal length)、花瓣寬(Petal width)、種類(Species)共五個欄位，我們先拿掉種類(Species)的欄位，這個欄位並不適合放在這個學習模型中，因此我們在下圖左邊紅框中搜尋「Project Columns」將他拖曳到工作區。

接著點選iris資料集的圓點，拖曳到「Project Columns」的圓點，讓兩個功能做一個連線，如下圖所示。

接著點選「Project Columns」，並點選右邊紅框的「Launch column selector」按鈕。

接著選擇「WITH RULES」→「ALL COLUMNS」→「Exclude」將「Class」欄位做排除的動作，如下圖示意。

因為一般來說，我們必須將資料分割成訓練集、測試集才能進行實驗，因此我們必須進行資料切割，這邊使用「Split Data 」，我們找到他之後，將他拖曳到右邊工作區。

接著一樣與Project Columns做連線。

接著我們點選「Split Data」的功能，輸入分割的比例，如下圖紅框所示，輸入0.7表示分割成訓練集70%，測試集30%，如果要分6/4就要輸入0.6，以此類推。

接著我們要有一個控制模型輸出的地方，找到「Train Clustering Model」之後一樣拖曳到右邊工作區。

接著我們將「Split Data」左下的訓練集(70%)拉到「Train Clustering Model」的右上角的圓點上，表示將訓練集放進去。

接著我們在Machine Learning裡面找到「K-mean Clustering」這就是今天我們提到的非監督式學習(Unsupervised Learning)演算法的一種，我們將他拖曳到工作區。

將「K-mean Clustering」的圓點連線到「Train Clustering Model」的左上角圓點，表示我們要使用該演算法建立模型。

因為集群計算之後，都需要設定集群結果給資料集，所以我們要使用「Assign to clusters」這個功能配置模型預測結果。

接著將「Train Clustering Model」左下角的圓點，與「Assign to Clusters」上方的圓點進行相連。

最後我們要再使用「Project Columns」將運算結果輸出，所以一樣找到「Project Columns」然後拖曳到工作區。

接著我們會看到很多個元件上都有紅色驚嘆號，因為我們都還沒幫他設定資料的輸入或輸出。

不過沒關係，我們繼續將「Project Columns」再拖一個出來，將「Train Clustering Model」的右下角圓點與它做連線，這個動作主要是將原始的資料做輸出，不做也能完成實驗。

接著如上面所述，我們將「Train Clustering Model」與它做一個連線，如下圖所示

接著我們要開始針對這些放上去的元件做參數設定，我們先從「K-mean Clustering」開始，我們將他的中心數(K)設定為3個，也就是要分成3群。

接著我們點選「Train Clustering Model」的「Launch column selector」按鈕。

將他的輸入設定成包含萼片長(Sepal length)、萼片寬(Sepal width)、花瓣長(Petal length)、花瓣寬(Petal width)四個欄位，如下圖所示。

接著我們將「Assign to Clusters」右上角的圓點與「Split Data」右下角的圓點，也就是測試資料集做連接，如下圖指標所示。

接著我們選擇「Assign to Clusters」的「Launch column selector」按鈕，設定要使用的欄位。

一樣包含萼片長(Sepal length)、萼片寬(Sepal width)、花瓣長(Petal length)、花瓣寬(Petal width)四個欄位，如下圖所示。

接著我們對最後一個「Project Columns」做個設定。

注意這邊除了選擇包含萼片長(Sepal length)、萼片寬(Sepal width)、花瓣長(Petal length)、花瓣寬(Petal width)四個欄位之外，還要再選擇「Assignment」，如下圖所示。

接著點選「SAVE」，再點選「RUN」。

接著會看到運行時間，因為資料不多，所以在幾秒內即可完成。

接著到這裡會出現下面錯誤，就是「Project Columns」找不到「Assignment」的問題，如下圖所示。

不過沒關係，我們只要到「Project Columns」裡面，再點選「Launch column selector」。

然後把剛剛選的「Assignment」刪掉再選一次即可，筆者推敲問題的原因是，模型還沒計算，所以第一次不會有「Assignment」的結果，所以要再設定一次。

接著再「SAVE」與「RUN」一次

接著我們就可以點選「Project Columns」裡面的「Visualize」就可以看到分群的結果。

我們可以發現測試集的45筆資料，多了一個「Assignments」並且裡面分了0、1、2共三個群。

這就是我們初步的成果，不過還沒結束，接下來我們想把模型應用到系統上。

我們將要進行機器學習與系統整合這塊實作，在「Web Service」裡面，我們拖曳出「Input」。

接著將「Web service input」與「Project Columns」做連接，表示新的資料有一部分會從這裡輸入。

接著我們將「Output」也拖曳到工作區，並將「Assign to Clusters」的下方圓點與「Web Service Output」做連接。

接著我們點選「SAVE」、「RUN」。

運算完之後，我們點選「SET UP WEB SERVICE」裡面的「Predictive Web Service」進行系統佈署前的設定。

接著可以看到Azure自動將我們的模型與系統做流程調整。

設定完之後，再做一次「SAVE」、「RUN」，將系統模型做儲存。

接著我們再點選一次「SET UP WEB SERVICE」就可以讓我們的演算法轉成API給系統使用，API全名為應用程式介面(Application Programming Interface)，通常就是系統與系統間做傳輸共通標準，有了這個標準後，工程師不管寫甚麼系統，都可以直接透過API跟模型做連接，這個就是筆者覺得很方便的地方，因為這樣資料科學家就可以專注做模型即可。