顯示具有 雲端機器學習 標籤的文章。 顯示所有文章
顯示具有 雲端機器學習 標籤的文章。 顯示所有文章

2020年5月15日 星期五

五分鐘學會使用TPU訓練BERT自然語言模型





大家好我是Jerry老師,這篇帶來了五分鐘學會系列,主要跟大家分享如何在GCP上採用TPU來訓練自然語言模型,整個過程不包含「訓練時間、主機設定與安裝時間」只需要五分鐘就可以幾行指令就可以完成訓練操作。



首先大家必須要有GCP帳號,只要有申請Gmail,就可以快速開通。目前有300元美金免費試用,所以不用擔心費用,開通請往這裡



有了主控台之後,就可以開始玩了。
在主控台畫面,點選「新增專案」

接著可以會有一個自動產生的專案名稱,我們可以自己輸入,但是要記得輸入的名稱。
像是我在自動產生的名稱前後加上jerry跟tpu。

接著回主控台,在畫面右上角,開啟「Cloud Shell」



1.接著輸入以下參數
export PROJECT_NAME=jerry-project87630-tpu(注意這是剛剛我設定的ID)
請在紅字修改自己剛剛開的專案名稱

2.執行下面指令
gcloud config set project ${PROJECT_NAME}

3.建立bucket-name,這是Google專門存放資料的技術,我取的跟ID一樣好了
gsutil mb -p ${PROJECT_NAME} -c standard -l europe-west4 -b on gs://jerry-project87630-tpu
一樣請在紅字修改自己剛剛開的專案名稱


接著就正式開啟TPU囉
請輸入下面指令,這邊我的TPU名稱設定jerry,大家照貼即可。
ctpu up --tpu-size=v3-8 --name=jerry --machine-type=n1-standard-8 --zone=europe-west4-a --tf-version=2.2
這邊採用的是最新TensorFlow2.2版本
看到下面畫面,打 y 即可


接著會看到下面畫面,這是TPU建立過程。

接著進入我們剛剛設定好的TPU機器,執行下面指令
gcloud compute ssh jerry --zone=europe-west4-a
中間如果看到以下畫面,看到這幾行直接按Enter即可。

接著設定環境參數,執行下面指令
export TPU_NAME=jerry

設定BUCKET位置,這個跟前面設定一樣

export STORAGE_BUCKET=gs://jerry-project87630-tpu
一樣請在紅字修改自己剛剛開的專案名稱


然後安裝執行這次實作的套件
sudo pip3 install -r /usr/share/models/official/requirements.txt

最後就剩兩個步驟,設定以下環境參數

export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
(vm)$ export BERT_BASE_DIR=gs://cloud-tpu-checkpoints/bert/keras_bert/uncased_L-24_H-1024_A-16
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/bert-output(vm)$ export GLUE_DIR=gs://cloud-tpu-checkpoints/bert/classification(vm)$ export TASK=mnli

接著跑模型,執行下面指令

python3 /usr/share/models/official/nlp/bert/run_classifier.py \
  --mode='train_and_eval' \
  --input_meta_data_path=${GLUE_DIR}/${TASK}_meta_data \
  --train_data_path=${GLUE_DIR}/${TASK}_train.tf_record \
  --eval_data_path=${GLUE_DIR}/${TASK}_eval.tf_record \
  --bert_config_file=${BERT_BASE_DIR}/bert_config.json \
  --init_checkpoint=${BERT_BASE_DIR}/bert_model.ckpt \
  --train_batch_size=32 \
  --eval_batch_size=32 \
  --learning_rate=2e-5 \
  --num_train_epochs=3 \
  --model_dir=${MODEL_DIR} \
  --distribution_strategy=tpu \
  --tpu=${TPU_NAME}

看到下面畫面,表示跑成功囉,大約一小時之後會有結果,中途如果要中斷,就按Control+z

因為TPU非常貴,所以下面就是關閉的程序

首先離開VM
exit

接著確認目前的TPU有哪些還在執行
ctpu list

接著刪除指定的TPU,剛剛我設定的TPU名字是jerry,在下面畫面按 y 就可以刪除TPU囉!

ctpu delete jerry



目前的Google TPU費用,不同區域與等級都有不同價格
平均一個小時1塊到9塊美金不等

目前如果採用標準TPU-V2 約5塊美金,約156元台幣,跑一天差不多3800左右。
跑一個月就是11萬多,如果用好一點TPU-V3 約8塊美金,跑一個月17萬。
感謝文章的TPU費用是由Google雲端贊助的費用(GCP credit supported activity)。


以上是這篇文章跟大家分享透過TPU如何跑BERT模型,以及費用成本估算,感謝收看。



2020年3月6日 星期五

五分鐘學會在Colab上使用免費的TPU訓練模型

哈囉大家好,雖然忙碌,還是趁空擋想跟大家分享關於TensorFlow2.1.x系列的兩三事,一般來說做機器學習模型最需要的就是運算資源,而除了GPU之外,大家一定很想使用Google所推出的Google Cloud TPU來做機器學習模型,重點它很貴,能不能免費的使用他呢?使用Colab就是首選了。

而這次TF2.1新版推出之後,TPU使用有了一個很大幅度的改版,在Colab上使用TPU已經變得非常的容易與簡單,這邊就讓Jerry老師來跟大家娓娓道來。

首先不要忘記在Edit -> Notebook settings 要把硬體調整成TPU,如下圖:

然後就會獲得TPU資源,如下圖:



首先幾個在Colab上要跑TPU的API要了解一下:
1.tf.distribute.cluster_resolver.TPUClusterResolver()
這是負責偵測TPU,可以透過該指令了解Google TPU集群的狀況。

2.tf.config.experimental_connect_to_cluster(tpu)
這是負責連結Google雲端的TPU環境

3.tf.tpu.experimental.initialize_tpu_system(tpu)
這是負責初始化TPU的裝置

所以前置作業如下:

必須設定TensorFlow2.x 以及設定tpu的變數。

接下來要使用TPU,目前模型有固定的寫法,必須寫成函式,舉例如下:

資料的部分也是要寫成函式,這邊範例是採用mnist,所以舉例如下:

最後是訓練模型的程式碼,有個重點是
4.tf.distribute.experimental.TPUStrategy
是呼叫前面TPU分配策略的指令,所以要搭配在程式碼當中

5.strategy.scope()
搭配這段程式碼,可以把模型與要計算的優化器、衡量標準放到運算引擎上

如下:



目前實測的結果,如果以mnist資料為例,
TPU:36秒
GPU(P100):90秒
CPU:291秒

使用心得是,程式碼不用改動太多,在TensorFlow 2.x的架構下,可以很快的進行訓練,程式碼也可以很快速地調整,以後大家就可以用前所未有的速度訓練模型囉!

當然如果您很想更近一步了解Google Cloud Platform上面的TPU費用,可以參考下面連結

相關程式碼請參考

2018年1月26日 星期五

歡迎加入機器智能實驗室_FB社團

大家好,我是資料科學實驗室作者Jerry,由於個人工作歷程的發展,目前正在從「數據科學」轉移到「機器智能」上發展,所以建立了「機器智能實驗室」,在這裡不同以往的,我們可以有更多的互動與交流,也歡迎大家一起進入我們的研究行列。

未來所有智能化的來源都是資料,而研究多年「資料應用」的Jerry,希望能夠將資料與智能化整合,就像阿里巴巴馬雲說的「以前的電器是插上了電以後就聽你話。未來電器不僅要通電,更要通數據。機器收到數據之後,機器比人變得越來越聰明」。

另外也有牛津大學的學者提到「機器智能將會是我們人類最後一個發明」,讓我更決定開始投入機器智能(Machine Intelligence)的相關研究。

在接下來幾年,資料將會是企業最重要的資產,為了能夠掌握未來發展,企業應該要能夠掌握資料,並開始投入研究資料,進而將資料用在各種智能應用上面。但是因為機器智能(Machine Intelligence)技術越來越複雜,門檻越來越高,因此希望成立機器智能實驗室,希望大家一同共襄盛舉。




======================= [工商服務] =======================
目前JerryWu老師是Google機器學習開發專家,同時擔任機器智能(人工智慧)訓練講師,目前在廣宣學堂、T客邦、資策會、工研院、中國生產力中心、文化大學進修推廣部......等知名訓練機構擔任講師,也同時是亞太智能機器的創辦人兼技術長。
教授課程包含:
機器學習機器理解機器視覺、Python基礎課程、Python資料分析課程、預測分析與管理。

有需要的朋友歡迎來信 jerry@ap-mic.com



2017年5月8日 星期一

透過雲端工具快速實作情緒分析(Sentiment Analysis)

最近實在是太忙,終於有一點時間可以發文,情緒分析一直是筆者的研究之一。自從兩年前「情緒分析(Sentiment Analysis)的作法與商業價值」獲得高度迴響之後,就一直要找時間分享相關的研究。而剛好這兩年Google推出的自然語言技術越來越成熟,筆者就把使用心得給記錄在這邊。

因此本次實作主要使用Google自然語言API (Cloud Natural Language API)來進行情緒辨識,目前支援簡體中文、繁體中文、英文、法文、德文、義大利文、日文、韓文、葡萄牙文、西班牙文。


如果您只是是玩玩,想看一下Demo,Google提供兩個地方給大家玩,第一個到官網
可以自行輸入文字進行辨識情緒。

第二個
或是進到Google API進行API測試,網址請點這裡
透過上方的輸入之後,可以獲得情緒分數的回傳



第三個就是今天要說的,透過雲端工具來取得情緒分數,做之後的系統運用。

在基本教學前,我們自己的電腦必須準備的環境如下:

  1. Google Cloud Platform帳號
  2. Python 3以上的版本
  3. Virtualenv (pip install virtualenv)
  4. gcloud(依據自己的電腦做安裝,本次範例採用Mac OS X)
  5. 務必完成gcloud上面的登入設定
首先建立一個虛擬環境,筆者用gNLP為名稱,接著進入虛擬環境,指令如下圖所示:

接著我們要裝一下gcloud的Python套件,我們可以只裝Language的相關套件就行。
pip3 install --upgrade google-cloud-language


接著測試一下google cloud的套件是否正常,進入Python之後打以下指令:
from google.cloud import language

接著可以下載筆者從 範例加工過的程式碼,請點網址

這時候直接執行英文句子沒問題,但是輸入中文句子,就會出現問題,像是下面這張圖所示
大意是說他抓不到回傳的資訊,不過事實是目前中文正在測試,他不回傳您資料,但是有其他撇步可以使用。

接著我們要到套件本身做一下修改,從上面我們可以看到他是呼叫document這個函式,所以我們要到"/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/google/cloud/language/document.py" 去修改 「document.py」這一個檔案。

打開之後 搜尋「null」看到下面的畫面

將裡面的null改成en,讓google自動偵測語言的機制有了預設值,改完之後存檔案。

再回來執行程式,就大功告成。
範例如下


Score是指情緒分數,Magnitude是指情緒的強度。

記錄一下Google自然語言API (Cloud Natural Language API)的API在一定的呼叫次數下是免費的,計費方式是採用每月1,000個字來做單位,以情緒分析為例,大概超過5,000個字之後就是1元美金,但是文字量越多越便宜,實際的計價方式可參考官方網址

總結一下

優點:
  1. 透過Google CNL API來實作辨識情緒,方便又快速,可以讓大部分的工程師、分析師比較不會太忙(ㄅㄠˋ ㄍ ㄢ  )。
  2. 不用理基礎設施問題,過往透過辨識情緒要耗費的運算資源,這部分都不用考慮進去,直接以Serverless的概念運作。
  3. 可以在五分鐘之內,完成情緒辨識功能,並且在一小時之內上線相關的系統,不用再訓練模型、驗證模型。
缺點:
  1. 有些複雜的句子目前還不能有效地辨識,像是筆者輸入「這台車真好,可是我從來都不開」情緒辨識的結果居然是正面的,所以中文句子還是有辨識問題。
  2. 一些具有領域知識的名詞 或是特殊名詞 ,混雜在句子裡面的時候,辨識也不會太準,像是「這台車真的是瞎爆了」這樣的句子也無法正常辨識。
  3. 透過Google CNL API實作,超過一定的呼叫次數後,就要錢(廢話)。
所以結論還是要請資料科學家幫忙做調整跟修正囉:)