資料科學實驗室: GPU

顯示具有 GPU 標籤的文章。顯示所有文章

2024年7月19日星期五

大語言模型落地的關鍵指標

大家好我是Jerry老師，相信大家在GenAI的時代，在大量採用雲端LLM實現了不少應用之後，衡量成本將會是未來新的考量，畢竟LLM推論的每一個字都會需要算力支持，為了讓GenAI的投資有好的效益，精算雲或地的需求是必要的條件

所以這邊Jerry老師以一台插滿8張GPU的顯卡來分享何時要選擇落地、何時要選擇雲端

下面的數字，是基於三個個條件

想訓練垂直語言模型，以滿足垂直領域需求（並不是把GPT4搬到地端）
然後平均輸入的Tokens大概是80~100個繁體中文字 (包含RAG)
模型採用BF16的精度（不做量化）

假設我們擁有一台DGX或是HGX ，上面插滿8張H100顯卡，在軟體與硬體的加速後，可以獲得以下的數據

落地的每一個Tokens最低可以到0.00008的成本

所以可以看到在被妥善運用的情況下，GPU吐出來的Tokens事實上比GPT4o更便宜。

但是一台DGX或是HGX都相當的昂貴，所以還是要區分一下用量，才能確定要採購哪一種硬體。

所以Jerry老師幫大家彙整了，到底GPT4o要用到什麼程度，才要去買設備來降低成本。

一天要分析25,000篇的1,000字摘要
一天AI助理對話高於80,000次(一次300字互動)
一天翻譯用量高於50,000次(一次1000字)

我們來算算每天同事的用量，假設我們有100位同事

每一位同事平均會用250篇的摘要分析
每一位同事平均會跟AI助理對話800次
每一位同事平均會翻譯用量到500次

所以這邊會有個評估指標，如果大家都低於以上的平均用量，建議先採用Gemini或GPT4o就可以

但如果你的用量超過這個級距，會再切分幾個等級

一天要分析25,000篇的1,000字摘要	一天要分析25,000~50,000篇的1,000字摘要	一天要分析50,000~100,000篇的1,000字摘要
2張H100	4張H100	8張H100

會使用地端還會有幾個考量

資訊安全考量，不希望上傳公司重要的資料到雲上
雲端模型成本過高，希望可以落地推論
希望能夠地端微調模型，避免資料外洩

以上分享，歡迎大家私信到

jerry@ap-mic.com 給Jerry老師建議

謝謝

2024年1月24日星期三

大語言模型LLM落地版排行榜下載率比較

本文幫大家收集到2024年1月底之前，全球超過2,000下載次數的大型語言模型(LLM)的名稱與團隊，全球目前僅30多個模型可使用，重複的團隊會以最高次數的為主。

以超過兩千次下載的模型中，APMIC團隊所訓練的語言模型排名在全球第26名，不管研究或商用都好，非常感謝大家的支持。

其他下載次數也供大家參考

1.mistralai/Mixtral-8x7B-Instruct-v0.1

下載次數：1,047,390

2.Qwen/Qwen-72B

下載次數：10,377

3.NousResearch/Nous-Hermes-2-Yi-34B

下載次數：9,240

4.OpenPipe/mistral-ft-optimized-1218

下載次數：6,065

5.mindy-labs/mindy-7b-v2

下載次數：5,616

6.Yhyu13/LMCocktail-10.7B-v1

下載次數：5,451

7.Riiid/sheep-duck-llama-2-70b-v1.1

下載次數：5,439

8.SUSTech/SUS-Chat-34B

下載次數：4,823

9.CausalLM/72B-preview-llamafied-qwen-llamafy

下載次數：4,655

10.fblgit/UNA-SOLAR-10.7B-Instruct-v1.0

下載次數：4,155

11.LDCC/LDCC-SOLAR-10.7B

下載次數：4,117

12.deepseek-ai/deepseek-llm-67b-chat

下載次數：3,966

13.argilla/notux-8x7b-v1

下載次數：3,945

14.ignos/Mistral-T5-7B-v1

下載次數：3,888

15.PracticeLLM/SOLAR-tail-10.7B-Merge-v1.0

下載次數：3,163

16.cloudyu/Mixtral_34Bx2_MoE_60B

下載次數：3,071

17.VAGOsolutions/SauerkrautLM-Mixtral-8x7B-Instruct

下載次數：2,965

18.mlabonne/NeuralMarcoro14-7B

下載次數：2,650

19.fblgit/UNAversal-8x7B-v1beta

下載次數：2,637

20.jeonsworld/CarbonVillain-en-10.7B-v1

下載次數：2,602

21.Weyaxi/OpenHermes-2.5-neural-chat-v3-3-Slerp

下載次數：2,599

22.jondurbin/bagel-dpo-34b-v0.2

下載次數：2,224

23.DopeorNope/COKAL-v1-70B

下載次數：2,164

24.DiscoResearch/DiscoLM-70b

下載次數：2,117

25.OpenBuddy/openbuddy-deepseek-67b-v15.1

下載次數：2,090

26.APMIC/caigun-lora-model-34B-v2

下載次數：2,077

27.Brillibits/Instruct_Mixtral-8x7B-v0.1_Dolly15K

下載次數： 2,075

28.Toten5/Marcoroni-neural-chat-7B-v1

下載次數：2,050

29.TomGrc/FusionNet_7Bx2_MoE_14B

下載次數：2,047

30.jan-hq/supermario-slerp

下載次數：2,017

2020年3月6日星期五

五分鐘學會在Colab上使用免費的TPU訓練模型

哈囉大家好，雖然忙碌，還是趁空擋想跟大家分享關於TensorFlow2.1.x系列的兩三事，一般來說做機器學習模型最需要的就是運算資源，而除了GPU之外，大家一定很想使用Google所推出的Google Cloud TPU來做機器學習模型，重點它很貴，能不能免費的使用他呢？使用Colab就是首選了。

而這次TF2.1新版推出之後，TPU使用有了一個很大幅度的改版，在Colab上使用TPU已經變得非常的容易與簡單，這邊就讓Jerry老師來跟大家娓娓道來。

首先不要忘記在Edit -> Notebook settings 要把硬體調整成TPU，如下圖：

然後就會獲得TPU資源，如下圖：

首先幾個在Colab上要跑TPU的API要了解一下：

1.tf.distribute.cluster_resolver.TPUClusterResolver()

這是負責偵測TPU，可以透過該指令了解Google TPU集群的狀況。

2.tf.config.experimental_connect_to_cluster(tpu)

這是負責連結Google雲端的TPU環境

3.tf.tpu.experimental.initialize_tpu_system(tpu)

這是負責初始化TPU的裝置

所以前置作業如下：

必須設定TensorFlow2.x 以及設定tpu的變數。

接下來要使用TPU，目前模型有固定的寫法，必須寫成函式，舉例如下：

資料的部分也是要寫成函式，這邊範例是採用mnist，所以舉例如下：

最後是訓練模型的程式碼，有個重點是

4.tf.distribute.experimental.TPUStrategy

是呼叫前面TPU分配策略的指令，所以要搭配在程式碼當中

5.strategy.scope()

搭配這段程式碼，可以把模型與要計算的優化器、衡量標準放到運算引擎上

如下：

目前實測的結果，如果以mnist資料為例，

TPU：36秒

GPU(P100)：90秒

CPU：291秒

使用心得是，程式碼不用改動太多，在TensorFlow 2.x的架構下，可以很快的進行訓練，程式碼也可以很快速地調整，以後大家就可以用前所未有的速度訓練模型囉！

當然如果您很想更近一步了解Google Cloud Platform上面的TPU費用，可以參考下面連結

https://cloud.google.com/tpu/docs/types-zones

https://cloud.google.com/tpu/pricing

相關程式碼請參考

https://github.com/jerrywu2013/TensorFlow_TPU

訂閱：文章 (Atom)

資料科學實驗室

2024年7月19日星期五

大語言模型落地的關鍵指標

2024年1月24日星期三

大語言模型LLM落地版排行榜下載率比較

2020年3月6日星期五

五分鐘學會在Colab上使用免費的TPU訓練模型

Translate

總網頁瀏覽量

2024年7月19日 星期五

大語言模型落地的關鍵指標

2024年1月24日 星期三

大語言模型LLM落地版排行榜下載率比較

2020年3月6日 星期五

五分鐘學會在Colab上使用免費的TPU訓練模型

2024年7月19日星期五

2024年1月24日星期三

2020年3月6日星期五