顯示具有 GPU 標籤的文章。 顯示所有文章
顯示具有 GPU 標籤的文章。 顯示所有文章

2024年7月19日 星期五

大語言模型落地的關鍵指標




大家好我是Jerry老師,相信大家在GenAI的時代,在大量採用雲端LLM實現了不少應用之後,衡量成本將會是未來新的考量,畢竟LLM推論的每一個字都會需要算力支持,為了讓GenAI的投資有好的效益,精算雲或地的需求是必要的條件

 

所以這邊Jerry老師以一台插滿8GPU的顯卡來分享何時要選擇落地、何時要選擇雲端

 

下面的數字,是基於三個個條件

  1. 想訓練垂直語言模型,以滿足垂直領域需求(並不是把GPT4搬到地端)
  2. 然後平均輸入的Tokens大概是80~100個繁體中文字 (包含RAG)
  3.  模型採用BF16的精度(不做量化)

 

假設我們擁有一台DGX或是HGX ,上面插滿8H100顯卡,在軟體與硬體的加速後,可以獲得以下的數據

 


落地的每一個Tokens最低可以到0.00008的成本 

所以可以看到在被妥善運用的情況下,GPU吐出來的Tokens事實上比GPT4o更便宜。

但是一台DGX或是HGX都相當的昂貴,所以還是要區分一下用量,才能確定要採購哪一種硬體。

 

 所以Jerry老師幫大家彙整了,到底GPT4o要用到什麼程度,才要去買設備來降低成本。

 

  • 一天要分析25,000篇的1,000字摘要
  • 一天AI助理對話高於80,000(一次300字互動)
  • 一天翻譯用量高於50,000(一次1000)

 

我們來算算每天同事的用量,假設我們有100位同事

  1. 每一位同事平均會用250篇的摘要分析
  2. 每一位同事平均會跟AI助理對話800
  3. 每一位同事平均會翻譯用量到500


所以這邊會有個評估指標,如果大家都低於以上的平均用量,建議先採用GeminiGPT4o就可以

但如果你的用量超過這個級距,會再切分幾個等級

 

一天要分析25,000
1,000字摘要

一天要分析25,000~50,000篇的1,000字摘要

一天要分析50,000~100,000篇的1,000字摘要

2H100

4H100

8H100

會使用地端還會有幾個考量

  1. 資訊安全考量,不希望上傳公司重要的資料到雲上
  2. 雲端模型成本過高,希望可以落地推論
  3. 希望能夠地端微調模型,避免資料外洩

 

以上分享,歡迎大家私信到

jerry@ap-mic.com Jerry老師建議

謝謝

 

 

2024年1月24日 星期三

大語言模型LLM落地版排行榜下載率比較

本文幫大家收集到2024年1月底之前,全球超過2,000下載次數的大型語言模型(LLM)的名稱與團隊,全球目前僅30多個模型可使用,重複的團隊會以最高次數的為主。

以超過兩千次下載的模型中,APMIC團隊所訓練的語言模型排名在全球第26名,不管研究或商用都好,非常感謝大家的支持。


其他下載次數也供大家參考

1.mistralai/Mixtral-8x7B-Instruct-v0.1 

下載次數:1,047,390

2.Qwen/Qwen-72B 

下載次數:10,377

3.NousResearch/Nous-Hermes-2-Yi-34B 

下載次數:9,240

4.OpenPipe/mistral-ft-optimized-1218 

下載次數:6,065

5.mindy-labs/mindy-7b-v2 

下載次數:5,616

6.Yhyu13/LMCocktail-10.7B-v1 

下載次數:5,451

7.Riiid/sheep-duck-llama-2-70b-v1.1

下載次數:5,439

8.SUSTech/SUS-Chat-34B 

下載次數:4,823

9.CausalLM/72B-preview-llamafied-qwen-llamafy 

下載次數:4,655

10.fblgit/UNA-SOLAR-10.7B-Instruct-v1.0 

下載次數:4,155

11.LDCC/LDCC-SOLAR-10.7B 

下載次數:4,117

12.deepseek-ai/deepseek-llm-67b-chat 

下載次數:3,966

13.argilla/notux-8x7b-v1 

下載次數:3,945

14.ignos/Mistral-T5-7B-v1 

下載次數:3,888

15.PracticeLLM/SOLAR-tail-10.7B-Merge-v1.0 

下載次數:3,163

16.cloudyu/Mixtral_34Bx2_MoE_60B 

下載次數:3,071

17.VAGOsolutions/SauerkrautLM-Mixtral-8x7B-Instruct 

下載次數:2,965

18.mlabonne/NeuralMarcoro14-7B 

下載次數:2,650

19.fblgit/UNAversal-8x7B-v1beta 

下載次數:2,637

20.jeonsworld/CarbonVillain-en-10.7B-v1 

下載次數:2,602

21.Weyaxi/OpenHermes-2.5-neural-chat-v3-3-Slerp 

下載次數:2,599

22.jondurbin/bagel-dpo-34b-v0.2 

下載次數:2,224

23.DopeorNope/COKAL-v1-70B 

下載次數:2,164

24.DiscoResearch/DiscoLM-70b 

下載次數:2,117

25.OpenBuddy/openbuddy-deepseek-67b-v15.1 

下載次數:2,090

26.APMIC/caigun-lora-model-34B-v2 

下載次數:2,077

27.Brillibits/Instruct_Mixtral-8x7B-v0.1_Dolly15K

下載次數: 2,075

28.Toten5/Marcoroni-neural-chat-7B-v1 

下載次數:2,050

29.TomGrc/FusionNet_7Bx2_MoE_14B 

下載次數:2,047

30.jan-hq/supermario-slerp 

下載次數:2,017



2020年3月6日 星期五

五分鐘學會在Colab上使用免費的TPU訓練模型

哈囉大家好,雖然忙碌,還是趁空擋想跟大家分享關於TensorFlow2.1.x系列的兩三事,一般來說做機器學習模型最需要的就是運算資源,而除了GPU之外,大家一定很想使用Google所推出的Google Cloud TPU來做機器學習模型,重點它很貴,能不能免費的使用他呢?使用Colab就是首選了。

而這次TF2.1新版推出之後,TPU使用有了一個很大幅度的改版,在Colab上使用TPU已經變得非常的容易與簡單,這邊就讓Jerry老師來跟大家娓娓道來。

首先不要忘記在Edit -> Notebook settings 要把硬體調整成TPU,如下圖:

然後就會獲得TPU資源,如下圖:



首先幾個在Colab上要跑TPU的API要了解一下:
1.tf.distribute.cluster_resolver.TPUClusterResolver()
這是負責偵測TPU,可以透過該指令了解Google TPU集群的狀況。

2.tf.config.experimental_connect_to_cluster(tpu)
這是負責連結Google雲端的TPU環境

3.tf.tpu.experimental.initialize_tpu_system(tpu)
這是負責初始化TPU的裝置

所以前置作業如下:

必須設定TensorFlow2.x 以及設定tpu的變數。

接下來要使用TPU,目前模型有固定的寫法,必須寫成函式,舉例如下:

資料的部分也是要寫成函式,這邊範例是採用mnist,所以舉例如下:

最後是訓練模型的程式碼,有個重點是
4.tf.distribute.experimental.TPUStrategy
是呼叫前面TPU分配策略的指令,所以要搭配在程式碼當中

5.strategy.scope()
搭配這段程式碼,可以把模型與要計算的優化器、衡量標準放到運算引擎上

如下:



目前實測的結果,如果以mnist資料為例,
TPU:36秒
GPU(P100):90秒
CPU:291秒

使用心得是,程式碼不用改動太多,在TensorFlow 2.x的架構下,可以很快的進行訓練,程式碼也可以很快速地調整,以後大家就可以用前所未有的速度訓練模型囉!

當然如果您很想更近一步了解Google Cloud Platform上面的TPU費用,可以參考下面連結

相關程式碼請參考