2024年7月19日 星期五

大語言模型落地的關鍵指標




大家好我是Jerry老師,相信大家在GenAI的時代,在大量採用雲端LLM實現了不少應用之後,衡量成本將會是未來新的考量,畢竟LLM推論的每一個字都會需要算力支持,為了讓GenAI的投資有好的效益,精算雲或地的需求是必要的條件

 

所以這邊Jerry老師以一台插滿8GPU的顯卡來分享何時要選擇落地、何時要選擇雲端

 

下面的數字,是基於三個個條件

  1. 想訓練垂直語言模型,以滿足垂直領域需求(並不是把GPT4搬到地端)
  2. 然後平均輸入的Tokens大概是80~100個繁體中文字 (包含RAG)
  3.  模型採用BF16的精度(不做量化)

 

假設我們擁有一台DGX或是HGX ,上面插滿8H100顯卡,在軟體與硬體的加速後,可以獲得以下的數據

 


落地的每一個Tokens最低可以到0.00008的成本 

所以可以看到在被妥善運用的情況下,GPU吐出來的Tokens事實上比GPT4o更便宜。

但是一台DGX或是HGX都相當的昂貴,所以還是要區分一下用量,才能確定要採購哪一種硬體。

 

 所以Jerry老師幫大家彙整了,到底GPT4o要用到什麼程度,才要去買設備來降低成本。

 

  • 一天要分析25,000篇的1,000字摘要
  • 一天AI助理對話高於80,000(一次300字互動)
  • 一天翻譯用量高於50,000(一次1000)

 

我們來算算每天同事的用量,假設我們有100位同事

  1. 每一位同事平均會用250篇的摘要分析
  2. 每一位同事平均會跟AI助理對話800
  3. 每一位同事平均會翻譯用量到500


所以這邊會有個評估指標,如果大家都低於以上的平均用量,建議先採用GeminiGPT4o就可以

但如果你的用量超過這個級距,會再切分幾個等級

 

一天要分析25,000
1,000字摘要

一天要分析25,000~50,000篇的1,000字摘要

一天要分析50,000~100,000篇的1,000字摘要

2H100

4H100

8H100

會使用地端還會有幾個考量

  1. 資訊安全考量,不希望上傳公司重要的資料到雲上
  2. 雲端模型成本過高,希望可以落地推論
  3. 希望能夠地端微調模型,避免資料外洩

 

以上分享,歡迎大家私信到

jerry@ap-mic.com Jerry老師建議

謝謝

 

 

沒有留言:

張貼留言