大家好我是Jerry老師,相信大家在GenAI的時代,在大量採用雲端LLM實現了不少應用之後,衡量成本將會是未來新的考量,畢竟LLM推論的每一個字都會需要算力支持,為了讓GenAI的投資有好的效益,精算雲或地的需求是必要的條件
所以這邊Jerry老師以一台插滿8張GPU的顯卡來分享何時要選擇落地、何時要選擇雲端
下面的數字,是基於三個個條件
- 想訓練垂直語言模型,以滿足垂直領域需求(並不是把GPT4搬到地端)
- 然後平均輸入的Tokens大概是80~100個繁體中文字 (包含RAG)
- 模型採用BF16的精度(不做量化)
假設我們擁有一台DGX或是HGX ,上面插滿8張H100顯卡,在軟體與硬體的加速後,可以獲得以下的數據
落地的每一個Tokens最低可以到0.00008的成本
所以可以看到在被妥善運用的情況下,GPU吐出來的Tokens事實上比GPT4o更便宜。
但是一台DGX或是HGX都相當的昂貴,所以還是要區分一下用量,才能確定要採購哪一種硬體。
所以Jerry老師幫大家彙整了,到底GPT4o要用到什麼程度,才要去買設備來降低成本。
- 一天要分析25,000篇的1,000字摘要
- 一天AI助理對話高於80,000次(一次300字互動)
- 一天翻譯用量高於50,000次(一次1000字)
我們來算算每天同事的用量,假設我們有100位同事
- 每一位同事平均會用250篇的摘要分析
- 每一位同事平均會跟AI助理對話800次
- 每一位同事平均會翻譯用量到500次
所以這邊會有個評估指標,如果大家都低於以上的平均用量,建議先採用Gemini或GPT4o就可以
但如果你的用量超過這個級距,會再切分幾個等級
一天要分析25,000篇 | 一天要分析25,000~50,000篇的1,000字摘要 | 一天要分析50,000~100,000篇的1,000字摘要 |
2張H100 | 4張H100 | 8張H100 |
會使用地端還會有幾個考量
- 資訊安全考量,不希望上傳公司重要的資料到雲上
- 雲端模型成本過高,希望可以落地推論
- 希望能夠地端微調模型,避免資料外洩
以上分享,歡迎大家私信到
jerry@ap-mic.com 給Jerry老師建議
謝謝