資料科學實驗室: 大語言模型落地的關鍵指標

2024年7月19日星期五

大家好我是Jerry老師，相信大家在GenAI的時代，在大量採用雲端LLM實現了不少應用之後，衡量成本將會是未來新的考量，畢竟LLM推論的每一個字都會需要算力支持，為了讓GenAI的投資有好的效益，精算雲或地的需求是必要的條件

所以這邊Jerry老師以一台插滿8張GPU的顯卡來分享何時要選擇落地、何時要選擇雲端

下面的數字，是基於三個個條件

假設我們擁有一台DGX或是HGX ，上面插滿8張H100顯卡，在軟體與硬體的加速後，可以獲得以下的數據

落地的每一個Tokens最低可以到0.00008的成本

所以可以看到在被妥善運用的情況下，GPU吐出來的Tokens事實上比GPT4o更便宜。

但是一台DGX或是HGX都相當的昂貴，所以還是要區分一下用量，才能確定要採購哪一種硬體。

所以Jerry老師幫大家彙整了，到底GPT4o要用到什麼程度，才要去買設備來降低成本。

我們來算算每天同事的用量，假設我們有100位同事

所以這邊會有個評估指標，如果大家都低於以上的平均用量，建議先採用Gemini或GPT4o就可以

但如果你的用量超過這個級距，會再切分幾個等級

一天要分析25,000篇的1,000字摘要	一天要分析25,000~50,000篇的1,000字摘要	一天要分析50,000~100,000篇的1,000字摘要
2張H100	4張H100	8張H100

會使用地端還會有幾個考量

以上分享，歡迎大家私信到

jerry@ap-mic.com 給Jerry老師建議

謝謝

資料科學實驗室