資料科學實驗室

2024年7月19日星期五

大語言模型落地的關鍵指標

大家好我是Jerry老師，相信大家在GenAI的時代，在大量採用雲端LLM實現了不少應用之後，衡量成本將會是未來新的考量，畢竟LLM推論的每一個字都會需要算力支持，為了讓GenAI的投資有好的效益，精算雲或地的需求是必要的條件

所以這邊Jerry老師以一台插滿8張GPU的顯卡來分享何時要選擇落地、何時要選擇雲端

下面的數字，是基於三個個條件

想訓練垂直語言模型，以滿足垂直領域需求（並不是把GPT4搬到地端）
然後平均輸入的Tokens大概是80~100個繁體中文字 (包含RAG)
模型採用BF16的精度（不做量化）

假設我們擁有一台DGX或是HGX ，上面插滿8張H100顯卡，在軟體與硬體的加速後，可以獲得以下的數據

落地的每一個Tokens最低可以到0.00008的成本

所以可以看到在被妥善運用的情況下，GPU吐出來的Tokens事實上比GPT4o更便宜。

但是一台DGX或是HGX都相當的昂貴，所以還是要區分一下用量，才能確定要採購哪一種硬體。

所以Jerry老師幫大家彙整了，到底GPT4o要用到什麼程度，才要去買設備來降低成本。

一天要分析25,000篇的1,000字摘要
一天AI助理對話高於80,000次(一次300字互動)
一天翻譯用量高於50,000次(一次1000字)

我們來算算每天同事的用量，假設我們有100位同事

每一位同事平均會用250篇的摘要分析
每一位同事平均會跟AI助理對話800次
每一位同事平均會翻譯用量到500次

所以這邊會有個評估指標，如果大家都低於以上的平均用量，建議先採用Gemini或GPT4o就可以

但如果你的用量超過這個級距，會再切分幾個等級

一天要分析25,000篇的1,000字摘要	一天要分析25,000~50,000篇的1,000字摘要	一天要分析50,000~100,000篇的1,000字摘要
2張H100	4張H100	8張H100

會使用地端還會有幾個考量

資訊安全考量，不希望上傳公司重要的資料到雲上
雲端模型成本過高，希望可以落地推論
希望能夠地端微調模型，避免資料外洩

以上分享，歡迎大家私信到

jerry@ap-mic.com 給Jerry老師建議

謝謝

2024年7月7日星期日

Google開源Gemma2 27B的重點分享

大家好，我是Jerry老師，今天又來分享一個最新的Google模型Gemma2 27B，這個是目前地表上離線版最好的模型，同時也可以商用，不過現在語言模型生命週期很短，很期待下一代的模型的開放。

Gemma2 ㄧ樣是decoder-only transformer 架構，而Context Length相較前一代提升到8192 tokens，並且採用Rotary Position Embeddings (RoPE)與GeGLU，以及更深的網路。

其中有幾個重點是與Gemma1的不同包含如下：

· Local Sliding Window and Global Attention

o 在每一層計算中採用加入Global+sliding window的做法，可以降低運算資源

o 這個技術來自於Longformer，有興趣的讀者可以讀這篇。

· Logit soft-capping

o 基於Gemini 1.5的概念，限制每一個attention layer與final layer的邏輯數，加快輸出效率

o 同時取消採用傳統Flash Attention的做法

· Post-norm and pre-norm with RMSNorm

o 這個跟上一代一樣的用法，但是做了一些正規化的動作

· Grouped-Query Attention

o 這個也是上一代的用法，在論文中指出用這個方法的模型再縮小後，困惑度影響較小。

訓練資料的包含如下：

· 27B採用13 trillion Tokens，包含網路資料、論文等

· 9B則採用8 trillion Tokens

· Tokenizer採用SentencePiece 與 byte-level encodings

· 同時自動去除個人資料、敏感資料

· 初始化訓練的機器是27B採用6144塊TPUv5，9B採用4096塊TPUv4

o 這部分跟之前Jerry老師分享的差不多，1B的模型差不多要256~512塊GPU

· 訓練方法採用ZeRO-3，來進行分散式訓練

通常做完基礎模型，還會需要進行指定任務的微調，這邊Google也做了以下的工作

· Supervised fine-tuning (SFT)

o 把準任務給LLM開始做微調

· Reinforcement Learning from Human Feedback (RLHF)

o 在微調後，透過RLHF提升準確率

· Model merging

o 合成其他專業的模型超參數

· Data filtering

o 一樣再度過濾個人資訊、敏感資訊

· Formatting

o 將輸入與輸出的格式標準化

其中有趣的地方是，論文中有提到縮小模型後對於原本模型的影響，譬如說如果困惑度是60（初始化訓練），則縮小後的模型，會提高10%。但如果模型本身訓練的時候採用GQA，反而模型變化就不大，且推論速度可以更快。

接下來是大家在意的評測狀況

跟預期的一樣，參數較大的模型，還是勝出較小的模型，不過整體分數已經沒有差太多，我們可以從上面表格看到，70B模型在特定題目上，如MMLU只差5分左右。再來我們看到 Gemma2特別跟大陸的Qwen1.5（通義千問）去比較，可以發現分數比他好一些，但不同的是參數大小是Gemma2較小。我們可以看到目前整體來說，有機會模型參數小，分數能維持水準的模型並不多，而Gemma 2是其中一個。

從透過Chatbot Arena 的方式，進入Elo rating system評分後，唯一通過競賽的落地模型，只剩下Yi系列跟Gemma系列，相當期待後續Gemma進入到70B之後的表現。

不過Gemma2的原生版本建議執行在TPU或H100以後的機器，所以各家企業的GPU要提高到另一個層次才行了，還好有Colab，可以先看看有沒有機會抽到比較好的顯卡，至少要準備70GB的VRAM

請到這裡享用程式碼

論文中還有很多值得閱讀的內容，也留給大家品味一下

2024年4月4日星期四

NVIDIA GTC 2024 之旅

自從加入新創鏈結計畫(Inception Program)之後，公司就一直非常的繁忙，去年確認入選NVIDIA在生成式AI這塊領域的獨立軟體供應商(Independent software vendor, ISV)之後，幾乎在台灣相關的活動都有機會參與，非常榮幸能夠加入台灣少數的軟體供應商行列，跟著NVIDIA一起成長。

當然這次GTC 2024也很榮幸成為台灣唯二新創團隊演講的團隊，在活動中對大家介紹我們的產品。