2024年7月19日 星期五

大語言模型落地的關鍵指標




大家好我是Jerry老師,相信大家在GenAI的時代,在大量採用雲端LLM實現了不少應用之後,衡量成本將會是未來新的考量,畢竟LLM推論的每一個字都會需要算力支持,為了讓GenAI的投資有好的效益,精算雲或地的需求是必要的條件

 

所以這邊Jerry老師以一台插滿8GPU的顯卡來分享何時要選擇落地、何時要選擇雲端

 

下面的數字,是基於三個個條件

  1. 想訓練垂直語言模型,以滿足垂直領域需求(並不是把GPT4搬到地端)
  2. 然後平均輸入的Tokens大概是80~100個繁體中文字 (包含RAG)
  3.  模型採用BF16的精度(不做量化)

 

假設我們擁有一台DGX或是HGX ,上面插滿8H100顯卡,在軟體與硬體的加速後,可以獲得以下的數據

 


落地的每一個Tokens最低可以到0.00008的成本 

所以可以看到在被妥善運用的情況下,GPU吐出來的Tokens事實上比GPT4o更便宜。

但是一台DGX或是HGX都相當的昂貴,所以還是要區分一下用量,才能確定要採購哪一種硬體。

 

 所以Jerry老師幫大家彙整了,到底GPT4o要用到什麼程度,才要去買設備來降低成本。

 

  • 一天要分析25,000篇的1,000字摘要
  • 一天AI助理對話高於80,000(一次300字互動)
  • 一天翻譯用量高於50,000(一次1000)

 

我們來算算每天同事的用量,假設我們有100位同事

  1. 每一位同事平均會用250篇的摘要分析
  2. 每一位同事平均會跟AI助理對話800
  3. 每一位同事平均會翻譯用量到500


所以這邊會有個評估指標,如果大家都低於以上的平均用量,建議先採用GeminiGPT4o就可以

但如果你的用量超過這個級距,會再切分幾個等級

 

一天要分析25,000
1,000字摘要

一天要分析25,000~50,000篇的1,000字摘要

一天要分析50,000~100,000篇的1,000字摘要

2H100

4H100

8H100

會使用地端還會有幾個考量

  1. 資訊安全考量,不希望上傳公司重要的資料到雲上
  2. 雲端模型成本過高,希望可以落地推論
  3. 希望能夠地端微調模型,避免資料外洩

 

以上分享,歡迎大家私信到

jerry@ap-mic.com Jerry老師建議

謝謝

 

 

2024年7月7日 星期日

Google開源Gemma2 27B的重點分享

 


大家好,我是Jerry老師,今天又來分享一個最新的Google模型Gemma2 27B,這個是目前地表上離線版最好的模型,同時也可以商用,不過現在語言模型生命週期很短,很期待下一代的模型的開放。

 

Gemma2 ㄧ樣是decoder-only transformer 架構,而Context Length相較前一代提升到8192 tokens,並且採用Rotary Position Embeddings (RoPE)GeGLU,以及更深的網路。

 

其中有幾個重點是與Gemma1的不同包含如下:

·      Local Sliding Window and Global Attention

o   在每一層計算中採用加入Global+sliding window的做法,可以降低運算資源

o   這個技術來自於Longformer,有興趣的讀者可以讀這篇

·      Logit soft-capping

o   基於Gemini 1.5的概念,限制每一個attention layerfinal layer的邏輯數,加快輸出效率

o   同時取消採用傳統Flash Attention的做法

·      Post-norm and pre-norm with RMSNorm

o   這個跟上一代一樣的用法,但是做了一些正規化的動作

·      Grouped-Query Attention

o   這個也是上一代的用法,在論文中指出用這個方法的模型再縮小後,困惑度影響較小。

 

訓練資料的包含如下:

·      27B採用13 trillion Tokens,包含網路資料、論文等

·      9B則採用8 trillion Tokens

·      Tokenizer採用SentencePiece  byte-level encodings

·      同時自動去除個人資料、敏感資料

·      初始化訓練的機器是27B採用6144TPUv59B採用4096TPUv4

o   這部分跟之前Jerry老師分享的差不多,1B的模型差不多要256~512GPU

·      訓練方法採用ZeRO-3,來進行分散式訓練

 

通常做完基礎模型,還會需要進行指定任務的微調,這邊Google也做了以下的工作

·      Supervised fine-tuning (SFT)

o   把準任務給LLM開始做微調

·      Reinforcement Learning from Human Feedback (RLHF)

o   在微調後,透過RLHF提升準確率

·      Model merging

o   合成其他專業的模型超參數

·      Data filtering

o   一樣再度過濾個人資訊、敏感資訊

·      Formatting

o   將輸入與輸出的格式標準化

 

其中有趣的地方是,論文中有提到縮小模型後對於原本模型的影響,譬如說如果困惑度是60(初始化訓練),則縮小後的模型,會提高10%。但如果模型本身訓練的時候採用GQA,反而模型變化就不大,且推論速度可以更快。

 

接下來是大家在意的評測狀況



 

跟預期的一樣,參數較大的模型,還是勝出較小的模型,不過整體分數已經沒有差太多,我們可以從上面表格看到,70B模型在特定題目上,如MMLU只差5分左右。再來我們看到 Gemma2特別跟大陸的Qwen1.5(通義千問)去比較,可以發現分數比他好一些,但不同的是參數大小是Gemma2較小。我們可以看到目前整體來說,有機會模型參數小,分數能維持水準的模型並不多,而Gemma 2是其中一個。

 



 

從透過Chatbot Arena 的方式,進入Elo rating system評分後,唯一通過競賽的落地模型,只剩下Yi系列 Gemma系列,相當期待後續Gemma進入到70B之後的表現。

 

 

不過Gemma2的原生版本建議執行在TPUH100以後的機器,所以各家企業的GPU要提高到另一個層次才行了,還好有Colab,可以先看看有沒有機會抽到比較好的顯卡,至少要準備70GBVRAM

 

 

請到這裡享用程式碼 

論文中還有很多值得閱讀的內容,也留給大家品味一下

2024年4月4日 星期四

NVIDIA GTC 2024 之旅

自從加入新創鏈結計畫(Inception Program)之後,公司就一直非常的繁忙,去年確認入選NVIDIA在生成式AI這塊領域的獨立軟體供應商(Independent software vendor, ISV)之後,幾乎在台灣相關的活動都有機會參與,非常榮幸能夠加入台灣少數的軟體供應商行列,跟著NVIDIA一起成長。

當然這次GTC 2024也很榮幸成為台灣唯二新創團隊演講的團隊,在活動中對大家介紹我們的產品。

當然最辛苦的還是搭飛機,去跟回加起來要快24小時,而且不含調時差


活動中有超過900個議程,還可以線上聽,非常的有收穫。

新創團隊展區,今年我們沒擺攤,明年再來,大部分的攤位都是影像視覺、AI基礎設施比較多

連路上都有掛旗子
第一天一定要聽的就是Keynote,直接看影片感受Jensen huang的魅力吧

2024辦在 SAP Center,超過一萬多人參與,座無虛席,看起來就像演唱會




新創鏈結計畫(Inception Program)
這個如果被選上,很棒喔。

今年在這做 Startup Pitch
遇到奎景運算科技股份有限公司(Avalanche Computing Taiwan Inc.)的CEO Jay,很榮幸跟他一起是台灣唯二來分享的團隊

他也介紹一位日本朋友認識

當然有一些我上場的照片,不過真的很榮幸,能夠站在GTC這個大活動的現場,據說下面大部分都是投資人。


然後也很榮幸參加隔天的台灣晚宴活動,據說我們也是少數能夠參與的ISV軟體公司,很榮幸能夠跟著NVIDIA一起發展軟體生態圈

當然很榮幸能夠見到教主,並一起吃飯

接著隔天緊鑼密鼓被安排了許多會議,包含計畫的副總、產品、BD會議


然後一樣晚上還有晚宴在總部跟全球NV雲端NCP的公司互動



教主又再次現身,不過淹沒人群中

最後謝謝最初牽線我們公司的NV人,我們非常感謝他。
最後如果大家有興趣可以申請 Taiwan-inception-program 囉!