顯示具有 NVIDIA 標籤的文章。 顯示所有文章
顯示具有 NVIDIA 標籤的文章。 顯示所有文章

2024年7月19日 星期五

大語言模型落地的關鍵指標




大家好我是Jerry老師,相信大家在GenAI的時代,在大量採用雲端LLM實現了不少應用之後,衡量成本將會是未來新的考量,畢竟LLM推論的每一個字都會需要算力支持,為了讓GenAI的投資有好的效益,精算雲或地的需求是必要的條件

 

所以這邊Jerry老師以一台插滿8GPU的顯卡來分享何時要選擇落地、何時要選擇雲端

 

下面的數字,是基於三個個條件

  1. 想訓練垂直語言模型,以滿足垂直領域需求(並不是把GPT4搬到地端)
  2. 然後平均輸入的Tokens大概是80~100個繁體中文字 (包含RAG)
  3.  模型採用BF16的精度(不做量化)

 

假設我們擁有一台DGX或是HGX ,上面插滿8H100顯卡,在軟體與硬體的加速後,可以獲得以下的數據

 


落地的每一個Tokens最低可以到0.00008的成本 

所以可以看到在被妥善運用的情況下,GPU吐出來的Tokens事實上比GPT4o更便宜。

但是一台DGX或是HGX都相當的昂貴,所以還是要區分一下用量,才能確定要採購哪一種硬體。

 

 所以Jerry老師幫大家彙整了,到底GPT4o要用到什麼程度,才要去買設備來降低成本。

 

  • 一天要分析25,000篇的1,000字摘要
  • 一天AI助理對話高於80,000(一次300字互動)
  • 一天翻譯用量高於50,000(一次1000)

 

我們來算算每天同事的用量,假設我們有100位同事

  1. 每一位同事平均會用250篇的摘要分析
  2. 每一位同事平均會跟AI助理對話800
  3. 每一位同事平均會翻譯用量到500


所以這邊會有個評估指標,如果大家都低於以上的平均用量,建議先採用GeminiGPT4o就可以

但如果你的用量超過這個級距,會再切分幾個等級

 

一天要分析25,000
1,000字摘要

一天要分析25,000~50,000篇的1,000字摘要

一天要分析50,000~100,000篇的1,000字摘要

2H100

4H100

8H100

會使用地端還會有幾個考量

  1. 資訊安全考量,不希望上傳公司重要的資料到雲上
  2. 雲端模型成本過高,希望可以落地推論
  3. 希望能夠地端微調模型,避免資料外洩

 

以上分享,歡迎大家私信到

jerry@ap-mic.com Jerry老師建議

謝謝

 

 

2024年4月4日 星期四

NVIDIA GTC 2024 之旅

自從加入新創鏈結計畫(Inception Program)之後,公司就一直非常的繁忙,去年確認入選NVIDIA在生成式AI這塊領域的獨立軟體供應商(Independent software vendor, ISV)之後,幾乎在台灣相關的活動都有機會參與,非常榮幸能夠加入台灣少數的軟體供應商行列,跟著NVIDIA一起成長。

當然這次GTC 2024也很榮幸成為台灣唯二新創團隊演講的團隊,在活動中對大家介紹我們的產品。

當然最辛苦的還是搭飛機,去跟回加起來要快24小時,而且不含調時差


活動中有超過900個議程,還可以線上聽,非常的有收穫。

新創團隊展區,今年我們沒擺攤,明年再來,大部分的攤位都是影像視覺、AI基礎設施比較多

連路上都有掛旗子
第一天一定要聽的就是Keynote,直接看影片感受Jensen huang的魅力吧

2024辦在 SAP Center,超過一萬多人參與,座無虛席,看起來就像演唱會




新創鏈結計畫(Inception Program)
這個如果被選上,很棒喔。

今年在這做 Startup Pitch
遇到奎景運算科技股份有限公司(Avalanche Computing Taiwan Inc.)的CEO Jay,很榮幸跟他一起是台灣唯二來分享的團隊

他也介紹一位日本朋友認識

當然有一些我上場的照片,不過真的很榮幸,能夠站在GTC這個大活動的現場,據說下面大部分都是投資人。


然後也很榮幸參加隔天的台灣晚宴活動,據說我們也是少數能夠參與的ISV軟體公司,很榮幸能夠跟著NVIDIA一起發展軟體生態圈

當然很榮幸能夠見到教主,並一起吃飯

接著隔天緊鑼密鼓被安排了許多會議,包含計畫的副總、產品、BD會議


然後一樣晚上還有晚宴在總部跟全球NV雲端NCP的公司互動



教主又再次現身,不過淹沒人群中

最後謝謝最初牽線我們公司的NV人,我們非常感謝他。
最後如果大家有興趣可以申請 Taiwan-inception-program 囉!























2023年9月20日 星期三

2023年NVIDIA總部拜訪速記

 


大家好 我是Google機器學習開發專家Jerry老師,同時也是APMIC(Asia Pacific Machine Intelligence Company)創辦人兼執行長。亞太智能機器目前是受NVIDIA的Inception Program扶植,同時也出現在NVIDIA多個個案案例中,包含Streamline Generative AI Development with NVIDIA NeMo on GPU-Accelerated Google CloudCOMPUTEX TaipeiApplications Accelerated on NVIDIA Platforms

今天很榮幸來NVIDIA位於聖塔克拉拉(Santa Clara)剛興建好的總部NVIDIA Voyager & Endeavor,一個非常壯觀的總部。感謝NVIDIA Inception Program (2023 台灣新創鏈結計畫)讓我認識了來自NVIDIA的大大,進而有這次的參觀機會



很榮幸能夠跟NVIDIA CEO的背後幕僚團隊的大大合照



站在跟老黃一樣的位置拍照
原始新聞:

很棒的地方,我在這裡學習、工作了一整個下午

更榮幸的是遇到很多VP、大大們
包含Bryan等人

NVIDIA 首席AI專家

Google GDE 與 NVIDIA Logo合影
完美的參訪結尾 Thanks