顯示具有 NVIDIA 標籤的文章。 顯示所有文章
顯示具有 NVIDIA 標籤的文章。 顯示所有文章

2026年3月24日 星期二

Pushing the Limits of Gemma 3: Introducing ACE-Gemma-3-12B-IT-NVFP4

 



🚀 Pushing the Limits of Gemma 3: Introducing ACE-Gemma-3-12B-IT-NVFP4

Empowering Global Efficiency with Taiwan’s Technological Sovereignty

The Evolution of Open Models and Digital Sovereignty

With the release of Google’s Gemma 3, the AI community has gained a powerful foundation for multimodal reasoning. However, true Technological Sovereignty comes not just from using global models, but from the ability to optimize, adapt, and deploy them independently.

Hailing from Taiwan, the APMIC team is committed to strengthening this sovereignty. We are proud to release ACE-gemma-3-12b-it-nvfp4—a high-performance, optimized version of Gemma 3 that demonstrates how Taiwan’s AI expertise can provide the world with more efficient, accessible, and independent AI solutions.

Why NVFP4? The Technical Edge

To reduce reliance on massive, high-cost computing clusters, we must make powerful models runnable on more accessible hardware. NVFP4 (NVIDIA 4-bit Floating Point) is the key.

By leveraging this technology, APMIC provides:

  • Superior Precision: Unlike standard integer quantization, the floating-point format preserves the core intelligence of the 12B model, ensuring logic remains intact.

  • Extreme VRAM Savings: Run this powerhouse on hardware with as little as 10GB–12GB of VRAM. This lowers the barrier for local businesses and developers to maintain their own AI services.

  • Unmatched Throughput: Native hardware acceleration for modern NVIDIA architectures (Blackwell/Hopper), resulting in 2x-3x faster token generation.

Performance Benchmark

MetricStandard FP16ACE NVFP4 (Optimized in Taiwan)
VRAM Consumption~26 GB~8.5 GB
Inference SpeedBaseline2x - 3x Faster
Logic Retention100%~99%

Implementation & Community Citation

We invite the global Gemma community to experience this Taiwanese-optimized model. Whether you are building RAG pipelines or autonomous agents, this model offers the performance needed for the next generation of AI.

NVFP4: APMIC/ACE-gemma-3-12b-it-nvfp4

FP8:APMIC/ACE-gemma-3-12b-it-fp8

By citing and using this model, you are supporting Taiwan’s contribution to the global AI ecosystem and the push for a more decentralized, sovereign AI future.


🚀 挑戰 Gemma 3 的極限:ACE-Gemma-3-12B-IT-NVFP4 正式發佈

以台灣技術實力,實踐全球數位主權

開源模型的演進與數位主權的守護

隨著 Google Gemma 3 的問世,AI 社群在多模態推理能力上取得了重大飛躍。然而,真正的**「數位主權(Digital Sovereignty)」**不僅在於使用全球性的模型,更在於我們是否有能力針對在地需求進行優化、適配並獨立部署。

來自台灣的 APMIC 團隊 致力於強化這份技術自主權。我們非常自豪地宣布推出 ACE-gemma-3-12b-it-nvfp4。這不僅是 Gemma 3 的優化版本,更是台灣 AI 技術力的展現——我們致力於為全球提供更高效、更易取得且具備自主性的 AI 解決方案。

為什麼選擇 NVFP4?關鍵技術優勢

為了減少對大規模、高成本運算集群的依賴,我們必須讓強大的模型能在更普及的硬體上運行。NVFP4 (NVIDIA 4-bit Floating Point) 正是實現這一目標的關鍵。

透過這項技術,APMIC 帶來了:

  • 卓越的精準度: 不同於傳統的整數量化,浮點格式能精準保留 12B 模型的智慧核心,確保邏輯推理能力幾乎不受損。

  • 極致的顯存節省: 僅需 10GB–12GB 的 VRAM 即可運行。這降低了企業與開發者建立「在地化 AI 服務」的門檻,讓數據與運算不必受制於跨國巨頭。

  • 無與倫比的吞吐量: 針對現代 NVIDIA 架構(如 Blackwell 與 Hopper)進行硬體級加速,Token 生成速度提升 2 至 3 倍。

效能數據對比

指標標準 FP16ACE NVFP4 (台灣團隊優化)
顯存佔用 (VRAM)~26 GB~8.5 GB
推理速度基準速度提升 2 至 3 倍
邏輯保留率100%~99%

實作與社群引用

我們誠摯邀請全球與台灣的開發者,將這款由台灣優化的模型整合進您的 RAG 流程、AI Agent 或即時應用中。這款模型展現了在追求高效能的同時,如何兼顧技術的自主與普及。

NVFP4: APMIC/ACE-gemma-3-12b-it-nvfp4

FP8:APMIC/ACE-gemma-3-12b-it-fp8

當您引用並使用這款模型時,您不僅是在提升應用效能,更是在支持台灣在全求 AI 生態系中的貢獻。讓我們一起推動更開放、更具主權的 AI 未來!


2024年7月19日 星期五

大語言模型落地的關鍵指標




大家好我是Jerry老師,相信大家在GenAI的時代,在大量採用雲端LLM實現了不少應用之後,衡量成本將會是未來新的考量,畢竟LLM推論的每一個字都會需要算力支持,為了讓GenAI的投資有好的效益,精算雲或地的需求是必要的條件

 

所以這邊Jerry老師以一台插滿8GPU的顯卡來分享何時要選擇落地、何時要選擇雲端

 

下面的數字,是基於三個個條件

  1. 想訓練垂直語言模型,以滿足垂直領域需求(並不是把GPT4搬到地端)
  2. 然後平均輸入的Tokens大概是80~100個繁體中文字 (包含RAG)
  3.  模型採用BF16的精度(不做量化)

 

假設我們擁有一台DGX或是HGX ,上面插滿8H100顯卡,在軟體與硬體的加速後,可以獲得以下的數據

 


落地的每一個Tokens最低可以到0.00008的成本 

所以可以看到在被妥善運用的情況下,GPU吐出來的Tokens事實上比GPT4o更便宜。

但是一台DGX或是HGX都相當的昂貴,所以還是要區分一下用量,才能確定要採購哪一種硬體。

 

 所以Jerry老師幫大家彙整了,到底GPT4o要用到什麼程度,才要去買設備來降低成本。

 

  • 一天要分析25,000篇的1,000字摘要
  • 一天AI助理對話高於80,000(一次300字互動)
  • 一天翻譯用量高於50,000(一次1000)

 

我們來算算每天同事的用量,假設我們有100位同事

  1. 每一位同事平均會用250篇的摘要分析
  2. 每一位同事平均會跟AI助理對話800
  3. 每一位同事平均會翻譯用量到500


所以這邊會有個評估指標,如果大家都低於以上的平均用量,建議先採用GeminiGPT4o就可以

但如果你的用量超過這個級距,會再切分幾個等級

 

一天要分析25,000
1,000字摘要

一天要分析25,000~50,000篇的1,000字摘要

一天要分析50,000~100,000篇的1,000字摘要

2H100

4H100

8H100

會使用地端還會有幾個考量

  1. 資訊安全考量,不希望上傳公司重要的資料到雲上
  2. 雲端模型成本過高,希望可以落地推論
  3. 希望能夠地端微調模型,避免資料外洩

 

以上分享,歡迎大家私信到

jerry@ap-mic.com Jerry老師建議

謝謝

 

 

2024年4月4日 星期四

NVIDIA GTC 2024 之旅

自從加入新創鏈結計畫(Inception Program)之後,公司就一直非常的繁忙,去年確認入選NVIDIA在生成式AI這塊領域的獨立軟體供應商(Independent software vendor, ISV)之後,幾乎在台灣相關的活動都有機會參與,非常榮幸能夠加入台灣少數的軟體供應商行列,跟著NVIDIA一起成長。

當然這次GTC 2024也很榮幸成為台灣唯二新創團隊演講的團隊,在活動中對大家介紹我們的產品。

當然最辛苦的還是搭飛機,去跟回加起來要快24小時,而且不含調時差


活動中有超過900個議程,還可以線上聽,非常的有收穫。

新創團隊展區,今年我們沒擺攤,明年再來,大部分的攤位都是影像視覺、AI基礎設施比較多

連路上都有掛旗子
第一天一定要聽的就是Keynote,直接看影片感受Jensen huang的魅力吧

2024辦在 SAP Center,超過一萬多人參與,座無虛席,看起來就像演唱會




新創鏈結計畫(Inception Program)
這個如果被選上,很棒喔。

今年在這做 Startup Pitch
遇到奎景運算科技股份有限公司(Avalanche Computing Taiwan Inc.)的CEO Jay,很榮幸跟他一起是台灣唯二來分享的團隊

他也介紹一位日本朋友認識

當然有一些我上場的照片,不過真的很榮幸,能夠站在GTC這個大活動的現場,據說下面大部分都是投資人。


然後也很榮幸參加隔天的台灣晚宴活動,據說我們也是少數能夠參與的ISV軟體公司,很榮幸能夠跟著NVIDIA一起發展軟體生態圈

當然很榮幸能夠見到教主,並一起吃飯

接著隔天緊鑼密鼓被安排了許多會議,包含計畫的副總、產品、BD會議


然後一樣晚上還有晚宴在總部跟全球NV雲端NCP的公司互動



教主又再次現身,不過淹沒人群中

最後謝謝最初牽線我們公司的NV人,我們非常感謝他。
最後如果大家有興趣可以申請 Taiwan-inception-program 囉!























2023年9月20日 星期三

2023年NVIDIA總部拜訪速記

 


大家好 我是Google機器學習開發專家Jerry老師,同時也是APMIC(Asia Pacific Machine Intelligence Company)創辦人兼執行長。亞太智能機器目前是受NVIDIA的Inception Program扶植,同時也出現在NVIDIA多個個案案例中,包含Streamline Generative AI Development with NVIDIA NeMo on GPU-Accelerated Google CloudCOMPUTEX TaipeiApplications Accelerated on NVIDIA Platforms

今天很榮幸來NVIDIA位於聖塔克拉拉(Santa Clara)剛興建好的總部NVIDIA Voyager & Endeavor,一個非常壯觀的總部。感謝NVIDIA Inception Program (2023 台灣新創鏈結計畫)讓我認識了來自NVIDIA的大大,進而有這次的參觀機會



很榮幸能夠跟NVIDIA CEO的背後幕僚團隊的大大合照



站在跟老黃一樣的位置拍照
原始新聞:

很棒的地方,我在這裡學習、工作了一整個下午

更榮幸的是遇到很多VP、大大們
包含Bryan等人

NVIDIA 首席AI專家

Google GDE 與 NVIDIA Logo合影
完美的參訪結尾 Thanks