2026年3月24日 星期二

Pushing the Limits of Gemma 3: Introducing ACE-Gemma-3-12B-IT-NVFP4

 



🚀 Pushing the Limits of Gemma 3: Introducing ACE-Gemma-3-12B-IT-NVFP4

Empowering Global Efficiency with Taiwan’s Technological Sovereignty

The Evolution of Open Models and Digital Sovereignty

With the release of Google’s Gemma 3, the AI community has gained a powerful foundation for multimodal reasoning. However, true Technological Sovereignty comes not just from using global models, but from the ability to optimize, adapt, and deploy them independently.

Hailing from Taiwan, the APMIC team is committed to strengthening this sovereignty. We are proud to release ACE-gemma-3-12b-it-nvfp4—a high-performance, optimized version of Gemma 3 that demonstrates how Taiwan’s AI expertise can provide the world with more efficient, accessible, and independent AI solutions.

Why NVFP4? The Technical Edge

To reduce reliance on massive, high-cost computing clusters, we must make powerful models runnable on more accessible hardware. NVFP4 (NVIDIA 4-bit Floating Point) is the key.

By leveraging this technology, APMIC provides:

  • Superior Precision: Unlike standard integer quantization, the floating-point format preserves the core intelligence of the 12B model, ensuring logic remains intact.

  • Extreme VRAM Savings: Run this powerhouse on hardware with as little as 10GB–12GB of VRAM. This lowers the barrier for local businesses and developers to maintain their own AI services.

  • Unmatched Throughput: Native hardware acceleration for modern NVIDIA architectures (Blackwell/Hopper), resulting in 2x-3x faster token generation.

Performance Benchmark

MetricStandard FP16ACE NVFP4 (Optimized in Taiwan)
VRAM Consumption~26 GB~8.5 GB
Inference SpeedBaseline2x - 3x Faster
Logic Retention100%~99%

Implementation & Community Citation

We invite the global Gemma community to experience this Taiwanese-optimized model. Whether you are building RAG pipelines or autonomous agents, this model offers the performance needed for the next generation of AI.

NVFP4: APMIC/ACE-gemma-3-12b-it-nvfp4

FP8:APMIC/ACE-gemma-3-12b-it-fp8

By citing and using this model, you are supporting Taiwan’s contribution to the global AI ecosystem and the push for a more decentralized, sovereign AI future.


🚀 挑戰 Gemma 3 的極限:ACE-Gemma-3-12B-IT-NVFP4 正式發佈

以台灣技術實力,實踐全球數位主權

開源模型的演進與數位主權的守護

隨著 Google Gemma 3 的問世,AI 社群在多模態推理能力上取得了重大飛躍。然而,真正的**「數位主權(Digital Sovereignty)」**不僅在於使用全球性的模型,更在於我們是否有能力針對在地需求進行優化、適配並獨立部署。

來自台灣的 APMIC 團隊 致力於強化這份技術自主權。我們非常自豪地宣布推出 ACE-gemma-3-12b-it-nvfp4。這不僅是 Gemma 3 的優化版本,更是台灣 AI 技術力的展現——我們致力於為全球提供更高效、更易取得且具備自主性的 AI 解決方案。

為什麼選擇 NVFP4?關鍵技術優勢

為了減少對大規模、高成本運算集群的依賴,我們必須讓強大的模型能在更普及的硬體上運行。NVFP4 (NVIDIA 4-bit Floating Point) 正是實現這一目標的關鍵。

透過這項技術,APMIC 帶來了:

  • 卓越的精準度: 不同於傳統的整數量化,浮點格式能精準保留 12B 模型的智慧核心,確保邏輯推理能力幾乎不受損。

  • 極致的顯存節省: 僅需 10GB–12GB 的 VRAM 即可運行。這降低了企業與開發者建立「在地化 AI 服務」的門檻,讓數據與運算不必受制於跨國巨頭。

  • 無與倫比的吞吐量: 針對現代 NVIDIA 架構(如 Blackwell 與 Hopper)進行硬體級加速,Token 生成速度提升 2 至 3 倍。

效能數據對比

指標標準 FP16ACE NVFP4 (台灣團隊優化)
顯存佔用 (VRAM)~26 GB~8.5 GB
推理速度基準速度提升 2 至 3 倍
邏輯保留率100%~99%

實作與社群引用

我們誠摯邀請全球與台灣的開發者,將這款由台灣優化的模型整合進您的 RAG 流程、AI Agent 或即時應用中。這款模型展現了在追求高效能的同時,如何兼顧技術的自主與普及。

NVFP4: APMIC/ACE-gemma-3-12b-it-nvfp4

FP8:APMIC/ACE-gemma-3-12b-it-fp8

當您引用並使用這款模型時,您不僅是在提升應用效能,更是在支持台灣在全求 AI 生態系中的貢獻。讓我們一起推動更開放、更具主權的 AI 未來!


2026年1月11日 星期日

The "Soul of Taiwan" Defending Digital Frontiers: A Deep Dive into the T1 Series — A Google Gemma 3 Localized Model for Taiwan




In an era of rapid AI evolution, Taiwan is demonstrating its prowess in R&D and deep cultural heritage to announce to the world: we are not just manufacturers of chips; we are the architects of Digital Sovereignty. Today, we officially introduce a model born for Taiwan and infused with a local soul: twinkle-ai/gemma-3-4B-T1-it.

Why Does Taiwan Need "Sovereign AI"?

Sovereign AI refers to a nation’s ability to leverage its own computing resources, data, and talent to develop AI systems that align with its specific values, language, and culture. Taiwan possesses a unique Traditional Chinese linguistic context, diverse democratic values, and world-leading semiconductor capabilities. We cannot rely solely on "black-box" closed-source models. We require a transparent, efficient, and highly localized technical foundation.

The path toward full sovereignty follows a strategic progression:

Sovereign AI → Industrial Sovereignty → Enterprise Sovereignty

We have chosen the community-driven 4B parameter size as our new starting point. This is not merely a small-scale model; it is a sophisticated and powerful cornerstone in the blueprint of Taiwan’s Sovereign AI development.


I. Why "T1"? Language as the Frontier of Culture

As global models are predominantly trained on Simplified Chinese or linguistic patterns from China, Taiwan’s cultural context faces the threat of "digital colonization." The T1 series (standing for "Taiwan No. 1" and a homophone for "Taiwan") released by the Twinkle AI team was created specifically to bridge this gap.

Based on Google’s latest Gemma 3-4B architecture, the T1-it model distinguishes itself through the deep integration of humanistic and social contexts. It does more than translate "subway" to "MRT"; it understands Taiwan’s legal system, government document formats, and even captures local slang (such as "很盤" or "超派") and meme culture. This is the essence of Sovereign AI: enabling AI to speak the language of the Taiwanese people and understand the heart of Taiwan.


II. Three Technical Pillars of Gemma-3-4B-T1-it

As a pioneer of Taiwan’s Sovereign AI, Gemma-3-4B-T1-it demonstrates technical excellence in three key areas:

1. Deep Localization and Cultural Alignment

Most open-source models struggle with Taiwanese law or general social knowledge, often hallucinating or misapplying foreign concepts. The T1 model has undergone enhanced training on Taiwanese legal statutes and academic materials. In TMMLU+ and Taiwan Law Benchmarks, its performance significantly exceeds the native Google model and even outperforms many models with much larger parameter counts. It is poised to be the premier assistant for Taiwanese legal practice and educational support.

2. Robust AI Agent Potential: Optimized Function Calling

Digital transformation for Taiwanese enterprises requires AI that can "take action." The T1 model features specifically enhanced Function Calling capabilities. It accurately identifies when to call external APIs—such as querying real-time weather, searching Taiwan stock info, or interfacing with internal ERP systems—and returns results via stable, structured JSON output. This allows developers to build "AI Agents" tailored to Taiwanese business logic with an extremely low barrier to entry.

3. Lightweight Deployment: Keeping Data On-Island

For Sovereign AI, security is non-negotiable. With 4B parameters, this model can be easily deployed on local servers in Taiwan or even on standard laptops. This ensures that government agencies, healthcare systems, and sensitive industries can execute tasks in completely air-gapped or internal network environments, ensuring that sensitive data remains on Taiwanese soil.


III. Benchmarks: Performance That Speaks for Itself

According to evaluation data provided by Twinkle AI, gemma-3-4B-T1-it demonstrates formidable competitiveness in Taiwan-centric tasks:

  • TMMLU+ (Taiwan Local Encyclopedic Knowledge): Achieved 47.44%, far surpassing the original Gemma 3’s 35.12%.

  • Taiwan Law Benchmark: Led its peer group with an accuracy rate of 44.18%.

  • Function Calling Accuracy: Exhibits high stability in AST parsing, making it the preferred foundation for Agent development.


IV. Conclusion: Defining Our Own AI

The emergence of gemma-3-4B-T1-it symbolizes Taiwan’s success in the "small-scale, high-performance, high-localization" model pathway. It combines the advanced architecture of Google Gemma 3 with the collective intelligence of Taiwanese developers.

We develop Sovereign AI not to isolate ourselves, but to carve out Taiwan’s profile on the global map of artificial intelligence. By possessing a model that understands our historical context, legal norms, and daily life, we safeguard Taiwan's digital territory.

Join us in using T1 to breathe a local soul into Taiwan’s AI ecosystem!


Model Development Team: Liang Hsun Huang, Min Yi Chen, Wen Bin Lin & Dave Sung

Supporting Organizations: APMIC, GDE Jerry Wu

Model URL: https://huggingface.co/twinkle-ai/gemma-3-4B-T1-it


在 AI 技術日新月異的今天,台灣正以傲人的研發能量與深厚的文化底蘊,向世界宣告:我們不僅是晶片的製造者,更是**「數位主權」**的定義者。今天,我們要正式介紹這款為台灣而生、注入在地靈魂的模型:twinkle-ai/gemma-3-4B-T1-it

為什麼台灣需要「主權 AI」?

所謂的**「主權 AI」(Sovereign AI)**,是指一個國家能夠利用自主的運算資源、數據與人才,開發出符合自身價值觀、語言與文化的 AI 系統。台灣擁有獨特的繁體中文語境、多元的民主價值,以及傲視全球的半導體實力。我們不能完全仰賴封閉式的「黑盒模型」,我們需要的是透明、高效且可在地化的技術底座。

而在主權模型的發展上,我們遵循以下循序漸進的戰略路線:

主權 AI → 產業主權 → 企業主權

我們選擇與社群開源 4B 的參數規模作為新的起始點。這不僅僅是一個小型模型,它是台灣主權 AI 發展藍圖中,一塊精緻且強大的基石。


一、 為什麼是「T1」?—— 語言是文化的防線

當全球模型多以簡體中文或中國用語為訓練基底時,台灣的文化語境正遭受「數位殖民」的威脅。Twinkle AI 團隊推出的 T1 系列(意指 Taiwan No.1,亦為 Taiwan 的諧音),正是為了打破這種隔閡。

這款基於 Google 最新 Gemma 3-4B 架構微調的模型,與原版最大的不同在於其「人文社會脈絡」的深度融合。它不只是將「地鐵」翻譯成「捷運」,它更深諳台灣的法律體系、政府公文格式,甚至能精準捕捉台灣特有的流行語(如「很盤」、「超派」)與迷因文化。這就是主權 AI 的真諦:讓 AI 說台灣人的話,懂台灣人的心。


二、 Gemma 3-4B-T1-it 的三大技術核心

作為台灣主權 AI 的先鋒,Gemma-3-4B-T1-it 在技術上展現了以下亮點:

1. 深度在地化與人文對齊 (Cultural Alignment)

大多數開源模型在面對台灣法律或社會常識時常會「張冠李戴」。T1 模型針對台灣法律條文、學術教材進行了強化訓練。在 TMMLU+ 與 台灣法律評測 中,它的表現大幅超越了 Google 原生模型,甚至優於許多參數規模更大的模型。這代表它能成為台灣法律實務、教育輔助的最佳助手。

2. 強大的 AI Agent 潛力:Function Calling 優化

台灣的企業轉型需要的是能「動手做事」的 AI。T1 模型特別強化了 函式呼叫(Function Calling) 能力。它能精準識別何時需要呼叫外部 API(如查詢即時天氣、搜尋台股資訊、串接企業內部 ERP),並以穩定的結構化輸出(JSON)回報結果。這讓開發者能以極低的門檻,打造出符合台灣商務邏輯的「AI 代理人」。

3. 輕量化部署,數據不出島

身為主權 AI,安全性是不可妥協的。4B 的參數規模,讓這款模型能輕鬆部署在台灣本地的伺服器、甚至是一般的筆電裝置上。這意味著政府機關、醫療體系或機敏產業,可以在完全斷網或內網環境下執行任務,確保敏感數據留在台灣這片土地上。


三、 評測數據:用實力說話

根據 Twinkle AI 提供的評測數據,gemma-3-4B-T1-it 在台灣本土任務中展現了驚人的競爭力:

  • TMMLU+ (台灣本土百科知識): 達到 47.44%,遠超原版 Gemma 3 的 35.12%。

  • 台灣法律評測: 以 44.18% 的正確率大幅領先同儕。

  • Function Calling 正確率: 在 AST 解析上具備極高穩定性,是開發 Agent 的首選底層。


四、 結語:自己的 AI,自己定義

gemma-3-4B-T1-it 的出現,象徵著台灣在「小規模、高性能、高在地化」模型路徑上的成功。它結合了 Google Gemma 3 的先進架構與台灣在地開發者的智慧。

我們發展主權 AI,不是為了閉門造車,而是為了在 AI 的世界版圖中,刻畫出屬於台灣的輪廓。當我們擁有了能理解台灣歷史脈絡、法律規範與生活點滴的模型時,我們便守護了屬於台灣的數位國土。

現在,就讓我們一起使用 T1,為台灣的 AI 生態系注入口靈魂!


2024年8月11日 星期日

Google I/O Connect 2024 速記

 


大家好我是Jerry老師,週一要上班了,趕快來把上週在Google I/O Connect 2024 的經驗做個分享,疫情後連續兩年參加Google I/O 的活動,之前在上海,今年在北京。晚上的晚宴很有趣,這次有東南亞的社群朋友,很熱鬧,中、英交叉主持。

 

大中華的主管們分享


有趣的問題,大家猜到了嗎

 

全球生態圈的大老闆分享


今年辦在北京國家會議中心(China National Convention Center)

今年換穿白色制服的Google開發者,可以直接入場

 


入口報到

 

從另一個角度拍攝,大家魚貫上手扶梯

一樣看起來很酷炫的Keynote開場,滿滿的人

一如往常Google介紹貢獻,有個編譯夢想的計畫,很特別

透過AI創造很多應用的計畫

各項培育計畫

 

GenAI的個人化應用種類

 

完整的生態圈


 

Chrome也有 AI計畫
基本上 Google生態圈的產品,都已經開始支援Gemini做各種不同的應用
相當期待

Google的公益也做了不少

聽障的公益

現場手語辨識

 


 


可以提足球,透過AI評分

 




Google也是要跟NVIDIA一起串一下,這邊提的是Gemma支援NIMs

Google重視的負責任AI

這邊的RGAI很完整

 

VertexAI開發的環境

以前的TensorFlow JS現在改為為Web AI 

現在也支持LLM

 

去年就有介紹的Visual Blocks 今年功能更強大了。

 

支援幾個常見的LLM模型

 

這個真的滿重要的,因為現在LLM可以讀超過我們人類讀的速度

 

在Web上做推論

 


中間還有特色禮品跟飲品




這個概念很不錯,看起來就是透過Google技術把最後一哩路走完

 


PaliGemma是一個可以做圖文的雙模態

這的確是Google的夢想,也是Jerry老師的夢想,只有這樣這個世界才會透過科技更強大

Google Cloud分享最新動態

事實上也是繞著GenAI主題在討論


 


透過生成式AI評分,相當有趣的應用,因為Gemini已經可以多模態,

所以他透過影片來進行分析。

透過這張圖來解釋 嵌入的關係


Firebase上的應用


Android上的應用


11:00的時候代表台灣進入閉門會議,很特別的經驗。


這個要講出RAG的梗,因為資料不夠,導致幻覺


示範了透過對話的方式針對Ray這份文件做互動


RayK8S的整合應用


KubeRay的概念很棒



這個是三星的案例,透過Ray來進行機器學習服務

 

接下來是Jerry老師覺得最棒的一個收穫,是關於RAG應用,
當然活動中有不少介紹RAG的場次,但這場介紹的最好

何謂RAG

RAG範例

RAG的優勢

RAG搜尋

文字與圖片進行Chunking

多模態的混合

Google採用到目前為止最好的維度搜尋技術ScaNN

在Google Cloud上的引擎

混合搜尋,這塊也是近年大家的新作法

客製化RAG應用

智能分塊的概念也值得參考

的確是能強化RAG的做法之一

這個做法在開源也有類似的參考

捕捉真實答案的方法

接地氣的範例

這是 Uber的案例,比較像是搜尋+對話生成的方式

Uber的架構範例

Uber的架構範例


用多模態來讀論文(這種也是跟過去只讀文字是不同的)

範例流程

範例都在這裡


總結一下這次的心得,Google短短不到一年,

將所有產品圍繞Gemini + RAG,很期待接下來在整個生態的應用展開。

歡迎寫信給 jerry@ap-mic.com交流