當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

硅谷人工智能公司Nexa AI發(fā)布端側(cè)AI部署新思路

 2025-12-15 16:19  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領(lǐng)券再下單

2025年,是AI硬件的全面爆發(fā)之年:AI手機(jī)、AIPC、AI陪伴、AI眼鏡、AI智慧座艙……然而,云端大模型主導(dǎo)的AI硬件正在顯露隱憂:高昂的 API 調(diào)用成本讓中小企業(yè)望而卻步,隱私數(shù)據(jù)上傳云端的安全風(fēng)險如影隨形,網(wǎng)絡(luò)延遲與垂域適配不足更是制約著端側(cè)的場景創(chuàng)新

開源端側(cè)小模型崛起正在改寫游戲規(guī)則:英偉達(dá)也在論文《Small Language Models are the Future of Agentic AI》宣告:小模型才是Agentic AI的未來。

1. 部署難、表現(xiàn)差?端側(cè)AI發(fā)展仍面臨痛點

當(dāng)開發(fā)者們摩拳擦掌,想要用先進(jìn)小模型打造創(chuàng)新應(yīng)用時,現(xiàn)實又澆了一盆冷水:

部署門檻高:端側(cè)平臺的推理框架并不像云端那樣容易適配:工具鏈有CUDA、 QNN、ANE、ROCm、Openvino, openCL, metal, vulkan等等五花八門……耗費數(shù)月踩坑仍難跑通最新模型;

性能表現(xiàn)差:即使順利通過部署,由于推理引擎適配不當(dāng)導(dǎo)致精度下降、輸出緩慢、能耗飆升,讓端側(cè)應(yīng)用體驗大打折扣

跨平臺噩夢:不同硬件(PC,手機(jī),車機(jī),IoT)、芯片(高通、Intel、AMD、蘋果)間的適配壁壘,讓跨設(shè)備應(yīng)用開發(fā)重復(fù) “踩坑”,效率極低。例如可以在高通PC上運行的多模態(tài)模型無法自動移植到高通車載端。

最新的模型支持差:NPU上普遍只能跑1年以前發(fā)布的模型,無法使用最新的模型(如Mistral3, Qwen3-VL),模型需要等待非常久的時間才能得到支持。

2. 端側(cè)AI部署的新思路

最近美國硅谷明星端側(cè)AI Startup Nexa AI公司在github上發(fā)布的Nexa SDK,為全球開發(fā)者帶來了破局新思路。這個項目致力于解決長期存在于端側(cè)模型部署中的共性問題,讓 AI 模型在手機(jī)、PC、汽車、IoT 等邊緣設(shè)備上的落地變得前所未有的簡單。

github可搜索:nexa-sdk  (如果認(rèn)為對您工作有幫助,歡迎為開源作者star)

Nexa SDK 構(gòu)建了4大核心優(yōu)勢,解決端側(cè) AI 部署的核心痛點:

跨平臺統(tǒng)一推理框架:NexaSDK 由 NexaML 引擎提供支持,該引擎是從芯片Kernel層打造的跨硬件平臺統(tǒng)一推理引擎(支持電腦,手機(jī),車,IoT,機(jī)器人,以及AR眼鏡等設(shè)備),并支持三種端側(cè)模型格式:GGUF 格式、MLX 格式以及 Nexa AI 自主研發(fā)的 .nexa 格式。

NPU, GPU, CPU深度適配:NexaSDK 可在多種算力平臺的NPU、GPU、CPU上本地運行各類人工智能模型 —— 它不僅使用簡單、靈活性高,而且性能佳。特別是支持各大算力平臺的NPU芯片(覆蓋高通Hexagon NPU, 蘋果NPU,AMD Ryzen AI NPU,以及Intel NPU),充分利用NPU性能,可以解決過往端側(cè)模型在CPU/GPU上運行帶來的輸出速度慢、能耗高的問題,能效比是CPU和GPU的9倍以上。

任意多模態(tài)模型Day-0支持:面對快速更新的開源模型市場,Nexa SDK能夠做到在新模型推出的第一時間適配各個硬件后端(NPU, GPU, CPU),并且支持多種模態(tài) Vision, Text, Audio, 以及 CV模型;

低代碼極致易用:使用一行代碼即可調(diào)用本地模型,OpenAI API 兼容設(shè)計讓開發(fā)者無縫銜接代碼,大大降低了端側(cè)AI的應(yīng)用門檻。

Nexa SDK與其他端側(cè)SDK的比較優(yōu)勢:

NEXA SDK一經(jīng)發(fā)布也獲得了包括AMD/高通的諸多行業(yè)認(rèn)可:

3. 快速上手:快速解鎖端側(cè)AI能力

根據(jù)使用方式和平臺,Nexa SDK提供不同的工具包:

Nexa CLI:可在MacOS/Windows/Linux 使用命令行終端速測試模型及運行本地服務(wù)器;同時支持在Linux 系統(tǒng)的容器化環(huán)境中運行 AI 模型;

Nexa SDK Python開發(fā)工具:可在MacOS/Windows/Linux平臺使用Python完整運行SDK

Nexa SDK Android/iOS開發(fā)工具: 支持在移動端設(shè)備跨NPU/GPU/CPU推理的安卓/iOS開發(fā)工具包

Nexa SDK實現(xiàn)了全平臺支持,全球首次統(tǒng)一支持蘋果NPU、Intel NPU、AMD NPU、高通 NPU 等4類NPU推理加速芯片,讓端側(cè)模型邊緣推理擁有了更廣泛的實現(xiàn)和應(yīng)用場景。

3.1 Nexa SDK CLI快速體驗

下載路徑:

可以從Nexa AI官網(wǎng)或者github nexa-sdk項目下載Nexa CLI。

一行代碼運行模型

Nexa SDK支持LLM、多模態(tài)、音頻(ASR\TTS)、CV、生圖等多種端側(cè)模型。例如:

多模態(tài)模型

NexaSDK在Qwen3VL發(fā)布當(dāng)天 Day-0跨平臺支持,領(lǐng)先 llama.cpp/ollama 三周,并得到Qwen官方認(rèn)可

車載多模態(tài)模型(適配高通SA8295P芯片NPU)

相比于其他框架,NexaSDK對于新模型的支持速度還是非常迅速,可以訪問Nexa AI官網(wǎng)和Nexa AI huggingface官方模型倉庫查看使用更多精選的模型。

目前Nexa CLI支持 MacOS、Windows、Linux(并支持Docker運行),同時提供Python API, IOS Swift API、Android Kotlin/JAVA API開發(fā)工具包。

兼容OpenAI API

NEXA CLI還提供 OpenAI 兼容的 REST API ,一行命令即可訪問服務(wù)接口,無縫覆蓋對話生成、文本嵌入、文檔重排序、圖像生成等核心場景,滿足多樣化開發(fā)需求。

/v1/chat/completions - 用于 LLM 和 VLM 的對話生成

/v1/embeddings - 為文本生成向量嵌入

/v1/reranking - 根據(jù)查詢相關(guān)性對文檔重新排序

/v1/images/generations - 根據(jù)提示生成圖像

更多命令可以查看官方文檔

3.2 Nexa SDK Python 開發(fā)工具包

Nexa SDK Python工具包,適配 MacOS、Windows、Linux等全平臺優(yōu)化后端,無論是本地開發(fā)還是企業(yè)級應(yīng)用,都能使用Python更高效落地??梢允褂肞ython API一鍵運行LLM、VLM、OCR、ASR、TTS、圖像生成、說話人分離、鍵值緩存、采樣配置、對話模板以及錯誤處理等。

3.3 Nexa SDK Android/iOS開發(fā)工具包

下載地址:

Nexa SDK Android工具包:可直接從 Maven 中央倉庫獲取,或訪問github nexa-sdk項目

Nexa SDK iOS工具包可以從github nexasdk-mobile-iOS-framework項目獲取。

Android 設(shè)備上支持直接運行的包括LLM、VLM、Embedding模型、OCR模型、CV模型、ASR模型、rerank模型以及生圖模型,且支持通過 NPU、GPU和 CPU進(jìn)行推理。通過 Kotlin/Java API 輕松集成,性能提升 2 倍,能效比優(yōu)化 9 倍,重塑移動智能體驗。

使用簡潔的 Swift API,開發(fā)者可在 iOS/macOS 設(shè)備上直接運行LLM、VLM、Embedding模型、ASR模型以及rerank模型。目前,ASR模型與Embedding模型已支持 蘋果神經(jīng)網(wǎng)絡(luò)引擎(ANE)加速,其他模型則基于圖形處理器(GPU)與中央處理器(CPU)運行,同時可以達(dá)到性能提升 2 倍,能效比優(yōu)化 9 倍的驚艷體驗。

4. 為開發(fā)者帶來絲滑體驗:創(chuàng)意無需妥協(xié)

一行命令跑通:nexa infer 極簡操作,告別復(fù)雜配置;

OpenAI API 無縫兼容 :現(xiàn)有代碼零修改,直接遷移端側(cè)運行;

95% NPU 利用率:性能優(yōu)于 Qualcomm GENIE,極致發(fā)揮硬件潛力;

首發(fā)支持前沿模型: Qwen3、Granite、Liquid、Gemma 3n、Parakeet等最新模型快速適配;

結(jié)構(gòu)化輸出 :天然適配 AI Agent 工作流,加速應(yīng)用創(chuàng)新;

持續(xù)更新的前沿端側(cè)模型庫:Nexa Model Hub不斷擴(kuò)充,讓最先進(jìn)端側(cè)小模型觸手可及。

5. 結(jié)束語:從個人到產(chǎn)業(yè) —— 端側(cè)AI想象力不再設(shè)限

當(dāng)部署不再是難題,當(dāng)性能不再妥協(xié),端側(cè) AI 的革命,正在每一個場景悄然發(fā)生:

手機(jī):離線助手,日程提醒、生活助理……

PC:文件管理、個人知識庫構(gòu)建、Agent協(xié)作……

汽車:車內(nèi) AI 助手,實時路況提醒,安全監(jiān)測……

IoT & 機(jī)器人:工廠巡檢、缺陷檢測……

端側(cè) AI 的低成本、高隱私、低延遲特性,正在重構(gòu)產(chǎn)品形態(tài),催生全新商業(yè)模式。

希望今天分享的Nexa SDK能讓每一位熱愛端側(cè)AI的人都能參與到端側(cè) AI 的浪潮中,無需復(fù)雜的工具鏈,消解沉重的技術(shù)壁壘,賦能每一位開發(fā)者,解鎖端側(cè)AI落地的無限可能!

github項目:nexa-sdk (如果認(rèn)為對您工作有幫助,歡迎為開源作者star)

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
Nexa

相關(guān)文章

熱門排行

信息推薦