·

博亚世界杯即时比分

博亚世界杯即时比分

2026世界杯数据统计 一台手掌大小、300克的AI主机,为什么能跑122B模子?

发布日期:2026-05-26 07:03 来源:未知 作者:admin 浏览次数:

2026世界杯数据统计 一台手掌大小、300克的AI主机,为什么能跑122B模子?

“当AI原生招引成为Agent新物种主力,底层算力也正在加快重构。”

作家丨包永刚

裁剪丨林觉民

把一台能运行122B大模子的AI主机塞入口袋,需要付出什么代价?

已往泰半年,端侧AI硬件的逻辑正在发生变化。

两个月前,国内掀翻一场征象级的腹地部署Agent兴盛,大王人AI疼爱者运转“养虾”,让蓝本偏小众的Mac mini恐怕出圈,一度出现溢价和缺货。在更硬核的开发者圈子里,三四万元的DGX Spark雷同热度不低,因为它也曾大概在腹地运行千亿参数模子。

Mac mini和DGX Spark同期走红,背后其实指向的是吞并个趋势:Agent正在马上举高端侧AI硬件的门槛。

此前,40TOPS级别的AI PC,仅能完成对话、生成等轻量任务。但干与Agent时期后,开发者运转追求更大的模子、更永劫期的腹地推理,以及真耿介概承担坐褥力任务的端侧AI招引。

问题随之出现。Mac mini迷漫懒散、低功耗,却很难辅助更大的腹地模子;DGX Spark领有强悍性能,但价钱、功耗与散热,又很难确实走向民众化。大算力、低功耗与小体积之间,似乎恒久难以兼得。

Agent时期确实衰退的,不再仅仅一台更强的AIPC,而是一种大概7×24小时运行、低功耗、懒散,并具备腹地推论才略的新结尾。

一种介于AI PC与AI责任站之间的Agent Computer出现了。最近发布的梦想AI主机P7,仅300克、30W功耗的招引,领有190TOPS端侧AI算力,能在腹地运行122B参数模子。

波音(bbin)体育官方网站

01

AI 2.0时期,

需要奈何的Agent Computer?

传统AI更多如故一问一答式交互,任务收尾后,模子也随之罢手运行。但Agent不同,它需要持久在线、捏续调用模子、自主拆奉命务,并在腹地完成牵挂、推理、推论等一整套历程。

这意味着Agent招引比拼的,不再仅仅瞬时性能,而是持久牢固运行才略。

换句话说,AI 2.0时期确实需要的不是AIPC的轻佻升级版,而是一种介于AI PC与AI责任站之间的新结尾,它既要具备运行大模子的才略,又必须兼顾低功耗、静音、小体积,以及7×24小时捏续责任的牢固性。

梦想AI主机P7,恰是在AI 2.0需求下出身的Agent Computer新物种。它既尝试接近DGX Spark的大模子坐褥力才略,又保留了访佛Mac mini的低功耗与静音特质。

P7领有190TOPS异构AI算力(dNPU+SoC),其中160TOPS来其后摩漫界M50 dNPU,30TOPS来自此芯P1 SoC。整机最高支捏122B参数模子腹地部署,最高可设立80GB RAM,并支捏128K荆棘文窗口。

在无网环境下,P7腹地自主推理速率最高可达50 Tokens/s,不错已毕7×24小时勾搭推论Agent任务。

围绕Agent持久在线需求,AG真人2026世界杯中国官网P7的机身惟一手掌大小,分量约300克,致使不错径直通过充电宝供电运行。为了在小体积下已毕捏续牢固运行,P7还将整机功耗为止在30W以内,并将运行杂音压低至35分贝以下。

这意味着,梦想AI主机P7也曾运转确实具备腹地坐褥力价值。

更遑急的是,与传统PC+AI的想路不同,P7并不是在原有招引中加多AI功能,而是围绕Agent场景再行界说结尾逻辑。

举例,P7收受了一机双模联想,在智能体模式下,腹地运行天禧Claw,将复杂任务尽可能留在腹地推论;在大模子模式下,则通过开放API Key接入各样AI诈欺与智能体,径直承担腹地推理与Token生成才略。

P7的推出代表着已往惟一高功耗责任站本事承担的大模子腹地推理才略,运转有契机干与更低功耗、更低本钱的袖珍招引。

而惟一当大模子推理大概在低功耗、小体积条目下持久运行,Agent才有可能确实从少数开发者招引,渐渐走向更泛泛的消耗级与行业结尾场景。

辅助这种Agent Computer形态成立的,是P7背后一套不同于传统GPU门路的新算力决议。

02

千亿模子装入口袋之后,

算力逻辑也变了

梦想在P7立项初期就也曾明确,要作念一台能放入口袋、又能腹地运行大模子的AI主机。这意味着它的芯片必须同期得志三个险些互斥的条目:大算力、低功耗、小体积。

传统AI芯片很难同期兼顾这些需求,中枢在于数据搬运——推测单位与存储单位物理分裂,2026世界杯实时比分数据在两者之间平方流动,带来绝顶的能耗与蔓延。

AI芯片行业因此欺压探索新的架构旅途,其中一个正在被越来越多厂商探索的标的便是存算一体,存算一体让数据在存储侧就近完成推测,从而减少搬运支出,提高全体能效。

梦想采用引入存算一体架构芯片,动作P7的主要AI算力开首,也便是dNPU(Discrete NPU),它访佛于孤苦GPU的定位,领有更强的AI性能。

这颗dNPU,恰是后摩智能在2025年推出的存算一体AI芯片——后摩漫界M50。

后摩漫界M50收受存算一体架构联想,具备160TOPS物理算力,配备最高48GB内存与153.6GB/s带宽,典型功耗仅10W,能效达到传统架构芯片的5~10倍。

雷峰网了解到,M50在联想阶段就针对大模子部署进行了优化,通过SRAM与48GB LPDDR5的组合决议,在兼顾性能的同期,提高了千亿参数模子的可部署性与本钱可控性。

确实的挑战不啻于芯片,而是怎样让千亿参数模子在一台300克级别的招引上持久牢固运行。这需要梦想与后摩智能在腹地Agent系统、推理框架以及软硬件协同层面进行深度团结。

尤其是在Agent推论链路、模子退换与端侧资源处理上,梦想需要一套全新的系统才略来辅助捏续运行的AI任务。

从2025年下半年神色厚爱启动运转,梦想与后摩智能组建联贯团队,围绕硬件联想、软件适配与推理框架张开了长达十多个月的联贯攻坚,最终已毕了在后摩漫界M50上运行千亿参数大模子。

现在,P7也曾支捏千问、智谱、DeepSeek等主流模子,并可已毕新模子的Day0适配,即模子发布今日即可完成运行支捏。对于用户而言,这使得P7不再仅仅演示型招引,而是一台可持久运行Agent任务的腹地AI结尾。

从芯片到系统,再到Agent推论才略,梦想与后摩智能正在共同考证一种新的AI主机形态。

跟着端侧大模子捏续演进,这种兼顾性能、功耗与持久运行才略的Agent Computer,正在成为AI 2.0时期最具试验落地后劲的结尾标的之一。

03

Agent 波浪重构硬件规矩,

存算一体迎来推理黄金时期

AI芯片的竞争逻辑,正在发生一场静默的翻转。

已往几年,行业的中枢有诡计是峰值算力,比拼的是谁能西宾更大的模子,GPU也因此成为总共这个词AI时期的中枢基础方法。

但当AI从1.0时期的生成一次复兴走向2.0时期的持久运行、捏续推论任务的Agent形态后,芯片的评价体系运回荡化:能效比、捏续推理才略、腹地推论复杂任务的牢固性,渐渐与峰值算力同等遑急。

这一变化并不是传统AI芯片的上风场地,却为新的架构旅途绽开了窗口。

一个显着的信号来自行业巨头。英伟达重金收购初创公司 Groq 中枢技能金钱,将其 LPU (Language Processing Unit)话语处理单位用于高性能推理场景。后摩智能与Groq王人是存算一体技能门路,王人是基于SRAM联想家具,减少数据搬运、提高推理能效,仅仅家具叫法不同。

后摩智能在成立之初就专注于存算一体技能的研发与产业化,2024年推出针对大模子推理优化的后摩漫界M30,支捏运行60亿参数模子,并得到了中国出动等客户。

现在,基于后摩漫界M50,后摩智能也曾搭建起M.2卡、DM.2卡、Pcie卡,最高 640TOPS 算力的完满家具矩阵,并完成了从技能原型到畛域化商用的环节超越。如今后摩漫界M50已全面落地梦想AI主机P7、 AI PC、桌面机器东谈主、Agent Box、智能语音结尾、AI 网关等多元端边场景。

后摩智能也在研发下一代芯片,方针是进一步提高能效比与大模子推理才略,以适配畴昔更复杂的Agent时期。

这是一个记号性的转机点,GPU 界说了大模子西宾时期,而 Agent 的全面爆发,正将算力竞争从云表西宾中心,推向海量的端侧、旯旮推理节点。在这场算力步地搬动中,以存算一体为代表的 AI 原生架构,不再仅仅 GPU 的补充或替代,更在渐渐树立端侧 Agent 时期的全新硬件标准。

跟着Agent运转向更多腹地招引浸透,行业对于低功耗、高能效端边推理芯片的需求也会捏续加多。

畴昔,围绕端侧大模子推理,还会出现更多新的芯片形态与架构门路。

在这场Agent驱动的AI硬件范式切换中,AI原生的芯片成为竞争的环节,像后摩智能这么领先完成存算一体交易化落地的公司,正在干与更大的增长通谈。

更多对于推理时期算力需求的深度考虑接待添加作家微信BENSONEIT。