您现在的位置是：首页 > 芯片芯片

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界

cc博主2024-02-09【芯片】259人已围观

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第1张

作者｜包永刚

编辑｜王川

年初在手机上用AI生成一张图还需要15秒，半年多后的今天只需要0.6秒，0.6秒大概就是点击一下鼠标点时间，数码发烧友瑞泽被手机AI进化的速度吓到。

让瑞泽同样吃惊的是，10月底发布的AI PC处理器骁龙X Elite，能够以30 tokens/s的速度运行70亿参数的生成式AI模型。

这比普通人每分钟阅读200-300个单词，也就是每秒处理5-7个tokens的速度，快了好几倍，就算问AI PC数字助理一个复杂答案，马上就能得到答案。

触手可及的智能手机和AI PC，已经成为了进入AI世界的任意门。

走进终端AI的任意门里，用一张自拍照，无需等待就能生成超乎想象的照片；让手机“看”几秒食物，就能知道是否还能食用；对着贴身数字管家说出旅行的要求，瞬间就能获得专门定制的旅行计划。

“生成式AI在终端上的应用呈几何式增长，一年前我们只能看到一两个用例，现在有数百个，预计到2024年我们将会看到上千个用例，骁龙将会发挥非常核心的作用。”高通公司总裁兼CEO安蒙说，“我们见证了下一个转型的开始，AI将无处不在。”

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第2张

每一次重大技术革命的背后，都需要底层强大的计算和连接力作支撑，高通会成为这场AI变革的主角，让端侧AI像电力一样全面融入普通人的生活。

能跑百亿参数大模型，手机变身进入AI世界的「任意门」

瑞泽最常用的手机AI功能是拍照，他没料到，最新旗舰级第三代骁龙8具备运行100亿参数的生成式AI模型的能力后，不仅能将前后摄像头的画面实时合成在一起，将视频中多余的人或物体去除，大幅增强夜景视频效果，还带来了超越想象的全新功能。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第3张

“照片扩展”就是一个让人眼前一亮的新功能，用户使用任意照片进行缩放，生成式AI都能让照片看起来具有广角的效果。比如用一朵花的照片，缩放后马上就能会变成一片花海的照片。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第4张

端侧生成式AI还有更多用法，如果用在工作中，一个电话会议结束之后，马上就能获得通话中聊到的重要事项并添加待办事项；如果想去一个目的地，手机可以基于你所在的位置给出最符合你出行习惯的路线规划；如果你想开始徒步，简单输入个人信息，再扫描一下皮肤状态，就会有私教般的运动训练建议。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第5张

这些任务都是在手机端完成，完全不用担心隐私问题，也不用付月费，高通和合作伙伴就像是打开了生成式AI世界的任意门。

如此让人眼前一亮的端侧AI应用的实现并非一蹴而就，在AI领域投入超过10年的高通，2015年首次将AI技术集成到商用的产品用，用于增强音频技术，此后逐步将AI应用到了影像和视频技术中。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第6张

三年前高通启动第三代骁龙8开发时，终端智能就被放在了首位，这也是为什么第三代骁龙8一发布，手机端AI大模型文字生成图片的速度就能从15秒速降到0.6秒。

“0.6秒的运行时间带来一个优势，可以将这一模型嵌入相机应用。”高通技术公司产品管理高级副总裁Ziad Asghar对雷峰网表示，“消费者通常希望拍摄之间最多间隔1-2秒，如果运行一次模型需要15秒，将无法使用。”

第三代骁龙8如何实现数量级的AI性能提升？

强大的硬件是基础，第三代骁龙8的CPU性能相比前代提升高达30%，GPU性能提升25%，Hexagon NPU性能直接翻倍，第三代骁龙8的AI性能站在了行业之巅。

“通过改进架构，提高向量加速器主频、升级独特的微切片推理技术等方式，来加速Transformer网络推理。”高通技术公司产品管理总监Lekha Motiwala介绍，第三代骁龙8支持业内最新的LPDDR5-x内存，频率达到4.8GHz，通过更快的数据速度和更大带宽支持用户运行更大、更复杂的AI模型。

要让第三代骁龙8能够以每秒生成20个token的速度运行大语言模型（如Llama2），还需要升级高通AI软件栈工具。

“我们先将庞大的AI模型量化到INT4，实现了性能、精度和能效间的绝佳平衡。再充分发挥业界最快DDR内存的优势，凭借77GB/s吞吐量来支持LLM，以惊人的速度运行量化模型。”Ziad Asghar说，“Hexagon NPU能够以闪电般的速度支持LVM。我们采用了一个100亿参数模型，并使用了蒸馏等先进技术和高效的UNET模型，大大加快了扩散过程，达到了0.6秒这个如此惊人的速度。”

Ziad Asghar透露，SnapFusion支持Snap以同样快的速度生成图像，而不会牺牲图像质量。SnapFusion将在2024年支持Snapchat Dreams功能，支持用户生成超乎想象的自拍图片。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第7张

要激发基于第三代骁龙8平台的端侧AI创新，少不了高通AI软件栈的优化。

高通AI软件栈的核心是高通神经网络处理SDK和高通AI引擎Direct，连接芯片与所有主流AI框架，高通利用托管模型，开发者可以直接使用TensorFlow、ONNX、PyTorch，轻松访问Hexagon NPU，这将大幅降低基于第三代骁龙8移动平台进行AI创新的门槛。

除了AI图像生成，聊天机器人也是生成式AI世界的另一类重要应用。

为了让能够实现聊天机器人功能的大模型在终端上流畅运行，高通使用了推测性解码的技术。“我非常兴奋地宣布，这是预测解码首次在边缘终端中使用。”Ziad Asghar说。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第8张

如果要为聊天机器人加上一个虚拟形象，可以利用高通AI引擎中Adreno GPU强大的渲染能力，渲染出嘴形和声音同步的AI虚拟形象。

出色的AI体验还不能仅靠单一的输入或输出形式，视觉、文本、语音的结合更为直观，这就是多模态AI。

第三代骁龙8支持多模态AI，还能充分利用用户手机上的全部数据，利用LoRA等端侧学习技术，可以在保障用户数据隐私的同时，让终端侧的AI模型变好的同时更加个性化。

比如，询问AI助理回家的最佳路线或推荐的餐厅时，云端AI方案给出的回复是通用答案。而基于第三代骁龙8的AI终端，发挥高通传感器中枢与终端侧大语言模型持续协作，能够基于用户的年龄、最喜欢的活动、当前位置等个人信息生成定制化回复。

以搭载第三代骁龙8手机为代表的终端侧AI，性能足，节省成本和时间，并且更加隐私和安全、还能提升个性化，是触手可及的AI世界任意门。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第9张

同样触手可及的PC也会是进入AI世界的任意门吗？

AI性能6年提升100倍，AI PC提高效率又激发创意

AI PC才是进入AI世界的另一个任意门。

“回顾行业历史，仅有两项其他技术像如今的AI一样具有颠覆性。二十世纪六七十年代，命令行的盛行使得个人电脑的广泛使用成为可能。二十世纪九十年代，图形用户界面让普通用户能够轻松、容易地使用PC。”惠普公司高级总监Bobby Moore 在2023骁龙峰会上说，“AI正推动PC计算变革，使其变得更加个性化、更加自然、更加直观。”

高通技术公司高级副总裁兼手机、计算和XR业务总经理阿力克斯·卡图赞（Alex Katouzian）也表示，“目前，我们在衡量PC性能方面处于转折点，虽然CPU和GPU依旧至关重要，但同时我们引入了第三个衡量维度：终端侧AI。”

过去很长一段时间，普通消费者选择笔记本电脑的时候很难兼顾轻薄外形和高性能，骁龙X Elite的发布，让笔记本电脑实现了轻薄外形下的超高性能和超高能效，特别是强大的AI功能。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第10张

骁龙X Elite搭载的高通自研Oryon CPU，相比苹果M2 Max，实现相同单线程性能，Oryon CPU能耗减少30%。对比专门为高性能游戏终端设计的i9-13980HX CPU，Oyron实现相同性能功耗降低70%，成为了PC移动处理器领域性能和能效的新标杆。

GPU性能也艳压群雄，与性能领先的x86集成GPU相比，骁龙X Elite的性能领先高达80%，达到竞品的最高性能功耗可以降低80%。

作为专为AI PC而生的处理器，骁龙X Elite的AI性能更加惊艳，Hexagon NPU算力可以达到45 TOPS，是竞品近期发布NPU的4倍。包含CPU、GPU和NPU在内的整个高通AI引擎，可以让骁龙X Elite的AI性能达到75TOPS。

骁龙X Elite高达75TOPS的AI性能，是高通骁计算平台6年AI性能提升100倍里程碑。这样强劲的AI性能可以在没有云端资源的情况下运行超过130亿参数的AI生成式模型。

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第11张

与第三代骁龙8一样，骁龙X Elite的Hexagon NPU同样做了大量升级，包括增加全新的供电系统兼顾极致性能和功耗，引入微切片推理，对张量加速器进行升级，增加共享内存规模。

这让骁龙X Elite这个性能猛兽应对AI任务游刃有余。

DaVinci Resolve的付费版包含一系列在好莱坞创意界被广泛使用的AI强大功能，比如MagicMask支持近乎即时的物体追踪/轮镜、AI赋能的自动字幕生成和剪辑，以及音轨分离和对话平衡器来实现卓越音质。

对于支持AI的计算密集型Magic Mask，骁龙X Elite比采用集成GPU的高端十二核x86处理器快1.7倍。Magic Mask在骁龙X Elite的集成NPU上运行，比在同为Arm架构的12核处理器上运行快3倍，这是让所有创作者兴奋的效率提升。

将于2024年发布的搭载骁龙X Elite的笔记本电脑，可以运行原生ARM64的DaVinci Resolve。

AI原生公司Uniphore用上为AI而生的骁龙X Elite，AI PC作为生产力工具的效率会进一步提升，Uniphore将生成式AI模型用于语音到文本转录、情绪分析和通话摘要，帮助企业交付更高质量的服务的同时，降低使用云端AI的成本。

“商业笔记本电脑大约占一半的PC销量。”高通技术公司产品管理高级总监Nitin Kumar表示，“94%的商界领袖表示，AI已在工作中提高生产力。在IT决策者中，AI是影响购买决策的最大因素。新的研究表明，近一半的IT决策者准备基于AI性能更换PC品牌。骁龙X Elite恰逢其时。”

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第12张

大幅提升效率的同时，骁龙X Elite还能激发出更多AI用例，骁龙X Elite集成的高通传感器中枢进行了升级，性能提高2倍的同时还保持超低功耗，加上率先引入的始终感知ISP，端侧AI节省成本和时间，更加隐私和安全、提升个性化的优势，也能在AI PC上展现的淋漓尽致，让PC游戏更有沉浸感，生产效率更高。

端侧生成式AI的大门全面开启

与AI PC和手机开启AI无处不在时代的，还有各种形态的终端AI设备。

2023骁龙峰会上最新推出的高通S7音频平台的AI性能是前代平台的100倍，强大的AI能力可以提高使用者沉浸式音频应用的精准性。

“我们不仅设计了完全在终端上运行的AI技术，这些功能还将扩展至我们的全部产品线。”Ziad Asghar说，“我们将从产品形态最小的功能开始，比如智能手表中的活动建议和AR眼镜中的3D LVM，到电动车中的终端侧助手。”

拿起运行百亿参数模型的手机，0.6秒就进入了AI世界第13张