ak体育官网下载APP

热点资讯

新闻动态

你的位置：ak体育官网下载APP > 新闻动态 > iOS19还没来, 我提前在iPhone 上体验到了苹果最新的AI

iOS19还没来, 我提前在iPhone 上体验到了苹果最新的AI

发布日期：2025-06-09 17:12 点击次数：85

都2025年了，还有谁没用上苹果AI？

本来，只有我们国行iPhone用户在苦等，但没想到，海外也没好到哪去。去年WWDC上苹果画的那些AI大饼，iPhone用户都快到iOS19还没吃完。

发布会看得热血沸腾，现实里却心灰意冷。

就在我以为苹果今年大概率也「稳中摆烂」的时候，突然发现苹果最近低调开源了一款小模型：FastVLM。

没搞发布会，也没在官网上大张旗鼓宣传，本来我也没太在意，但当技术部老哥将这款模型在顶配iPhone16ProMax跑起来后，我承认有些坐不住了。

一句话概括，这个模型很「苹果」。

模型启动速度极快，识别图像的能力也不错，全程本地执行，没有云端那一套操作，看起来不惊艳，但用起来……有点意思。

我承认，有那么一瞬间，我觉得苹果AI又支棱起来了。

作为一组可以在iPhone、iPad、Mac等设备上本地运行的视觉语言模型（Vision-LanguageModel），FastVLM包括三种参数量级：FastVLM-0.5B、1.5B和7B。

普通用户也能将其部署到iPhone上，只是需要一定的技术门槛。苹果研究团队在GitHub提供了完整的安装教程，有技术基础的用户可以参考：

https://github.com/apple/ml-fastvlm/tree/main/app

我用iPhone跑这款「苹果味」的模型，结果……

实测下来，7B的大模型虽然聪明，但真不太听使唤，动不动就发热、闪退。于是我们只能退而求其次，把体验重心放在了更轻量的0.5B和1.5B上。

但说实话，即便是这两个「小号」模型，实际体验依然带来了不少惊喜。

比如昨天下班路上，我随手用手机对准了地铁站的售票机，FastVLM-1.5B几乎瞬间就完成了场景解析，并对图片进行文字描述，真·所见即所得，丝毫不卡顿。

屏幕显示的TTFT（TimeToFirstToken）仅为1211毫秒。也就是说，从发出请求到模型返回第一个Token，整个流程用时不到1.3秒，交互手感相当丝滑。

不仅如此，日常生活中常见的物体，比如花草植物、城市高楼，FastVLM均能轻松识别。

即使是一些略带抽象的玩偶，也能做到有效识别。

特斯拉汽车的倒影也观察到了，虽然没有具体说出电脑屏幕上的猪猪侠的名字，但也能大致识别出基本特征。

当然，它也不是没有短板，英文识别准确率挺高，但中文嘛，还有待优化，比如「注意行人，减速慢行」识别为了「禁止行人进入，限制通行」，意思也大相径庭。

FastVLM-0.5B的响应速度更快，TTFT基本可以维持在1000ms以内，几乎是刚对准事物，就已经开始输出。

你听过不少「系统级优化」这个词，真正能将它做成产品体验差异的厂商，屈指可数。FastVLM的处理能力与响应速度便是苹果一个典型的例子。

FastVLM是苹果自研的端侧视觉语言模型（VLM），整个栈从底到顶都由自家搞定，底层依托自研AI框架MLX构建，并基于全新视觉编码骨干网络FastViT-HD。

FastViT-HD的设计核心就是如何在极限算力下榨出最多的性能。

苹果研究团队的做法是融合了卷积和Transformer架构，一边保低延迟，一边保表征能力，并通过多尺度特征融合与新增下采样阶段，大大减少了视觉token数量。同时，它支持原生高分辨率输入，避免传统ViT架构中的切块策略。

结果就是，在苹果公布的测试中，FastViT-HD的TTFT（TimeToFirstToken）比同类模型快了85倍，在实际对比ConvNeXt等架构时，推理速度也快出了2到3倍。

而且重点来了，正如论文所提到的，这是跑在M1MacBookPro上的真实数据，换句话说，FastVLM从一开始就已经为消费级终端的实际部署做好了准备。

FastViT-HD的另一个操作也很「苹果」。

传统做法是先把token一股脑生成出来，再靠后处理把低价值的剪掉，本质上是补救方案，而FastViT-HD属于原生设计的前置优化，能直接输出少量高质量的视觉token，无需再经过额外的token剪枝或采样流程。

ViT慢的根源在于self-attention的二次复杂度，token数量越多，计算负担越大。而FastViT-HD在256×256分辨率下，仅输出16个token，既提升了推理速度，又显著降低资源消耗，真正实现了「边跑边理解」。

此外，FastVLM还在算法层面引入了帕累托最优曲线（Paretofrontier）。

通俗来说，开发者可以据此找到「性能最强×延迟最小」的模型搭配组合，避免过去那种凭经验试错的方式，这对于部署在不同算力层级的终端设备极具指导意义。

在模型训练上，FastVLM用了更少数据却能达到更强效果。

论文显示，FastVLM在多个TextVQA、MMMU、SeedBench等基准测试中；在训练数据仅为其他方法的1/3~1/5情况下，仍可实现堪比甚至超越主流模型（如MM1、Cambrian-1）的效果。

那么，这么一个又快又小、还能本地运行的模型，苹果究竟是拿它来干嘛的？答案可能藏在苹果的下一块屏幕里：智能眼镜。

GPT-4V塞不进智能眼镜，但它可以

据外媒9to5Mac报道，FastVLM或将部署到苹果智能眼镜。

这并非空穴来风，过去一年，关于苹果智能眼镜的消息陆续涌现。据彭博社记者MarkGurman的最新说法，苹果计划在2027年前后推出一款轻量级智能眼镜。

为此，苹果正在研发一颗专用于智能眼镜的低功耗芯片N401，主打多摄像头调度与AI支持，预计将在2026年底或2027年进入量产。

换句话说，这将是一台AI-first的设备。

在这样的设备上，云端模型几乎无用武之地，反而依赖类似FastVLM这样的视觉语言模型作为感知层的基础设施，并且，你无法把一个GPT-4V塞进智能眼镜里，但FastVLM可以。

FastVLM快、小等特点，更像是为设备形态的收敛所服务：

体积小，适合部署在端侧；

响应快，符合智能眼镜的场景感知；

以及无需联网，数据不出本地，天然安全。

尽管苹果在去年WWDC大会上所画的大饼至今尚未实现，但这并不妨碍苹果是有野心的，去年苹果WWDC就已经明确传递出一个信号：AI不再只是功能级的补丁，而是要被深深嵌入到系统底层。

和许多AI公司以API为接口、以调用为主线不同，苹果的目标不是打造一个「有AI的产品」，而是「将AI变成产品本身的一部分」，乃至成为OS的底层组成。

这种思路，也契合苹果长期的产品策略，也就是从硬件定义软件，再用系统定义体验。

今年，这一趋势仍在持续推进，并显现出「端侧优先」更强的导向。这不仅体现在iPhone上，也开始蔓延至iPad、Mac，乃至尚未亮相的新一代智能硬件形态。

而在苹果公司即将成立20周年的重要节点，外界自然开始关注是否会有新的硬件形态破壳而出，比如传闻已久的可折叠iPhone、更轻薄的VisionPro，以及上文所说的智能眼镜。

尽管这些设备大概率不会在WWDC上以「新品发布」的形式正式亮相，但苹果一贯的风格，便是在系统与开发者生态中埋下伏笔。

这些看不见的地方，才是WWDC真正值得关注的信号。

相应地，从底层架构上来看，FastVLM具备开放性、模块化，这也意味着能够被系统原生组件、第三方App，乃至未来的智能眼镜系统一键调取使用。

事实上，这类「视觉理解+语言推理」的功能，并不是什么新鲜事。

最近OPPO就与阶跃星辰合作推出了「一键问屏」功能。用户只需拍一张图，小布助手便能自动识别图像中的关键信息，完成智能视觉搜索、问答和推理任务。

在模型层面，字节最近发布的轻量级多模态推理模型Seed1.5-VL，就凭借仅532M的视觉编码器和200亿语言参数，在多个基准测试中的测试成绩与许多顶级模型不相上下，而且支持带图深度问答。

从功能体验来看，FastVLM与上述产品相比似乎并无明显差异。但其真正的底层支点，其实来自苹果在2023年推出的一项关键基础设施：AI框架MLX。

MLX是苹果首次系统性地开源一整套深度学习框架，专为苹果芯片打造。尽管M系列芯片早已建立起硬件性能优势，但此前一直缺乏自家统一的AI编程生态，而MLX补上了关键一环。

MLX在形式上类似「PyTorch」，补齐了软件层的原生AI生态；能够鼓励开发者直接在MacBook上训练与部署模型，在内存管理、模型编译与运行效率方面表现出色。

基于这样的逻辑，我们甚至可以重新理解苹果生态中各类设备的角色：

iPhone是一个通用智能终端、Watch是一个健康监测中心、VisionPro是一个空间计算平台，那么未来的苹果智能眼镜也将更往原生运行AI模型的智能终端靠近。

不是提供一个超级App，不是拼API市场份额，苹果选择为未来五到十年的硬件形态铺路。

FastVLM的参数可以更新，性能可以迭代，但苹果要表达的，不是模型本身的竞争力，而是模型将如何成为系统的一部分、设备的一部分，甚至成为你生活的一部分。

上一篇：犯规动作过大！多特5中1&三分4中0拿2分6板1断1帽导致莫兰特伤退