ak体育官网下载APP

热点资讯

新闻动态

你的位置:ak体育官网下载APP > 新闻动态 > iOS19还没来, 我提前在iPhone 上体验到了苹果最新的AI

iOS19还没来, 我提前在iPhone 上体验到了苹果最新的AI

发布日期:2025-06-09 17:12    点击次数:85

都2025年了,还有谁没用上苹果AI?

本来,只有我们国行iPhone用户在苦等,但没想到,海外也没好到哪去。去年WWDC上苹果画的那些AI大饼,iPhone用户都快到iOS19还没吃完。

发布会看得热血沸腾,现实里却心灰意冷。

就在我以为苹果今年大概率也「稳中摆烂」的时候,突然发现苹果最近低调开源了一款小模型:FastVLM。

没搞发布会,也没在官网上大张旗鼓宣传,本来我也没太在意,但当技术部老哥将这款模型在顶配iPhone16ProMax跑起来后,我承认有些坐不住了。

一句话概括,这个模型很「苹果」。

模型启动速度极快,识别图像的能力也不错,全程本地执行,没有云端那一套操作,看起来不惊艳,但用起来……有点意思。

我承认,有那么一瞬间,我觉得苹果AI又支棱起来了。

作为一组可以在iPhone、iPad、Mac等设备上本地运行的视觉语言模型(Vision-LanguageModel),FastVLM包括三种参数量级:FastVLM-0.5B、1.5B和7B。

普通用户也能将其部署到iPhone上,只是需要一定的技术门槛。苹果研究团队在GitHub提供了完整的安装教程,有技术基础的用户可以参考:

https://github.com/apple/ml-fastvlm/tree/main/app

我用iPhone跑这款「苹果味」的模型,结果……

实测下来,7B的大模型虽然聪明,但真不太听使唤,动不动就发热、闪退。于是我们只能退而求其次,把体验重心放在了更轻量的0.5B和1.5B上。

但说实话,即便是这两个「小号」模型,实际体验依然带来了不少惊喜。

比如昨天下班路上,我随手用手机对准了地铁站的售票机,FastVLM-1.5B几乎瞬间就完成了场景解析,并对图片进行文字描述,真·所见即所得,丝毫不卡顿。

屏幕显示的TTFT(TimeToFirstToken)仅为1211毫秒。也就是说,从发出请求到模型返回第一个Token,整个流程用时不到1.3秒,交互手感相当丝滑。

不仅如此,日常生活中常见的物体,比如花草植物、城市高楼,FastVLM均能轻松识别。

即使是一些略带抽象的玩偶,也能做到有效识别。

特斯拉汽车的倒影也观察到了,虽然没有具体说出电脑屏幕上的猪猪侠的名字,但也能大致识别出基本特征。

当然,它也不是没有短板,英文识别准确率挺高,但中文嘛,还有待优化,比如「注意行人,减速慢行」识别为了「禁止行人进入,限制通行」,意思也大相径庭。

FastVLM-0.5B的响应速度更快,TTFT基本可以维持在1000ms以内,几乎是刚对准事物,就已经开始输出。

你听过不少「系统级优化」这个词,真正能将它做成产品体验差异的厂商,屈指可数。FastVLM的处理能力与响应速度便是苹果一个典型的例子。

FastVLM是苹果自研的端侧视觉语言模型(VLM),整个栈从底到顶都由自家搞定,底层依托自研AI框架MLX构建,并基于全新视觉编码骨干网络FastViT-HD。

FastViT-HD的设计核心就是如何在极限算力下榨出最多的性能。

苹果研究团队的做法是融合了卷积和Transformer架构,一边保低延迟,一边保表征能力,并通过多尺度特征融合与新增下采样阶段,大大减少了视觉token数量。同时,它支持原生高分辨率输入,避免传统ViT架构中的切块策略。

结果就是,在苹果公布的测试中,FastViT-HD的TTFT(TimeToFirstToken)比同类模型快了85倍,在实际对比ConvNeXt等架构时,推理速度也快出了2到3倍。

而且重点来了,正如论文所提到的,这是跑在M1MacBookPro上的真实数据,换句话说,FastVLM从一开始就已经为消费级终端的实际部署做好了准备。

FastViT-HD的另一个操作也很「苹果」。

传统做法是先把token一股脑生成出来,再靠后处理把低价值的剪掉,本质上是补救方案,而FastViT-HD属于原生设计的前置优化,能直接输出少量高质量的视觉token,无需再经过额外的token剪枝或采样流程。

ViT慢的根源在于self-attention的二次复杂度,token数量越多,计算负担越大。而FastViT-HD在256×256分辨率下,仅输出16个token,既提升了推理速度,又显著降低资源消耗,真正实现了「边跑边理解」。

此外,FastVLM还在算法层面引入了帕累托最优曲线(Paretofrontier)。

通俗来说,开发者可以据此找到「性能最强×延迟最小」的模型搭配组合,避免过去那种凭经验试错的方式,这对于部署在不同算力层级的终端设备极具指导意义。

在模型训练上,FastVLM用了更少数据却能达到更强效果。

论文显示,FastVLM在多个TextVQA、MMMU、SeedBench等基准测试中;在训练数据仅为其他方法的1/3~1/5情况下,仍可实现堪比甚至超越主流模型(如MM1、Cambrian-1)的效果。

那么,这么一个又快又小、还能本地运行的模型,苹果究竟是拿它来干嘛的?答案可能藏在苹果的下一块屏幕里:智能眼镜。

GPT-4V塞不进智能眼镜,但它可以

据外媒9to5Mac报道,FastVLM或将部署到苹果智能眼镜。

这并非空穴来风,过去一年,关于苹果智能眼镜的消息陆续涌现。据彭博社记者MarkGurman的最新说法,苹果计划在2027年前后推出一款轻量级智能眼镜。

为此,苹果正在研发一颗专用于智能眼镜的低功耗芯片N401,主打多摄像头调度与AI支持,预计将在2026年底或2027年进入量产。

换句话说,这将是一台AI-first的设备。

在这样的设备上,云端模型几乎无用武之地,反而依赖类似FastVLM这样的视觉语言模型作为感知层的基础设施,并且,你无法把一个GPT-4V塞进智能眼镜里,但FastVLM可以。

FastVLM快、小等特点,更像是为设备形态的收敛所服务:

体积小,适合部署在端侧;

响应快,符合智能眼镜的场景感知;

以及无需联网,数据不出本地,天然安全。

尽管苹果在去年WWDC大会上所画的大饼至今尚未实现,但这并不妨碍苹果是有野心的,去年苹果WWDC就已经明确传递出一个信号:AI不再只是功能级的补丁,而是要被深深嵌入到系统底层。

和许多AI公司以API为接口、以调用为主线不同,苹果的目标不是打造一个「有AI的产品」,而是「将AI变成产品本身的一部分」,乃至成为OS的底层组成。

这种思路,也契合苹果长期的产品策略,也就是从硬件定义软件,再用系统定义体验。

今年,这一趋势仍在持续推进,并显现出「端侧优先」更强的导向。这不仅体现在iPhone上,也开始蔓延至iPad、Mac,乃至尚未亮相的新一代智能硬件形态。

而在苹果公司即将成立20周年的重要节点,外界自然开始关注是否会有新的硬件形态破壳而出,比如传闻已久的可折叠iPhone、更轻薄的VisionPro,以及上文所说的智能眼镜。

尽管这些设备大概率不会在WWDC上以「新品发布」的形式正式亮相,但苹果一贯的风格,便是在系统与开发者生态中埋下伏笔。

这些看不见的地方,才是WWDC真正值得关注的信号。

相应地,从底层架构上来看,FastVLM具备开放性、模块化,这也意味着能够被系统原生组件、第三方App,乃至未来的智能眼镜系统一键调取使用。

事实上,这类「视觉理解+语言推理」的功能,并不是什么新鲜事。

最近OPPO就与阶跃星辰合作推出了「一键问屏」功能。用户只需拍一张图,小布助手便能自动识别图像中的关键信息,完成智能视觉搜索、问答和推理任务。

在模型层面,字节最近发布的轻量级多模态推理模型Seed1.5-VL,就凭借仅532M的视觉编码器和200亿语言参数,在多个基准测试中的测试成绩与许多顶级模型不相上下,而且支持带图深度问答。

从功能体验来看,FastVLM与上述产品相比似乎并无明显差异。但其真正的底层支点,其实来自苹果在2023年推出的一项关键基础设施:AI框架MLX。

MLX是苹果首次系统性地开源一整套深度学习框架,专为苹果芯片打造。尽管M系列芯片早已建立起硬件性能优势,但此前一直缺乏自家统一的AI编程生态,而MLX补上了关键一环。

MLX在形式上类似「PyTorch」,补齐了软件层的原生AI生态;能够鼓励开发者直接在MacBook上训练与部署模型,在内存管理、模型编译与运行效率方面表现出色。

基于这样的逻辑,我们甚至可以重新理解苹果生态中各类设备的角色:

iPhone是一个通用智能终端、Watch是一个健康监测中心、VisionPro是一个空间计算平台,那么未来的苹果智能眼镜也将更往原生运行AI模型的智能终端靠近。

不是提供一个超级App,不是拼API市场份额,苹果选择为未来五到十年的硬件形态铺路。

FastVLM的参数可以更新,性能可以迭代,但苹果要表达的,不是模型本身的竞争力,而是模型将如何成为系统的一部分、设备的一部分,甚至成为你生活的一部分。



Powered by ak体育官网下载APP @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 2013-2026