前言
从AI爆发元年的2023年至今,人工智能技术已经走过了一段令人瞩目的发展历程。2023年初,ChatGPT的横空出世引发了全球范围内的AI热潮,各大科技巨头和初创公司纷纷加入这场技术竞赛。OpenAI、Anthropic、Google等公司相继推出了各自的大语言模型产品,掀起了一轮又一轮的技术迭代浪潮。GPT-4的发布将多模态能力带入大众视野,Claude的长文本处理能力开辟了新的应用场景,而Gemini的多模态理解能力则进一步拓展了AI的应用边界。
这一年多来,AI技术的演进路径清晰可见:从单一的文本理解与生成,到多模态信息的综合处理;从被动响应用户指令,到主动规划与执行任务;从封闭的单一模型,到开放的模型协作生态。我们见证了从基础大模型(LLM)到Agent概念的跃迁,再到最近包装出的RAAS(Result as a Service)新概念的提出。每一次概念更迭,都代表着产业对AI应用形态的不断探索与重新定义。
在这场轰轰烈烈的AI革命中,无数公司推出了数不胜数的新产品,从文本助手、图像生成工具、代码辅助系统,到垂直领域的专业AI应用。然而,值得注意的是,尽管产品形态不断创新,人们与AI配合工作的基本流程却始终没有发生根本性的变化。当前所有的创新概念和产品,本质上都是围绕这个基本流程在做体验优化和效果提升。
这个基本流程可以概括为三个核心步骤:描述问题、拆解问题和解决问题。
Step 1: 描述问题
这一步通常被称为输入prompt,即用户向AI描述自己是谁、在干什么(或需要AI帮助完成什么)。如果用户是直接面向大模型进行交互,复杂任务通常需要严谨的prompt engineering输入才能够得到满意的结果。这一步骤的核心挑战在于,普通用户往往缺乏专业的prompt工程知识,难以精确地表达自己的需求,导致AI输出结果与预期存在偏差。
随着技术的发展,各类产品开始尝试通过多轮对话、模板引导、上下文学习等方式来降低用户的表达成本,但本质上仍然需要用户主动、明确地向AI传递信息。这种信息传递模式存在天然的局限性,因为它要求用户能够清晰地认识到自己的需求,并将其转化为AI可理解的形式。
Step 2: 拆解问题
这一步是由AI主导完成的,通过内部的规划,对问题进行分解和执行。随着大模型能力的提升,这一环节的效果有了显著改善。早期的AI系统往往只能处理简单、明确的任务,而现代大模型已经能够理解复杂的多步骤指令,并将其分解为可执行的子任务。
特别是在Agent架构的加持下,AI系统能够更加系统化地进行任务规划,通过"思考-行动-观察-反思"的循环来逐步解决问题。这种能力的提升使得AI可以处理更加复杂的任务,如撰写研究报告、设计产品方案、编写复杂代码等。然而,即使是最先进的AI系统,在面对高度开放、需要深度专业知识或创造性思维的问题时,仍然存在明显的局限性。
Step 3: 解决问题
最后一步是解决方案的落地,如果是内容输出型的问题(比如写文档、画画),AI一般可以直接给出交付物,但如果涉及到具体行为的执行(比如制定旅行计划),则需要人来完成额外的操作(订酒店、机票)。这一环节的核心挑战在于,AI系统与现实世界的交互能力仍然十分有限。
尽管一些先进的Agent系统已经能够调用外部API、操作浏览器等,但这些能力仍然局限于数字世界,难以直接影响物理世界。用户仍然需要作为AI与现实世界的桥梁,将AI的建议转化为实际行动。这种人机协作模式虽然在一定程度上发挥了双方的优势,但也增加了用户的操作负担,降低了整体效率。
在前段时间首次体验Manus之后,我确实觉得Agent是当下很接近最优解的方案,尤其是对第三方软件开发商来说。Agent通过多个AI角色和工具配合,将三个步骤的分工进行了模糊,尽量减少了人类需要思考和参与的部分。
首先是第一步,通过「分析模块」和「提问模块」的配合,很好的解决了普通用户不具备prompt engineering意识的问题,让用户可以先开启会话,由AI指导来补充关键信息,并且「分析模块」会自动识别哪些信息是可以自主获取,哪些信息是需要用户提供的,进一步降低了用户的使用成本。
第二步和第三步在Agent中也被很好地进行了融合,通过「规划模块」来决定调用哪些模型和工具来解决问题,并且不断通过「反思模块」来判断执行是否出了偏差。这种模块化的设计使得Agent能够更加灵活地应对各种复杂任务,同时保持较高的执行效率和准确性。
最后一步的解决问题,由于需求本身常常包含多种内容形式的需求,例如PPT就同时需要文本生成能力和图片生成能力,以及特殊格式的编辑能力,Agent直接通过调用多个模型以及在线工具,在现阶段多模态大模型技术无法直接满足需求的情况下,成功解决了问题。这种工具协作的方式,有效地弥补了单一模型能力的不足,为用户提供了更加全面的解决方案。
尽管Agent的解题思路已经相当优秀,但我们仍然可以看到,当前AI应用形态存在着一些根本性的局限。这些局限不仅仅是技术层面的,更是架构和设计理念层面的。在这样的背景下,作为后发者的苹果公司,其即将推出的Apple Intelligence系统,是否能够突破这些局限,为用户带来全新的AI体验?这是一个值得深入探讨的问题。
有哪些AI应用层的问题暂未解决?
尽管当前的AI技术已经取得了长足的进步,但在应用层面,仍然存在一些根本性的问题尚未得到有效解决。这些问题不仅限制了AI的实用价值,也影响了用户体验的连续性和自然性。接下来,我们将深入探讨两个核心问题:信息获取和操作执行。
获取信息,也许可以不用输入
在当前的AI交互模式中,用户需要主动向AI提供信息,这种模式存在明显的局限性。理想的AI助手应该能够主动获取相关信息,减少用户的输入负担。让我们通过一个具体的工作场景来分析这一问题:
场景:领导用飞书发来一条消息 —— "Bel,把这个月新上的功能数据回收一下,弄个PPT"
操作步骤:
查看本月的功能迭代记录,整理出会影响的数据(人工)
梳理数据,分析结论并整理成文档(人工+AI)
找到公司的PPT模板(人工)
把文档内容填进PPT模板(AI)
在这个看似简单的工作任务中,人工需要介入的部分还比较多,主要是涉及到公司内部的文档查询(迭代功能记录、PPT模板)和数据查询(功能数据监测),以及需要对产品信息本身的了解才能够进行深入分析。这些环节看似AI难以自行解决,但实际上问题的核心在于信息获取的权限和渠道,而非AI的能力本身。
如果我们扩展这个场景,可以看到更多类似的信息获取障碍:
跨应用信息整合:当用户需要整合来自多个应用的信息时(如邮件中的会议记录、聊天软件中的讨论内容、文档系统中的项目资料),当前的AI无法自动获取这些分散在不同平台的信息,用户必须手动收集并提供给AI。
历史交互记忆:用户与同一AI助手的多次交互之间,上下文信息往往无法长期保存,导致用户需要反复提供背景信息。即使是支持长期记忆的系统,也仅限于用户主动提供的信息,而非用户的实际行为和操作历史。
个人知识库访问:用户的个人笔记、阅读历史、收藏内容等构成了重要的知识库,但当前AI无法直接访问这些资源,导致无法提供真正个性化的智能服务。
实时环境感知:AI缺乏对用户当前环境和状态的感知能力,无法根据用户的实际情况提供及时、相关的建议和帮助。
但...这些问题真的无解吗?
当我们的目光不再局限于网页、app,而是提升到系统层面,也许它们都有解决方案。我们可以把所有的app和网页都看作AI可使用的工具和信息源,AI的权限越高,能获取到的你的信息就越多。
比如你想要总结一篇同事写的文档,直接把网址扔给Manus,它是分析不了的,因为它没有飞书文档权限,但如果你用Dia浏览器打开页面,再输入同样的指令,就可以轻松做到。这种差异清晰地表明,问题不在于AI的能力,而在于信息获取的权限和渠道。
再举一个更贴近日常生活的例子:假设你想让AI帮你整理过去一个月的消费记录,并分析消费模式。在当前模式下,你需要手动导出各个平台(支付宝、微信、信用卡)的消费记录,然后提供给AI进行分析。但如果AI能够在获得授权的情况下,直接访问这些平台的数据,整个过程将变得无缝且高效。
既然浏览器都可以这么厉害了,仅仅是因为它登录了你的几个账号,那如果AI是基于操作系统的,能获取到的信息简直多到难以想象,只要是在屏幕上显示过的信息或者执行过的操作,理论上来说它都是可以进行分析或操作的。这种系统级的信息获取能力,将彻底改变AI与用户的交互模式,从"用户主动提供信息"转变为"AI主动获取信息",大幅降低用户的认知负担和操作成本。
执行操作,也许可以不用点击
信息获取只是AI应用的一半挑战,另一半是操作执行。当前的AI系统在执行具体操作时,往往需要用户的大量参与,这极大地限制了AI的实用价值。让我们通过一个生活场景来分析这一问题:
场景:你和女朋友分手了,有一大堆联系方式需要拉黑删除
操作步骤:
思考有哪些软件里添加了联系方式,整理清单
打开通讯录,点击拉黑删除
打开微信,点击拉黑删除
打开抖音,点击拉黑删除
...
这个场景下,现在的AI完全帮不上忙,但不是因为AI本身做不了/做不好,而仅仅是因为AI没有操作权限,网页和app不可能做到这些操作,Siri又只能做到听你的话一个个打开app,执行不了其他行为,其实只需要找到方法给AI提供授权就可以了。
类似的操作执行障碍还包括:
跨应用操作协调:当任务需要在多个应用之间切换和操作时(如从邮件提取信息、在日历创建事件、发送会议链接到聊天软件),用户必须手动完成这些步骤,AI无法自动执行这一系列操作。
复杂交互流程:某些操作涉及复杂的交互流程(如填写表单、上传文件、进行多步验证),当前AI难以自动完成这些需要精细操作的任务。
个性化设置调整:根据用户偏好调整应用设置、创建自动化规则等操作,通常需要用户手动完成,AI难以直接介入。
物理设备控制:控制智能家居设备、调整硬件设置等操作,虽然有部分语音助手支持,但功能有限且往往需要特定的指令格式。
更复杂的例子是旅行规划:当你计划一次旅行时,AI可以帮你推荐目的地、制定行程、查找酒店和航班信息,但最终的预订操作仍需你手动完成。如果AI能够在获得授权的情况下,直接帮你完成这些预订操作(当然,关键决策仍由你确认),整个体验将更加流畅和高效。
这些操作执行的障碍,本质上是由于AI与操作系统和应用程序之间缺乏深度集成所导致的。当前的AI系统大多作为独立的应用或服务存在,无法直接控制其他应用程序或系统功能。这种割裂的架构设计,严重限制了AI的实用价值和用户体验。
在下一部分,我们将探讨如何解决这些信息获取和操作执行的问题,以及苹果作为操作系统厂商在这方面可能具有的独特优势。
这些问题如何解决?
在前一部分,我们分析了当前AI应用层面存在的两个核心问题:信息获取和操作执行。这些问题的本质在于AI与操作系统及应用程序之间的隔离,导致AI无法自然地获取信息和执行操作。那么,这些问题有可能得到解决吗?接下来,我们将探讨可能的解决方案。
获取信息
要在应用层面解决信息获取问题,有两个主要的解决思路:
1. 建立新的信息授权标准,由软件厂商向系统提供信息授权
这种方案的实现思路是,用户在使用app时,由app向系统上报信息,例如浏览器的浏览记录、微信的聊天记录,这样AI就可以知道你在询问前发生了什么,还可以自主获取到需要的信息。
这种方案的技术实现路径可能包括:
统一的API接口标准:操作系统厂商制定统一的API接口标准,应用开发者按照标准提供数据访问接口。
分级授权机制:建立细粒度的数据访问权限控制,用户可以精确控制哪些应用可以访问哪些类型的数据。
数据缓存与同步机制:在本地建立数据缓存,减少实时API调用的需求,同时确保数据的及时更新。
隐私保护中间层:在应用和系统AI之间建立隐私保护中间层,对敏感数据进行脱敏处理。
这种方案的优势在于数据的准确性和结构化程度高,AI可以直接获取到应用内部的核心数据。然而,它的卡点也相当明显,就是这些真正有用的信息,基本都是商业机密,软件厂商肯定不愿意把它们拱手交出。
以社交媒体平台为例,用户的社交关系网络、兴趣偏好、互动历史等数据是平台的核心资产,直接关系到其商业模式和竞争优势。要求这些平台向操作系统开放这些数据,无异于要求他们放弃自身的商业壁垒,这在商业逻辑上是难以成立的。
此外,不同应用之间的数据格式和结构差异巨大,建立统一的数据交换标准也面临着巨大的技术挑战。即使在技术上可行,也需要大量的行业协作和标准化工作,这个过程可能需要数年时间。
2. 通过系统级的信息抓取与分析,直接获取信息
相比于依赖软件厂商的主动配合,系统级的信息抓取提供了一种更为直接的解决方案。不知道大家有没有用过或者听说过ScreenMemory这款Mac上的产品,它可以记录下你的电脑屏幕操作,让你回看任意时间屏幕显示的内容,如果这个功能叠加上AI的图像/音频分析能力,是不是就意味着系统AI可以跳过软件授权,直接拿到里面的信息了?
这种方案的技术实现路径可能包括:
屏幕内容持续捕获:系统持续捕获屏幕显示内容,并进行实时或离线分析。
OCR与图像理解:通过光学字符识别和图像理解技术,从屏幕内容中提取文本和视觉信息。
音频内容分析:捕获和分析系统音频输出,提取语音内容和音频信息。
用户行为模式识别:分析用户的操作模式和习惯,理解用户的意图和需求。
本地数据索引与检索:建立本地数据索引,支持快速检索和访问历史信息。
这种方案的优势在于不依赖软件厂商的配合,可以直接获取用户界面上显示的所有信息。然而,它也面临着一系列挑战:
隐私安全风险:持续捕获屏幕内容涉及严重的隐私风险,特别是在处理敏感信息(如银行账户、密码等)时。
资源消耗:持续的屏幕捕获和分析需要大量的计算和存储资源。
信息提取准确性:从非结构化的屏幕内容中提取准确信息存在技术挑战,特别是对于复杂的界面和内容。
法律合规问题:在某些地区,未经授权捕获和分析应用内容可能面临法律挑战。
尽管如此,这种方案在技术上是可行的,并且随着AI技术的进步,特别是多模态理解能力的提升,其可行性和效果将不断提高。事实上,一些现有的辅助工具已经在尝试类似的方案,如屏幕阅读器、自动化测试工具等。
执行操作
与信息获取类似,操作执行也有两种主要的解决思路:
1. 由软件厂商提供支持更多系统调用的功能
现在其实已经有很多基础的能力是类似的了,例如Siri可以直接使用网易云播放歌曲,相册里的图片也可以一键分享给抖音好友,但这些都是基于app自身的利益,出于DAU、GMV等等关键数据的需要,产品经理们分析出这些功能能够带来收入,才愿意做功能的开发。
这种方案的技术实现路径可能包括:
标准化的操作接口:操作系统提供标准化的操作接口,应用程序通过实现这些接口来支持系统级的操作调用。
意图识别与路由:系统能够理解用户的操作意图,并将其路由到相应的应用程序。
权限管理与安全控制:建立细粒度的操作权限控制,确保系统只能执行用户授权的操作。
操作反馈与确认机制:提供清晰的操作反馈和确认机制,让用户了解系统的操作行为。
这种方案的优势在于操作的精确性和可靠性,因为操作是通过应用程序的官方接口执行的。然而,与信息授权类似,没有软件厂商会愿意为了操作系统更好用而改造自己的产品,除非这些改造能够直接带来商业利益。
以电商平台为例,它们可能愿意开放"添加商品到购物车"的接口,因为这有助于增加销售转化,但不太可能开放"比较不同平台价格"的接口,因为这可能导致用户流失到竞争对手平台。
2. 在系统里添加"按键精灵"
要跳过厂商来做操作也很容易...甚至是更合理的方案,就是像Manus、Fellou这样的产品,都会有一个虚拟操作窗口,如果是落到实现执行这一步,完全可以由系统在「真实界面」上来代替人完成操作,或是只由人完成确认,其他交互AI来自主进行。
这种方案的技术实现路径可能包括:
界面元素识别与定位:通过图像分析识别界面上的按钮、输入框等交互元素,并准确定位它们的位置。
操作序列规划与执行:根据任务目标,规划一系列操作步骤,并按顺序执行。
操作结果验证与纠错:验证每一步操作的结果,在出现异常时进行纠错或寻求用户帮助。
用户确认与干预机制:在执行关键操作前,提供用户确认机制,允许用户随时干预自动化流程。
这种方案的优势在于不依赖软件厂商的配合,可以适用于任何可视化界面。然而,它也面临着一系列挑战:
操作可靠性:界面元素的识别和定位可能受到界面变化、分辨率差异等因素的影响,导致操作不可靠。
安全风险:自动化操作可能导致意外的系统行为,特别是在处理敏感操作(如支付、删除等)时。
用户体验问题:自动化操作过程中,用户可能无法使用设备,影响正常使用体验。
应用兼容性:不同应用的界面设计和交互逻辑差异巨大,难以建立通用的操作模型。
尽管如此,这种方案在技术上是可行的,并且已经有一些自动化工具在使用类似的技术,如RPA(机器人流程自动化)工具、自动化测试工具等。随着计算机视觉和自然语言理解技术的进步,这种方案的可行性和效果将不断提高。
在下一部分,我们将探讨苹果作为硬件和操作系统厂商,在解决这些问题方面可能具有的独特优势。
苹果作为后后后发选手,还有哪些优势?
在前面的讨论中,我们分析了当前AI应用层面存在的核心问题以及可能的解决方案。这些解决方案无论是依赖软件厂商的配合,还是通过系统级的信息抓取和操作模拟,都面临着技术和商业上的挑战。在这样的背景下,苹果作为AI领域的后发选手,是否还有机会在这个竞争激烈的市场中脱颖而出?
答案是肯定的。尽管苹果在大模型研发方面起步较晚,但其作为硬件和操作系统厂商的独特定位,为其提供了一系列其他参与者难以复制的优势。这些优势可能使苹果在未来的AI竞争中占据有利位置。
几乎唯一具有硬件生态的厂商
假设前面的设想能够实现,那未来完全体的AI必然是能够深入生活方方面面的存在,包括生活、工作,人的信息获取以及操作会分散在多个不同的设备上,手机、电脑、手表甚至智能眼镜,都只是AI与人交互的其中一个终端,为了保证体验的连续性和一致性,它们背后必然是同一套系统。
苹果是目前几乎唯一能够基于现有产品线往上叠加AI生态的厂商,不但对于苹果省事,对用户来说也少了极大的迁移成本。这种硬件生态的优势主要体现在以下几个方面:
全产品线的协同体验
苹果的产品线覆盖了用户日常生活和工作的几乎所有场景:iPhone(移动场景)、iPad(轻办公和娱乐)、Mac(专业工作)、Apple Watch(健康和快速交互)、AirPods(音频交互)、HomePod(家庭场景)、Apple TV(客厅场景),以及最新的Vision Pro(混合现实)。这些设备不仅在硬件设计上保持一致的美学和质量标准,更重要的是,它们在软件层面实现了深度的互联互通。
通过Handoff、Universal Clipboard、AirDrop、Continuity Camera等功能,苹果已经构建了一个设备间无缝协作的生态系统。用户可以在iPhone上开始一项任务,然后无缝地转移到Mac上继续完成;可以在iPad上复制内容,直接粘贴到Mac上;可以使用iPhone的摄像头作为Mac的网络摄像头。这种设备间的协同能力,为AI提供了一个理想的运行环境。
想象一下,当你在iPhone上向Siri询问一个复杂的问题时,系统可以自动调用Mac上的计算资源进行处理;当你在Mac上工作时,系统可以根据你的日程安排,通过Apple Watch提醒你下一个会议;当你戴着Vision Pro时,系统可以根据你的视线焦点和手势,预测你的意图并提供相应的帮助。这种全产品线的协同体验,是其他厂商难以复制的。
硬件与软件的深度融合
与大多数科技公司不同,苹果同时控制着硬件和软件的设计与开发。这种垂直整合的模式使得苹果能够在硬件层面为AI优化提供更好的支持。例如,苹果可以在芯片设计中加入专门的神经网络处理单元(NPU),为AI运算提供硬件加速;可以优化操作系统,使其更好地支持AI的后台运行和资源调度;可以设计专门的传感器,为AI提供更丰富的环境感知能力。
这种硬件与软件的深度融合,使得苹果能够提供更加流畅、高效的AI体验。例如,苹果的Neural Engine已经在iPhone和Mac上广泛应用,为面部识别、语音识别、图像处理等AI任务提供硬件加速。未来,随着AI技术的发展,这种硬件加速的重要性将进一步提升。
用户迁移成本的优势
对于已经深度使用苹果生态的用户来说,迁移到其他平台的成本是非常高的。这不仅包括购买新设备的经济成本,还包括学习新系统、迁移数据、重新建立使用习惯等时间和精力成本。这种高迁移成本为苹果提供了一定的用户锁定效应,使得用户更倾向于在苹果生态内尝试新的AI功能和服务。
此外,苹果用户通常具有较高的支付意愿和品牌忠诚度,这为苹果推出高端AI服务提供了良好的商业基础。即使苹果的AI服务在初期可能不如竞争对手完善,但只要能够提供足够的差异化价值,用户仍然有动力留在苹果生态内。
与竞争对手的生态对比
相比之下,其他科技巨头在硬件生态方面都存在明显的短板:
Google:虽然拥有Android操作系统和Pixel手机系列,但在PC、可穿戴设备等领域的布局较弱,设备间的协同能力有限。
微软:在PC领域有强大的Windows生态,但在移动设备领域的多次尝试均告失败,Surface系列产品虽然优秀但市场份额有限。
Meta:专注于社交平台和VR/AR设备,缺乏在移动设备和PC领域的布局。
亚马逊:通过Echo系列在智能家居领域有一定布局,但缺乏在移动设备和PC领域的存在。
这些公司要么缺乏完整的硬件产品线,要么缺乏设备间的深度协同能力,难以提供像苹果那样的全场景AI体验。
领先的本地计算能力
除了硬件生态的优势外,苹果在本地计算能力方面也具有明显的领先优势。这主要体现在其自研芯片的强大性能和高能效比上。
苹果芯片的技术优势
苹果M系列和A系列处理器的计算能力在各自的领域都有不少领先对手的优势。M系列处理器在笔记本和桌面电脑领域实现了性能和能效的双重突破,而A系列处理器则在移动设备领域保持着领先地位。这些处理器都采用了ARM架构,具有高性能核心和高能效核心的混合设计,能够在不同的工作负载下提供最佳的性能和能效平衡。
特别值得一提的是,苹果芯片中的Neural Engine专门用于加速机器学习任务,为AI应用提供了强大的本地计算能力。例如,iPhone 15 Pro的A17 Pro芯片中的Neural Engine每秒可以处理35万亿次操作,而M3 Max芯片的Neural Engine性能更是达到了惊人的水平。这种专门的硬件加速单元,使得苹果设备能够在本地运行越来越复杂的AI模型,而不需要依赖云端服务。
本地AI的优势
本地AI计算相比云端AI有几个明显的优势:
隐私保护:敏感数据不需要离开设备,降低了隐私泄露的风险。
离线可用:即使在没有网络连接的情况下,AI功能仍然可以正常工作。
低延迟:不需要经过网络传输,响应速度更快。
减少带宽消耗:不需要上传大量数据到云端,节省了网络带宽。
降低运营成本:减少了对云服务器的依赖,降低了运营成本。
这些优势使得本地AI成为未来AI应用的重要发展方向,特别是在隐私保护要求越来越高的背景下。苹果在这方面的技术积累和硬件优势,为其未来的AI战略提供了坚实的基础。
本地与云端的协同模式
当然,本地AI也有其局限性,主要是计算资源有限,难以运行超大规模的AI模型。因此,未来的AI应用很可能采用本地与云端协同的模式:敏感数据在本地处理,需要大规模计算的任务在云端完成。
苹果在这方面也有独特的优势。一方面,其强大的本地计算能力使得更多的AI任务可以在本地完成;另一方面,其iCloud服务和数据同步机制为本地与云端的协同提供了基础设施。此外,苹果还可以通过Private Compute Core等技术,确保即使是需要云端处理的数据,也能得到充分的隐私保护。
与竞争对手的芯片对比
相比之下,其他科技巨头在芯片技术方面都存在一定的差距:
Google:虽然有Tensor芯片,但主要依赖三星代工,性能和能效与苹果A系列有明显差距。
微软:Surface设备主要使用Intel或高通芯片,缺乏自研芯片的优势。
Meta:在开发专用AI芯片方面有所投入,但主要用于数据中心,缺乏面向终端设备的芯片布局。
亚马逊:开发了Graviton系列芯片,但主要用于AWS云服务,缺乏面向终端设备的芯片。
这些公司要么缺乏自研芯片的能力,要么缺乏面向终端设备的芯片布局,难以像苹果那样在本地AI计算方面提供强大的支持。
未来硬件形态的演进
随着技术的发展,AI与人类交互的硬件形态也在不断演进。从最初的键盘鼠标,到触摸屏,再到语音交互,每一次交互方式的变革都带来了用户体验的质的提升。未来,随着AR/VR技术的成熟,我们可能会看到更加自然、沉浸式的交互方式。
在这方面,苹果通过Vision Pro已经展示了其对未来交互形态的探索。Vision Pro不仅是一款VR设备,更是一个空间计算平台,通过眼动追踪、手势识别等技术,实现了更加自然的人机交互。这种交互方式与AI结合,可能会带来全新的用户体验。
例如,当你戴着Vision Pro时,系统可以通过眼动追踪了解你的关注点,通过手势识别了解你的操作意图,再结合环境感知和上下文理解,预测你的需求并提供相应的帮助。这种基于意图的交互方式,比传统的指令式交互更加自然和高效。
苹果在这方面的探索,为其未来的AI战略提供了更多可能性。特别是在系统级AI方面,这种新型交互方式可能会带来革命性的变化。
总的来说,苹果作为硬件和操作系统厂商的独特定位,为其在AI领域提供了一系列其他参与者难以复制的优势。这些优势可能使苹果在未来的AI竞争中占据有利位置,特别是在系统级AI方面。当然,这并不意味着苹果必然会在AI领域取得成功,技术路线的选择、产品设计的优劣、市场策略的得当等因素都会影响最终的结果。但至少,苹果还有机会,还有时间。
结论
从AI和显卡的发展进度来看,AI如果要做到极高程度的可用,必然涉及到深度的个人隐私,本地+云端的双重处理是最适合的方案,隐私信息放在本地,由端侧的大模型进行信息整理汇总,脱敏后交给云端设备进行复杂计算,处理完成后再返回本地,添加个人信息并完成任务交付,这也和苹果去年在WWDC上公布的思路类似。
AI发展的必然路径与技术瓶颈
回顾AI技术的发展历程,我们可以看到一条清晰的演进路径:从单一功能的专家系统,到通用的大语言模型;从云端集中式计算,到云边端协同的分布式架构;从被动响应指令,到主动感知需求。这条路径不仅反映了技术能力的提升,也体现了用户需求的变化和隐私保护意识的增强。
然而,当前AI技术仍然面临着几个关键的瓶颈:
计算资源限制:尽管芯片技术不断进步,但在移动设备等终端上运行大规模AI模型仍然面临着计算资源的限制。特别是对于多模态理解、长文本处理等复杂任务,本地计算能力仍然不足。
数据隐私与可用性的矛盾:高质量的AI服务需要大量数据训练和个性化,但这与用户隐私保护之间存在天然的矛盾。如何在保护隐私的同时,提供高度个性化的AI服务,是一个亟待解决的问题。
系统集成与权限管理:将AI深度集成到操作系统中,涉及到复杂的系统架构设计和权限管理问题。如何在保证系统安全和稳定的前提下,为AI提供足够的系统访问权限,是一个技术和设计上的挑战。
用户体验与控制平衡:AI系统的自主性越强,用户的控制感就可能越弱。如何在提供智能服务的同时,保持用户对系统的控制感和理解度,是AI产品设计中的关键问题。
这些瓶颈不仅是技术层面的,更涉及到产品设计、用户体验、隐私保护等多个维度。解决这些问题,需要技术创新、产品创新和商业模式创新的共同推动。
本地计算与云端协同的技术架构
面对上述挑战,本地计算与云端协同的混合架构可能是一个平衡的解决方案。这种架构的核心思想是:
本地处理敏感数据:个人隐私数据(如照片、消息、健康数据等)在本地设备上处理,不上传到云端。
本地执行基础AI任务:基础的AI任务(如文本理解、图像识别等)在本地完成,减少对网络的依赖。
云端执行复杂计算:需要大规模计算资源的任务(如大模型推理、复杂数据分析等)在云端完成。
数据脱敏与差分隐私:需要上传到云端的数据进行脱敏处理,并采用差分隐私等技术保护用户隐私。
结果本地个性化:云端计算的结果返回本地后,结合本地数据进行个性化处理,提供更贴合用户需求的服务。
这种架构既能充分利用云端的强大计算能力,又能保护用户的隐私安全,同时还能提供离线可用的基础功能。苹果在WWDC上公布的Private Cloud Compute技术,正是这种思路的具体实践。
隐私保护与AI能力的平衡策略
在隐私保护与AI能力之间取得平衡,是未来AI产品成功的关键。可能的平衡策略包括:
分级隐私保护:根据数据的敏感程度,采用不同级别的隐私保护措施。例如,高敏感数据(如健康记录、财务信息)严格限制在本地处理,中等敏感数据(如浏览历史、应用使用情况)可以在脱敏后上传,低敏感数据(如设备型号、系统版本)可以直接上传。
用户可控的隐私设置:提供细粒度的隐私设置选项,让用户自主决定哪些数据可以被AI访问,哪些数据需要严格保护。同时,提供清晰的隐私政策说明和数据使用透明度,增强用户信任。
联邦学习与差分隐私:采用联邦学习技术,在不共享原始数据的情况下,通过共享模型更新来实现协作学习。同时,使用差分隐私技术,在数据中添加适量噪声,保护个体隐私的同时保留统计特性。
本地个性化与云端通用模型:将个性化逻辑放在本地执行,云端只提供通用的基础模型。这样,用户的个性化偏好不需要上传到云端,既保护了隐私,又提供了个性化服务。
隐私增强技术研发:持续投入隐私增强技术的研发,如同态加密、安全多方计算、零知识证明等,为未来的AI服务提供更强的隐私保护能力。
这些策略的实施需要技术、产品和法规的共同支持。特别是在法规方面,随着GDPR、CCPA等隐私保护法规的实施,AI产品的隐私保护已经不仅是技术和产品问题,更是法律合规问题。
苹果战略布局的时间窗口分析
苹果也许走错了不少路,但好在技术发展没有那么快,要实现这套思路对于大模型和处理器都还需要至少1~2年的时间,同时手机、电脑的换代周期也在3~4年,不管是供应链还是竞品还是用户,都给苹果留足了时间去构思下一个时代的蓝图。
从时间窗口来看,苹果的AI战略布局大致可以分为三个阶段:
短期(1-2年):在现有硬件基础上,通过软件更新和云服务升级,提供基础的AI功能,如智能助手、照片分析、文本处理等。这一阶段的重点是建立AI基础设施,培养用户使用习惯,收集用户反馈。
中期(2-3年):随着芯片技术的进步和AI模型的优化,在设备端提供更强大的AI能力,实现更多任务的本地处理。同时,深化AI与操作系统的集成,提供系统级的AI服务。这一阶段的重点是提升AI的实用性和个性化程度,增强用户粘性。
长期(3-5年):随着AR/VR技术的成熟和新型交互方式的普及,实现AI与多模态交互的深度融合,提供沉浸式、自然的AI体验。同时,构建跨设备、跨场景的AI生态系统,实现全场景智能服务。这一阶段的重点是重塑用户与技术的交互方式,创造新的产品形态和商业模式。
这个时间窗口给了苹果足够的缓冲期,让其能够在AI领域逐步追赶并最终实现弯道超车。特别是考虑到苹果用户的高忠诚度和换机周期,苹果有足够的时间来完善其AI战略,而不必担心用户大规模流失。
行业生态重构的可能性
随着AI技术的深入发展和系统级集成,整个科技行业的生态可能面临重构。这种重构主要体现在以下几个方面:
平台与应用的关系重塑:随着系统级AI的崛起,操作系统平台可能会承担更多原本由应用提供的功能,如信息检索、内容创作、任务管理等。这可能导致某些类型的应用被平台功能所替代,而其他应用则需要重新定位自己的价值。
数据流动与价值分配的变化:当AI能够跨应用获取和处理数据时,数据的流动方式和价值分配机制可能发生变化。应用开发者可能需要重新考虑其数据策略和商业模式,以适应这种变化。
用户界面与交互范式的演进:随着AI的普及,传统的图形用户界面(GUI)可能逐渐被更自然、更智能的交互方式所补充或部分替代,如对话式界面、意图式交互等。这将改变应用的设计范式和用户体验标准。
硬件形态与功能的创新:为了更好地支持AI应用,硬件设备可能发生形态和功能上的创新,如更多的传感器、专用的AI处理单元、新型的输入输出设备等。这将为硬件厂商带来新的机遇和挑战。
商业模式与价值链的调整:随着AI成为核心竞争力,科技公司的商业模式和价值链可能需要调整。例如,从销售产品转向提供服务,从一次性购买转向订阅模式,从硬件利润转向数据价值等。
在这种生态重构中,苹果作为同时控制硬件、操作系统和服务的厂商,可能具有独特的优势。特别是在系统级AI方面,苹果有能力提供更加一体化、流畅的用户体验,这可能成为其未来的核心竞争力。
Apple Intelligence的发展路径预测
基于以上分析,我们可以对Apple Intelligence的发展路径做出以下预测:
阶段性推进:Apple Intelligence不会一蹴而就,而是会分阶段推进。初期可能专注于基础功能和用户体验,随后逐步扩展到更复杂的任务和场景。
隐私优先:隐私保护将是Apple Intelligence的核心特性,苹果可能会将其作为与竞争对手差异化的关键点。这意味着大量计算将在本地完成,只有必要的、脱敏的数据才会上传到云端。
生态协同:Apple Intelligence将充分利用苹果的硬件生态优势,实现跨设备的协同工作。例如,可以在iPhone上启动任务,在Mac上继续处理,在iPad上完成最终交付。
系统深度集成:与第三方AI应用不同,Apple Intelligence将深度集成到操作系统中,能够访问系统级的功能和数据,提供更加无缝的用户体验。
渐进式自动化:Apple Intelligence可能会采用渐进式的自动化策略,从辅助用户完成简单任务开始,逐步过渡到更复杂的任务自动化,同时保持用户的控制感和理解度。
新型交互探索:随着Vision Pro等新硬件的推出,Apple Intelligence可能会探索新型的交互方式,如空间计算、眼动追踪、手势识别等,为AI提供更自然的交互界面。
总的来说,Apple Intelligence,没那么容易实现,但还有的是时间。苹果的优势在于其完整的硬件生态和强大的本地计算能力,这使其能够提供差异化的AI体验。虽然在大模型研发方面起步较晚,但苹果可以通过系统级集成和隐私保护等方面的创新,在AI领域找到自己的位置。
后记
由于最近两年一直在做自研AI大模型相关的产品工作,最近受到不少新产品的启发,由此对AI未来的发展有一些展望,加上我本人又是乔布斯的粉丝,因此这篇文章选择从苹果的视角切入,试图分析苹果接下来有可能的发展路线,如何挽回近几年失败的战略布局,这篇分析梳理完之后,有些心中的疑问也得到了解答。
个人AI产品开发经验的启示
作为一名长期从事AI产品开发的从业者,我深刻体会到AI技术与产品之间的复杂关系。技术的进步固然重要,但如何将技术转化为真正有价值的产品体验,是一个更加复杂的问题。在这个过程中,我得到了一些关键启示:
用户需求优先于技术可能性:再先进的AI技术,如果不能解决用户的实际问题,也只是一个技术演示。真正成功的AI产品,必须以用户需求为出发点,而不是技术可能性。
降低认知负担是关键:优秀的AI产品应该减轻用户的认知负担,而不是增加它。这意味着AI应该主动理解用户意图,减少用户需要明确表达的信息量。
连续性体验胜过单点能力:用户更看重的是连贯、流畅的整体体验,而不是某个环节的卓越表现。一个各方面都及格的AI助手,往往比某一方面极其出色但其他方面糟糕的助手更受欢迎。
隐私与个性化的平衡:用户既希望获得高度个性化的服务,又担心隐私泄露。如何在这两者之间取得平衡,是AI产品设计中的核心挑战。
渐进式自动化:用户对AI的接受度是渐进的。一开始就试图全面接管用户的任务可能会引起抵触,而从辅助决策开始,逐步过渡到部分自动化,再到全面自动化,可能是更可行的路径。
这些启示与苹果的产品哲学有许多共鸣之处。苹果一直以来都注重用户体验的连续性和流畅性,注重降低用户的认知负担,注重隐私保护。这使得苹果在AI领域,特别是系统级AI方面,有着独特的优势。
苹果战略调整的必要性与可能性
近年来,苹果在AI领域的表现确实不尽如人意。Siri作为最早的主流语音助手之一,在功能和体验上已经落后于竞争对手。苹果在机器学习和AI研究方面的投入也相对保守,导致在大模型时代的到来时显得有些措手不及。
然而,这种局面并非不可挽回。苹果有着强大的技术实力、充足的资金储备和忠诚的用户群体,完全有能力在AI领域实现战略调整和追赶。事实上,我们已经看到了苹果在这方面的努力:
加大AI研究投入:苹果近年来加大了对AI研究的投入,包括收购AI初创公司、扩充AI研究团队、发表更多AI相关学术论文等。
强化芯片AI能力:苹果持续强化其自研芯片的AI处理能力,如增强Neural Engine性能、优化机器学习加速器等。
深化系统级AI集成:苹果正在将AI功能更深入地集成到iOS、macOS等操作系统中,如智能照片分析、实时文本识别、智能建议等。
探索新型AI交互:通过Vision Pro等新产品,苹果正在探索AI与新型交互方式的结合,为未来的AI体验奠定基础。
这些努力表明,苹果已经认识到AI的战略重要性,并开始进行相应的调整。虽然起步较晚,但苹果的技术积累和生态优势,使其仍有可能在AI领域实现弯道超车。
Vision Pro的战略定位重新思考
Vision Pro是否会停产?肯定不会,因为眼镜的形态意味着可以实时获取现实信息,可以让AI获取到远胜于手机的信息,必然是下一阶段的智能设备形态。
Vision Pro的推出,曾引发市场的诸多质疑:高昂的价格、有限的应用场景、不够便携的设计等。然而,如果我们将Vision Pro放在AI发展的大背景下重新思考,可能会得出不同的结论。
Vision Pro不应该被简单地视为一款VR/AR设备,而应该被看作是苹果探索下一代计算平台和人机交互方式的重要尝试。它具有以下战略意义:
环境感知能力:Vision Pro配备了多个摄像头和传感器,能够实时感知和理解周围环境。这种能力对于AI系统理解用户所处的物理环境、提供情境相关的服务至关重要。
自然交互界面:Vision Pro通过眼动追踪、手势识别等技术,实现了更加自然的人机交互。这种交互方式比传统的触摸屏或键盘鼠标更接近人类的自然行为,有助于降低与AI系统交互的认知负担。
混合现实体验:Vision Pro能够将数字内容与物理世界无缝融合,创造混合现实体验。这种能力使AI系统能够以更直观的方式呈现信息和提供服务,如在物理空间中放置虚拟屏幕、标注实物信息等。
空间计算平台:Vision Pro不仅是一个显示设备,更是一个空间计算平台。它能够理解三维空间,支持在空间中进行内容创作和交互,为AI提供了全新的应用场景。
从这个角度看,Vision Pro可能是苹果AI战略的重要组成部分,是其探索下一代AI交互界面的重要尝试。虽然当前版本可能存在诸多限制,但随着技术的进步和成本的降低,类似的设备可能会成为AI时代的主流交互终端。
大模型厂商硬件布局的深层逻辑
为什么大模型厂商纷纷开始做硬件?同样是因为随时携带的硬件可以7*24获取现实信息,不再受到app/网页框架的束缚,随时帮你解决问题且不需要你解释背景。
近期,我们看到多家大模型厂商开始涉足硬件领域:OpenAI传闻中的AI设备项目、Anthropic与亚马逊的硬件合作、Google的Pixel系列强化AI功能等。这种趋势背后有着深层的逻辑:
获取一手数据:拥有硬件意味着可以直接获取用户的一手数据,而不必依赖第三方平台。这些数据对于训练和优化AI模型至关重要,特别是对于个性化服务。
控制用户触点:硬件是用户与AI系统交互的直接触点。通过控制这一触点,AI厂商可以提供更加一致、流畅的用户体验,减少对第三方平台的依赖。
实现端到端优化:拥有硬件和AI模型的双重控制权,使得厂商可以进行端到端的优化,如针对特定硬件优化模型性能、根据硬件能力调整模型复杂度等。
构建闭环生态:硬件是构建闭环生态系统的重要环节。通过硬件、软件、服务的协同,AI厂商可以创造更高的用户粘性和更强的竞争壁垒。
实现环境感知:硬件设备,特别是移动设备和可穿戴设备,能够实时感知用户所处的环境和状态。这种感知能力使AI系统能够提供更加情境相关的服务。
这种趋势表明,AI的未来发展方向可能不仅仅是算法和模型的进步,还包括硬件形态的创新和人机交互方式的变革。在这个过程中,像苹果这样同时掌握硬件和软件的厂商,可能具有独特的优势。
更多系统级AI应用场景构想
如果系统级AI能够实现的话,有几个场景我觉得挺实用的,顺便分享一下:
智能购物助手:你忽然想起前几周看过的一条裤子,想趁着活动下单,但不记得是在哪看的了。AI可以帮你搜刮微信聊天记录、小红书浏览记录、淘宝浏览记录、抖音直播记录、相册,帮你找到它的图片和名字,然后在不同平台比价,找到最低价格,由你直接确认下单。
智能家居管理:你装修了房子,让Siri帮忙设置智能家居的场景,它根据家里的设备和你的生活习惯,自动调整了工作日、假期的智能场景,并且创建了多个快捷指令和自动化程序供你调用。
除了这两个基础场景,系统级AI还可以实现更多创新应用:
全场景知识管理:AI可以自动整合你在各个应用中的笔记、标注、收藏内容,构建个人知识库。当你需要查找某个信息时,无需记住它保存在哪个应用中,只需向AI描述你要找的内容,它就能从你的全部数字足迹中找到相关信息。
智能日程规划:基于对你日常活动模式的理解,AI可以主动规划你的日程,如安排最佳的会议时间、提醒你预留通勤时间、根据天气调整户外活动计划等。它不仅考虑日历上的正式安排,还会考虑你的习惯和偏好。
健康生活管理:AI可以整合你的运动数据、饮食记录、睡眠情况、工作压力等信息,提供全面的健康管理建议。例如,当检测到你连续几天睡眠不足时,它可能会建议调整工作安排,或者在日程中预留休息时间。
智能内容创作:当你需要创作内容(如文档、演示、设计)时,AI可以根据你过去的作品风格、当前的项目需求、团队的反馈意见等,提供个性化的创作建议和辅助。它不仅能帮你生成内容,还能根据你的风格进行调整。
社交关系管理:AI可以帮助你维护社交关系,如提醒你与久未联系的朋友重新建立联系、在重要日期(如生日、纪念日)前提醒你准备礼物、根据对方的兴趣推荐话题等。
个人财务顾问:通过分析你的消费记录、收入情况、投资偏好等,AI可以提供个性化的财务建议,如预算规划、消费优化、投资建议等。它可以识别不必要的订阅服务、找出可能的节省空间、提醒即将到来的大额支出等。
这些场景的实现,需要AI能够跨应用获取信息、理解用户意图、执行复杂操作。虽然当前技术还存在一定差距,但随着AI技术的进步和系统集成的深入,这些场景有望在未来几年内逐步实现。
对AI与人类关系的哲学思考
在结束这篇文章之前,我想分享一些对AI与人类关系的哲学思考。随着AI技术的发展,特别是系统级AI的出现,AI与人类的关系正在发生深刻变化。这种变化不仅是技术层面的,更是认知和哲学层面的。
工具与伙伴的边界:传统上,技术被视为人类的工具,是被动的、受控的。但随着AI的自主性增强,它正在从纯粹的工具向伙伴的角色转变。这种转变挑战了我们对工具与伙伴边界的传统认知。
隐私与便利的权衡:系统级AI需要访问大量个人数据才能提供高质量服务,这使得隐私与便利之间的权衡变得更加复杂。我们需要思考,为了获得AI带来的便利,我们愿意放弃多少隐私?
自主性与控制权的平衡:随着AI自主性的增强,人类对技术的控制权可能面临挑战。如何在赋予AI足够自主性的同时,保持人类的最终控制权,是一个需要深入思考的问题。
技能退化与能力增强的悖论:依赖AI可能导致某些人类技能的退化,如记忆力、方向感等。但同时,AI也可能增强人类的其他能力,如创造力、决策能力等。如何看待这种变化,是退化还是进化?
身份认同与技术融合:当AI深度融入我们的日常生活,甚至成为我们认知和决策的一部分时,它可能影响我们的身份认同。我们是否会将AI视为自我的延伸,而不仅仅是外部工具?
这些哲学问题没有简单的答案,但它们值得我们深入思考。在设计和使用AI系统时,我们不仅需要考虑技术和商业因素,还需要考虑这些深层次的哲学问题。只有这样,我们才能确保AI的发展方向与人类的长远利益相一致。
总的来说,AI技术的发展正在重塑人类与技术的关系,创造新的可能性,也带来新的挑战。作为这一变革的参与者和见证者,我们有责任思考这些深层次的问题,引导AI向着增强人类能力、尊重人类价值的方向发展。
