引言
自 ChatGPT 和 Stable Diffusion 石破天惊的亮相以来,生成式 AI 的步伐就一刻没有停止过。这种发展速度既让人赞叹,也难免引起一些焦虑和困惑:AI 如今究竟发展到了什么程度?我是不是错过了很多?现在应该从何入手?
为此,我们从少数派的用户和作者中邀请了六位对 AI 有着丰富经验和深入思考的朋友:Fairyex、MrCoffeeTalker、清顺、万千十一、炜智能、玉树芝兰(按用户名的字母和拼音序排列),开展了一次圆桌讨论。他们有的是 ChatGPT 深入教程的作者,有的是教学领域与 AI 密切相关的老师,有的是大量使用 AI 辅助实际工作的科技从业者,还有的是极具动手能力和分享精神的 AI 爱好者。
提问时,我们既包括了工具推荐、选择心得这类实用导向的问题,也涉及了负责任使用、开放与封闭之争等讨论广泛、尚无定论的方法论层面问题,还邀请大家聊了聊自己对 AI 的认识转变和期待展望。我们希望这些问答不仅能帮助你理解 AI 行业的发展现状、选择合适的 AI 工具,以及避免一些陷阱和误区,也能引发思考、抛砖引玉;欢迎大家在评论中积极表达自己观点。
以下回答内容由作者提供,代表作者个人观点,我们仅出于使阅读流畅、控制篇幅目的作部分词句调整和精简。本次问答开展于 2024 年 3 月初,其中信息的有效性可能随时间推移发生变化,请读者注意。
工具推荐
请分享一下你目前主要在用的 AI 工具。
Fairyex
去年年初各种人工智能产品百花齐放的时候,基本上所有产品我都在混搭使用。不过现在随着大模型落地应用越来越成熟,我在用的只有下面这几个,基本上大家没用过也听过:
VSCode 上的 Copilot:一个 AI 编程辅助助手,可以帮助你生成代码,解释代码,编写注释,修复 BUG 等等。是推出比较早也最多人使用的 AI 变成辅助服务。
GPT-4:目前还是现在通用大模型领域最好的产品。
Stable Diffusion:AI 绘画绕不过的选项,WebUI 和 ComfyUI 同时都在用。未来我还会尝试 Sora 和新的 SD 模型。
MrCoffeeTalker
- ChatGPT:OpenAI 最广为人知的 AI 工具了,我用的比较多的是移动端 app,为了联网搜索和自定义 GPT 订阅了 Plus。日常会用来代替部分传统的联网搜索、处理难理解的文本、跨领域学习或解决问题,比如我之前体检加项就找了 AI 帮忙。因为基础的 AI 知识面比较泛,难解决特定专业领域的问题,工作生活上我也搭建过一些自用的 GPT,像是基于美国农业部食品数据搭建的痛风饮食健康助手、基于版署新旧规搭建的政策研究助手。
- Gemini(原 Bard):用作 ChatGPT 联网搜索的替代品,在联网搜索和联动 Google 自家生态上更胜一筹,比如找网页、YouTube 视频、或是自己的 Gmail 邮件。虽然网上很多测评说 Google Gemini 如何拉,但免费的联网搜索还是香,而且 ChatGPT 联网搜的质量很容易被 Bing 搜索拖后腿,这时候基于 Google 搜索的 Gemini 就很香了。根据我之前的测试,Gemini 能搜索的范围应该比 GPT-4 还广。找一些 YouTube 视频,也会优先考虑用 Gemini,毕竟可以直接联动 YouTube 搜索。有时需要找 Gmail 里的邮件也可以让 Gemini 帮忙,这部分也是 ChatGPT 难替代的。
- GPT-3.5 API:通过 OpenAI API 调用的模型,我主要用在了各种定制的自动化上,像是内容平台舆情监控、Notion 页面自动添加图标、公开发过的动态自动分类、小众文本批量翻译。
- Notion AI:内嵌在笔记工具 Notion 里的 AI,分为页面、数据库、全局问答 3 种使用场景。笔记页面上,我一般会它用来生成摘要、提取待办、优化文本可读性、文本转表格;数据库中,用来生成页面摘要、提取正文要点、多语言翻译;全局问答则是用来找笔记为主——想不起来一条笔记存哪了、关键词也搜不出来,就用还能回忆的描述让 AI 帮忙找。我将各处笔记集中同步到 Notion,相当于能借 Notion AI 快速找到我在 Notion、稍后读 app 和播客 app 里的笔记。(之前也写过一篇少数派文章介绍我的试玩体验。)
- Kimi Chat:从即刻了解到的一个新兴的国产 AI 工具,擅长处理超长的上下文,也能联网搜索,我会用在一些目标信源中文为主的研究、或是中文长文的要点提取上。
- Snipd:带 AI 功能的播客应用,很适合「干货类」播客的学习。能实时查看当前讲到的英文字幕位置、点击跳转指定文本的讲述时间、记播客笔记并同步到 Notion。AI 功能主要体现在播客拆分章节、辅助笔记上,听到有共鸣或启发的片段时点按钮记笔记,会自动识别起止范围,并根据这段内容生成笔记标题和摘要,识别范围不合预期也可以手动调整重新生成。
清顺
我只用 ChatGPT 这个独当一面的 AI 工具。ChatGPT 无法直接满足的需求,我会利用它来编写工具,而不是转向其他 AI 工具。考虑到我的需求主要是文本处理,我也并不需要特别复杂的 AI 工具。
万千十一
- ChatGPT:无需介绍。主要用来体验 OpenAI 各种实验性的新功能以及当前全世界最领先的 GPT-4 模型。
- 智谱清言:智谱 AI 推出的面向个人用户 AI 对话工具,对标 ChatGPT,其新上架的 GLM-4 是国内最接近 GPT-4 的模型,可免费体验。作为 MenubarX 的一个固定页面日常使用,省掉 $20 的 ChatGPT Plus 订阅费用,也免于受网络和请求频率限制。
- Ollama:轻松玩转本地大模型。用于体验测试各类新品模型及 AI 应用本地开发。
- Raycast Ollama:Raycast 插件,既可作为一个 Ollama 前端和模型对话,也能借助 Raycast 提供的系统接口直接读取文件、文本、图片等作为输入,是 Raycast AI 的平替(甚至更强)。用于各类指尖 AI 请求,如选中文本后解释、翻译、检查、改写等,省去频繁的复制粘贴。
- Poe:大模型广场。用于体验本地难以部署的模型。
炜智能
我比较注重个人数据的隐私和安全问题,无论工作还是生活,除了一些没办法避免的数据,一般都会比较谨慎地使用那些在线服务。AI 工具类的服务更是如此,因此我目前用的比较多的都是些能本地运行的开源项目。
- Stable Diffusion:通过文本自动生成符合描述的图像,搭配一些扩展插件可以完成近乎所有图像相关的任务。
- Whisper:语音转录工具,可以在本地很高效地将大部分常见语种的音频转录为文本。
- sovits:音色转换模型,通过 2 小时左右的高质量干声素材克隆一个人的音色,搭配微软 TTS 服务也能实现文本转语音的效果。目前有不少同类项目,只用更少的素材就能达到类似的效果,我因为之前已经用它训练了不少模型,就懒得用别的了。
- NVIDIA Broadcast:英伟达 2060 以上显卡可用的一个本地麦克风、摄像头优化软件。我主要就是用它给麦克风降噪,可以很轻松地在通话中去除键盘鼠标的声音,如果房间里有回声的话也可以消除。
- 通义灵码:这个是阿里推出的一个编程专用大语言模型,目前免费开放,编辑器里装个插件就能用。这个纯粹是装着玩的,偶尔用它写写注释、查查函数还是不错的,属于那种有的话用用,没有也无所谓的工具。
玉树芝兰
我最常用的 AI 工具是 ChatGPT Plus,主要用于搜索信息、编辑润色文稿、翻译和编程等。另外我也会用 ChatGPT 内置的 DALL-E 3 模型创作博客和视频封面;以及 Midjourney,它在绘图细节上更符合我的需求,为我的创意提供了更多灵活性。
Perplexity 则用于搜集、汇总和综合分析资料,是我日常工作中不可或缺的工具之一。它补充了 ChatGPT 在长文本处理和代码解释方面的不足。
如果涉及隐私和敏感信息,我更喜欢使用 Setapp 提供的 TypingMind。这个工具基于 GPT-4,支持图像识别和安全的 API 调用,避免了数据被 OpenAI 拿去训练带来的风险。
此外,Setapp 中的 MurmurType 为我提供了便捷的语音转录服务,极大地提高了我的日常工作效率。
成本开支
你每个月在 AI 类工具上的花费大约是多少?是否觉得物有所值,为什么?
Fairyex
每个月只用支付 GPT-4 的 20 美元。Copilot 是免费的,Stable Diffusion 和 ComfyUI 都是开源的,自然免费。
至于值不值得,就目前这个价格而言,只要你使用过上面任意一个产品和服务,应该都会觉得物超所值。无论是 Copilot 的代码辅助功能、GPT-4 的 GPTs 模型商店,还是 SD 的直接图片生成能力,这些工具不仅能帮助我更快更好地完成现有工作,还能以极其经济和迅速的方式激发新的灵感。它们让我能够探索以往未曾接触的新领域。这些曾经珍贵的资源,现在大多数都能免费提供给每个人,这是非常难得的机会。
MrCoffeeTalker
每个月在 AI 工具上大约要花 58—68 美元,包括:
- ChatGPT:Plus 订阅 20 美元。
- GPT-3.5 API:按用量开销 30–40 美元,花费是最高的,但效果也确实好。对我来说价值最高的是用在舆情监控上,能覆盖指定平台几乎 100% 新发布内容,比传统的关键词匹配更灵活,不需要针对关注的主题持续更新关键词库,即便混合多国语言、用黑话或火星文一类的不常见表达也能识别出来。这个费用远低于新增一个人的人力成本,何况找人每天给上千条数据打标签会太过折磨。
- Notion AI:年度订阅月均 8 美元。我是很多笔记都存在 Notion 里的重度用户,找笔记方便了很多,也能用来提高文字编辑效率。
整体感觉还是比较值的,尤其是后两项。
清顺
ChatGPT Plus 每月 20 美元,觉得值得。用惯了 GPT 4,受不了 GPT 3.5。尤其是在处理稍微复杂一些的需求时,GPT-3.5 与 GPT-4 的性能差距变得非常明显。
万千十一
之前订阅 ChatGPT Plus, 每月 20 美元,但现已取消改用 OpenAI API,按量付费。GPT-4 作为目前最领先的模型,非常值得一试,很可能体验过就再也不愿用 GPT-3.5 了;但网络和请求频率限制大大影响了体验,同时 GPTs 的生态也远未完善。从普通用户的视角我认为是物有所值的,但作为开发者,为 API 付费可能是更好的选择。
炜智能
一分钱都不花。倒不是舍不得那点订阅费,主要还是因为没有强需求。就像打游戏那样,如果想爽玩外服游戏,那么免不了开个加速器,但如果只是玩国内的网游,那么即使加速器也能一定程度上减少延迟,相信也不会有多少人为此掏钱。
我个人了解的商用 AI 工具其实没多少,平时接触的比较多的其实是那些开源的 AI 项目。那些项目虽然免费,但大多使用门槛较高,如果把时间成本算进去的话,也不见得便宜多少,毕竟为了实现一个功能,可能需要体验不少项目才能确定最终方案,确定之后还需要根据自己的需求魔改一些代码或是编写新的脚本。
因为除了一点电费和显卡损耗之外也没花啥钱,我也只能讲讲那些时间花的对我来说值不值。只从结果上来说,其实不太值,因为大部分尝试的结果都是差强人意,能用,但总差了点意思。从过程上来说,那就绝对是物超所值,自己训练或微调出一个模型的过程相当好玩,更不用说这个模型还能解决一些实际问题。
玉树芝兰
我目前订阅 AI 应用的总体月支出大约有几十美元:
- ChatGPT Plus 订阅费用为每月 20 美元;
- Midjourney 的最低套餐约为 10 美元;
- 通过优惠码和推荐用户,我享受到了 Perplexity 的折后价格,近期大约每月 10 美元。
- Setapp 原本提供了极具性价比的服务,每月支付 10 美元,你就可以拥有 10 美金的 AI 调用额度,其余的大量软件订阅(例如 CleanmyMac、Ulysses、Craft 等等)都相当于白送。但 2 月底随着 AI 专业套餐的引入,Setapp 使用成本有所上升,我选择的 AI Expert 套餐,每个月得多交 10 美金,相当于成本上涨了一倍。
作为工薪阶层,我也一直在衡量每一笔开支的必要性。尽管花费不菲,考虑到这些工具在文章和视频制作、校对、翻译以及信息整理方面带来的巨大价值,我依然认为物有所值的。例如在信息搜寻上,我的使用习惯已从主要依赖 Google 搜索转变为使用更高效的 Perplexity 自动汇总,因为这显著提高了我的工作效率。
选择心得
你一般如何挑选和评估 AI 类工具?
Fairyex
目前 AI 产品真的是多到不行,但是选择虽然多,能够不用折腾、调教,直接完成我们大部分人常见要求的还真不多。所以我在挑选产品的时候会更看中产品的灵活性。所谓灵活性,就是我能够对这个产品的生成效果拥有多少控制。在这方面,开源的产品拥有很大优势。如果产品不开源,那就要看是否有足够的控制选项,能让我根据自己的需求来控制生成效果,或者插入到自己现有的工作流程中。
产品的能力可以参考基于测试集的结果,例如测试自然语言处理的 GLUE、SQuAD,专用于中文测试的 WebQA、CMRC 等。(更多介绍我在付费栏目中写过。)
此外还要考虑使用难度和价格。除非特别注重质量,不然对于大部分人而言,容易使用,价格便宜甚至免费还是最有吸引力的因素。
按这些标准:
- 综合能力最强的还是不开源而且要加 20 美元的 ChatGPT Plus。虽然不开源,但是 OpenAI 的生态发展的很完善,无论是 GPTs 商店里面的应用数量,还是丰富的 API 和完善的文档,支持图片文档处理还有未来的视频的聚合使用多模态等等功能都建立起了相当高的护城河。
- 选择 GitHub Copilot 自然是因为能够免费用,和 VS Code 整合度足够高,无论是安装还是使用起来非常流畅,像是软件的原生功能一样。即使效果差点也能够接受,反正不会用它完整生成代码,辅助编程足够使用。
- 灵活度最好的自然还是 Stable Diffusion:本身开源,如果想要降低使用难度,网上也有各种一键打包的 WebUI,各种 LoRA 模型基本都是为 Stable Diffusion 打造,生态十分丰富;也有 ComfyUI 这种能够控制图片生成流程的项目,以及其它在 Stable Diffusion 本身基础上打造的各种项目。总之,无论是个人自用还是用来做商业项目都能满足。
MrCoffeeTalker
很少会专门找一堆横向对比,一般是发现有人做了比较亮眼的案例、或是出现某个 AI 工具的热点,刚好手头有相关的待解决问题就去了解尝试。
如果一定要主动挑选评估的话,我会关注这些:
- 兴趣匹配度:是否匹配我当前迫切想解决的某个重要问题、或我想探索的方向。比如我一开始对 ChatGPT 是无感的,倒是更早尝试起了 Notion AI,因为我有很多笔记在 Notion 里,对如何挖掘 Notion 的效率潜力很感兴趣;但后来当我需要做舆情监控时,我就发现 Notion AI 虽然也能给数据库里的内容分类,但准确率低、很不稳定,于是摸索着用起了 ChatGPT 和 GPT-3.5 API。
- 测试效果:在一些具体的使用场景中尝试 AI 工具,看效果是否符合预期或超预期。如果某个使用场景下还没有已采用的 AI 工具,只要符合预期就会再用一段时间看看;但如果已经有在用其他 AI 工具,则往往要超预期才有可能转到新工具。比如我对比 Notion AI 和 GPT-3.5 在批量分类的效果,发现后者更准确、速度也更快,于是把方案转向了围绕 GPT-3.5 搭建。
- 个人开发难度:如果不采用现成的工具而是自己开发一个定制的解决方案,预期的投入如何。虽然现在市面上有各式各样的 AI 工具,但作为自动化玩家,我已经有了低代码工具 Make 和 Pipedream 的使用经验,GPT API 也开通了。如果我能自己快速搭建出解决方案,并根据自己的需求随时调整,那现成工具对我的吸引力也会弱化很多。
- 定价:定价我一般最后再考虑。有时遇到新的 AI 工具会提前找价格表了解下付费模式和价格,但是否能接受,还是要了解具体的功能、试过之后才好判断。从去年的经历来看,目前我对 AI 工具定价的可接受阈值相比常规 app 订阅还是更高一些的,但前提是切中个人兴趣点、能跑出效果。
清顺
挑选工具的依据很简单,关键是这个花费是否能够满足你的需求。换言之,节省的时间和成本能不能证明费用合理。
但如我之前所说,我几乎只使用GPT,并且当有特定的工具需求时,我会直接利用AI来自己开发定制工具。为什么不再挑选 AI 工具了?因为现在 AI 的发展速度太快,每个月都会出现大量新工具和新模型,作为个人我没有时间去逐一评估。
因此,我现在基本上不再寻找工具,而是探索更多的使用方式。我特别喜欢在社区里看看大家分享的新提示词和新角度。对于一些小功能,我不需要外部工具,直接自己开发更方便。
我觉得现在的状况有点像以前的笔记工具,大家都在不断寻找新的AI模型和工具,每当有新东西出现时,都会感到非常震惊,好像它们推出了什么革命性的功能,声称在某方面领先。但实际上,这并没有太大意义。至少目前来说,如果你是一个开发者或有特殊需求,可能还需要关注这些工具;但对于个人用户来说,不应该浪费时间在挑选AI工具上。如果某个 AI 工具真的很好,它自然会脱颖而出。
万千十一
多数情况下我会更关注其目标需求和功能实现,需求是 AI 应用渗透的观察,实现则作为学习借鉴。通常优选开源工具,生态对于开源工具十分重要,会多关注其兼容性和拓展性、社区活跃度等。
在定价方式上,目前有两大主流类型,即软件买断和服务订阅,前者如 MindMac,如果切中了痛点需求,付费较为值得;后者如 Raycast AI 等,容易导致订阅碎片化,需要综合考虑。
炜智能
付费的商用 AI 了解不多,只能说说我是如何挑选开源 AI 项目的。一般分为两种情况。
第一种是我有明确需求。这种时候就是先通过不同平台得到的信息列出几个候选项目,然后到 GitHub 上查看一下它们的项目文档,评估一下效果和训练难度。
像一些效果很好,但是显卡要求过高、训练难度过大(比如数据集要花大量时间预处理)的项目,我一般都不太考虑。对于可以在我的电脑上部署的项目,只要 GitHub 上的 Star 数高于我的心理预期,那我一般都会尝试一下。当然,大部分情况下都是 Star 数最高或次高的项目会投入实际使用。
其实非常好理解,不考虑刷星的情况下,收藏的人越多说明用的人越多,用的人多肯定有其独到之处,起码遇到问题解决起来简单,而且网上可找到的模型也多——比较典型的例子就是 SD。
另一种情况是没有明确需求,那就随意多了。这种时候我只有一个评价标准:是否有趣。
玉树芝兰
首先看功能是否强大,能否满足我的需求。在预算约束下,我一般会选择目前最强的那一款。例如,文本生成我选择 GPT-4、绘图选择 Midjourney,信息检索选择 Perplexity,这些都是各自领域内性能最为卓越的工具。新兴工具每天都在出现,都会以各种特色来博眼球,这我完全可以理解。但除非足够打动我(例如 Gemini 1.5 Pro 超长上下文窗口这样的特性),我会更倾向于使用已被广泛认可的应用。
关于定价模式,多数 AI 工具目前都会采用订阅制,这反映了运行这些工具所需的高算力成本。例如,OpenAI 的 ChatGPT Plus 费用为每月 20 美元,这基本上就是目前 AI 应用领域的基准价格。大部分 GPT-4 级别的大语言模型服务,定价也会在上下 10 美金的区间内浮动。这种定价策略并非无端增加用户成本榨取利润,而是提供商首先需要足够的收入以覆盖成本。毕竟,背后的算力,不管是买(高端显卡)还是租用(例如 AWS, Azure 等云计算),都是需要花钱的。
至于生态,我特别看重工具背后的支持和开发社区。比如,微软最近投资 Mistral,就会让用户(包括我)更为相信 Mistral 这家公司的可靠性和创新潜力。
使用场景
你受益于 AI 最多的使用场景是什么?
Fairyex
习惯 AI 之后,无论是工作还是生活中,基本上所有场景能用 AI 的我都会至少尝试一下。接下来就说两个主要的场景。
首先,我的工作需要经常编写各种代码。最近也在做一个大的自动化项目。在使用 Copilot 之前,就是在电脑前面一行一行的敲代码,编辑器能提供的最大帮助无非是自动补全方法和函数。而现在有了 Copilot 就爽了,一个 #
号走天下,想要实现某些功能的函数,直接输入# 函数接受的参数,需要输出的数据
,然后就是看着 Copilot 咔咔直接给我生成整个函数,连函数名和变量名都不用想。
之前遇到某个类或者函数忘记怎么用了会直接上网查,现在也习惯直接向 Copilot 提问。复制的代码直接粘贴加上改写要求,Copilot 直接改写成适合项目的代码,还有修改代码生成注释甚至直接根据报错信息修 BUG。
总之,用上 Copilot 有一种工作流不被打断的流畅舒服感,而且可以实实在在的减少打字和用脑子思考的的数量,专注于整个工程的流程、结构,就像是从手工时代进入工业自动化时代,解放了生产力。
不过,Copilot 最擅长的就是辅助编程,而生成代码并不是它最擅长的,这个时候我就会尝试交给 GPT-4。(目前已经有开发者使用 GPT-4 生成的代码打造了一个完整的产品,例如白描开发者的新应用。)当然 GPT-4 也不是万能的,我的做法是根据代码复杂度,先预设一个给 AI 尝试的时间,如果超过这个时间 GPT 还不能生成令我满意的代码,那么就决定自己手写。这就保证了 AI 总能给自己带来正向收益。
另一个场景是文章写作。除了常规的生成外,我目前在尝试看看能不能用 AI 辅助完成更大、更复杂的创意类项目。
MrCoffeeTalker
网络搜索。以前找资料还要 Google 搜索,在不同的网页之间辗转、筛出高质量的结果、花很多时间阅读做笔记,如果一轮搜索没能解决问题,还要再重复这个过程,动辄半天时间花在这上面。现在有了像 GPT-4(ChatGPT)、Gemini、Kimi Chat 这样的联网搜索 AI,可以直接让它们帮忙搜索,几分钟就能快速了解相关信息,没有烦人的广告弹窗,有问题也可以追问更多,省略了很多搜索过程中的低效时间。
清顺
我是一名兴趣驱动的业余开发者,对编程知识的掌握并不深入。之前想用新框架开发新工具时,我通常需要花费大量时间全面了解该框架。有了 AI 后,工作流程简化了很多:我只需将自己的需求细化,然后直接交给 AI 处理。这样,我的角色就从一个编程学习者转变为了代码审查者,只需要检查 AI 生成的代码是否正确,如果需要再修改。这一切只需了解一些编程的基础知识,极大地降低了开发门槛。
万千十一
开发提示。
用 AI 前:浏览器 → 关键词 Google ↔ StackOverflow → 理解 → 编写
用 AI 后:GPT-4 → 问题 → 答案/代码
炜智能
可能有点小众——制作 replay 视频,也就是没有选项的文字冒险游戏,主要构成就是场景、人物和台词。以前个人想要较为完美地完成这些是比较困难的,许多素材只能用网上能找到的似是而非的东西替代,但如今搭配使用不同的 AI 工具可以较为轻松的完成这一切。
- 语音转文本:在 Whisper 开源之后,个人用户本地转录比以前的联网服务方便了不少,起码不用一个个上传到云端,速度慢不说,隐私性还差。通过我自己编写的脚本,可以使用本地的 Whisper 模型批量转录之前切好的音频文件,并按照序号顺序自动生成对话脚本。
- 场景和人物立绘:使用 Stable Diffusion 的话很轻松就能解决,多生成几批,总能选到能用的。只要肯花时间挑选模型和调参数,基本什么人设都能画出来。追求完美的话,甚至可以自己摆 POSE 作为素材来画立绘。唯一可惜的是,大部分模型只会画年轻女性,男人和老人需要专门去找合适的特化模型才有好的效果。
- 音乐:偶尔会用 audiocraft 生成一些片段来换换口味,但用的不多,主要原因是成品并不准备发布和盈利,基本是喜欢啥音乐就配啥音乐,自己开心就好。
- 语音:因为我一般充当主持人,除了念介绍之外还会扮演一些剧情中的 NPC,所以后期如果手头正好有合适的 sovits 音色模型的话也会顺手给那些我扮演的 NPC 的语音换个音色,增加一点的代入感。
- 代码:使用 renpy,一个基于 Python 编写的游戏引擎,所以里面定制化功能的实现主要靠的还是 Python,这也就意味着大部分代码辅助 AI 都可以用来辅助脚本编写。我本人对这种辅助工具其实依赖性不大,不过我还是在 VSCode 里面装了个阿里的「通义灵码」插件体验了一阵子,确实能提高一点开发效率。
其实目前比较流行的 AI 工具都是利好个人创作的,让不懂美术、音乐、配音的普通人都有机会以较低的学习成本创作出让自己满意的作品。最近发布不久的 Sora 文本视频大模型更是将个人创作的能力进一步放大,相信不久之后往我的 replay 中插入自制的 CG 也不再会是件难事。
玉树芝兰
好处有很多,这里分别介绍绘图和编程两个场景。
在绘图方面,DALL-E 3 和 Midjourney 使我能够根据具体需求快速生成封面图,省去了以往在免费图库中漫长搜索还经常一无所获的痛苦过程。当我需要一个特定主题的封面时,DALL-E 3 可以理解我的需求,把简单的话语转换成非常详细的英文提示词。如果我对 DALL-E 3 生成的图片不够满意, Midjourney 则可以利用这个提示词,快速提供多个高质量的选项供我选择,这种把「所想即所画」变成现实的能力,解决了我这样不会画图作者的刚需。
就连我的著作封面,也是用 AI 帮助绘制的。
在编程方面,我平时折腾效率工具,需要在不同应用之间传递数据,或者把一些固定的琐碎工作流程用编程的方式重复调用,因此免不得得编写代码。目前我习惯使用 devv.ai 和 ChatGPT 构建初始框架,然后用 GitHub Copilot 对话式编程,大幅度地提升了我的编程效率。
过去的这个寒假里,我编写了一套多 LLM 混合调用流程,可以把平时的润色、翻译等工作,变成一键搞定。每当我在编程中遇到问题,都可以通过与大语言模型交互来解决,这比传统的自行查找 stackoverflow 等网站的解决方案要高效得多。这种协作方式不仅节约了我的时间,也提高了编程的愉悦度。
主要缺陷
你认为目前限制 AI 工具使用效果和推广普及的障碍都有哪些?
Fairyex
目前 AI 产品可以由我们自己控制的部分实在太少了。这一部分是 AI 模型本身的不透明决定的,但另一方面也因为大部分产品都过于注重效果展示,而没有认认真真当做一个面向普罗大众的产品来打磨。
具体来说,市面上很多产品的宣传和说明都不足以让用户对其定位和能力建立清晰的认识,而且在使用体验上走两个极端:要么是像大部分开源产品一样的「毛坯房」,参数倒是能控制很多,云里雾里的说明文档还能够把专业用户都劝退一部分;要么就做一个很酷的 UI,实际能用的只有一个输入框,生成什么样的效果全看运气和调教倾向,开放程度也不够、没有办法形成生态,结果只能满足一些非常通用和基础的需求。
矮子里面挑将军,目前还得是 OpenAI 在易用性,效果和参数开放的平衡上做得不错,特别是 GPTs 功能让普通用户不需要编程基础就能够用自然语言制作模型,自用或者分享。
MrCoffeeTalker
全流程能力不足。网上有很多声音渲染 AI 如何强大、有多少岗位会被替代。但根据我自己过去一年的尝试,至少在处理文字的 AI 目前还更多适合当「副驾」、处理原本工作流中的低效环节,离「全自动驾驶」还很远。
宣传方向疏远用户。AI 产品宣传有做得好的,但似乎不多见。(我个人比较喜欢的一个案例是 Arc 浏览器的宣传片,整体的节奏塑造得很好,让人忍不住想多看几遍。)看到的更多是指标宣传、跑分刷榜;一些产品似乎更喜欢展示好看的局部指标,宣传自己在某方向超越了世界领先水平,但这些指标对用户意味着什么、是否重要则闭口不提,很像是面向投资人的宣传。好在少数一些好好做的产品,还能通过口口相传了解到。
缺乏长期使用的动机。AI 的确变得很强大了,但是有多少人需要做这些事、AI 的效果又比以前人来做好了多少?这不是指标测试中 AI 有多接近或超越人类专家的问题,而是到底有多少人真正有相关的动机。我相信更多人还是出于短期尝鲜去用的,长期使用 AI 基本都要涉足专业的内容生产,但我们的生产或许早就已经过剩了。
不同行业与阶层的信息敏感度差异。我接触样本不多,但去年和 4 个人有过 AI 方面的对话交流,包括教育行业的音乐老师、建筑行业的公司老板、银行的领导、做餐饮的老板。聊下来发现教育、建筑行业的两位对快速发展的 AI 还所知甚少,他们理解的 AI 还停留在自动化、拍照识别文字上;而银行、餐饮的两位则信息要更灵通一些,不仅知道 ChatGPT 能叫上名(虽然错叫成了 ChatGTP),还用过一些国产的 AI 工具,能罗列出一些 AI 的使用场景,而他俩中似乎也至少有一位把子女送到了海外留学。这些对话之后我有一个推测,身处行业变化快、近互联网的,社会阶层或教育水平高的,更有可能先了解接触到 AI 工具。
清顺
上手门槛仍然较高。由于 AI 技术发展迅速,使用方法很容易过时,同时又不断有新工具出现。普通用户来说往往没有时间或兴趣去研究提示词,比较不同工具的优劣。因此,很多人更倾向于直接使用平台提供的商业化模型,比如简单点击一个按钮,就能优化文本内容,而不想深入了解其他选择。
缺乏高质量开源模型。如果有能与 GPT-4 相媲美的开源AI模型出现,将极大促进其普及。目前很多商业公司在一方面使用开源模型,另一方面又为了商业目的,只给用户提供他们自己的商业定制模型,这种做法无疑限制了用户体验和工具的效果。当高质量的开源模型更广泛可用时,我们可以期待 AI 技术的更大普及和提升。
万千十一
模型能力问题。许多工具思路很好,但受限于底层模型能力,可能无法达到预期效果;或者某天 OpenAI 推出更新,模型进化,原本工具要解决的问题就不存在了。
工程落地问题。真实的 AI 开发中,从想法到 demo 也许不难,但从 demo 到应用挑战不小。
行业渗透问题。只有既懂行业又懂 AI 的团队协作,才能做出真正有价值的行业应用。
炜智能
数据集来源问题。在模型算法本身没有跳跃性升级的时候,大力出奇迹真的不是一句戏言。但数据集本身其实是个灰色地带。海量的数据从哪里来呢?只用有授权或无版权的数据能行吗?我守规矩别人不守规矩怎么办?就算有钱也有意愿买版权,那么多的数据源,又要花费多少人力物力和时间?看看 OpenAI 的新闻其实就能感受到许多了。几个月前国家发布了《生成式人工智能服务安全基本要求》公开意见征求稿,里面也重点提及了语料安全问题。
安全和隐私问题。ChatGPT 从刚出来就一直火到了现在,但其实它在国内始终都是少数人的狂欢,依托于它的 API 接口开发的工具可能很多,但在国内也只能说不成气候。原因大家都明白,再好的工具不是自己的用起来总是不放心。我个人都会因为担心隐私问题而更倾向于使用可以本地运行的开源 AI 工具,更不用说需要考虑数据安全的敏感行业和部门了。
不过,本地化运行的 AI 软件其实现在就有不少,除了开源项目之外,不少商业软件(如某些视频剪辑软件)也会在特定场景下优先调用本地算力进行 AI 推理,但总体上终归是少数。目前近乎所有芯片大厂都将 AI 引入了自家的芯片之中,还推出了不少新的概念,例如 NPU、AI PC 等,如果后面真能优化推广开来,实现大部分 AI 应用的本地化运行,我相信那时候生产力工具肯定会迎来大洗牌。前不久还看到了高通推出 AI Hub 的新闻,终端侧 AI 的时代可能真的不远了。
玉树芝兰
在我看来,限制 AI 工具普及的主要障碍之一是成本问题。前面提到了,高昂的计算资源费用导致了许多 AI 应用订阅收费不菲,许多个人用户不得不精打细算。
另外一个问题是新手用户基础 AI 素养的缺失。很多人花钱订阅了 AI 工具之后,不知道该如何用它来辅助自己的工作。往往依照自己过于乐观的想象浅尝辄止(例如「帮我写一篇毕业论文」),快速走完「从上手到放弃」的全过程。事实上,不管是基础提示词的使用,还是了解不同 AI 工具的特性与使用场景,对于目前的用户来说,都是很必要的基础技能。
要解决 AI 素养缺失的问题,我觉得需要增强 AI 相关知识技能的推广和普及。市场很大,我们前不久都从新闻里某大咖的营收数据上见识过了。但认真做内容的人也是不少的。我在少数派专栏和 B 站上,都有不少 AI 应用的介绍,都是免费开放获取,欢迎你来学习。
认识转变
与一年多前 AI 风头刚起之时相比,你对 AI 的认识有了哪些转变?
Fairyex
得益于从原理开始了解,我对 AI 的理解从一开始到现在就没有什么改变。
我个人是支持 AI 创作内容的。从我自己的测试来看,只要稍微对 GPT 做出对应限制和要求,生成的内容无论是大部分人看起来还是使用一些所谓的检测工具,都是没有办法区分出人类和 AI 创作的内容的。而且,随着越来越多的 AI 介入到现实世界中,会有很多令人根本意识不到用上了 AI 的场景:视频编码、交通系统、电量管理、商品生产甚至畜牧养殖等等。AI 早已经给我们带来了更好的世界,各行各业也肯定不会放弃用上更加「先进」的 AI。因此,不能得出「威胁」还是「限制」这样一刀切的结论,而是要在不断发展中慢慢发现问题、修复完善。
MrCoffeeTalker
从质疑到理解和使用。在去年 AI 火热之际,公司内不出意外的推出了内部培训的 AI 课程,要求所有人必须学习,我当时评估了下感觉培训内容和本职工作不是那么强相关、工作又多,于是拒绝了强制的培训,因为和我学习的价值观也有冲突。后来当自己遇到了 AI 擅长处理的问题,靠自学也很快上手了。到了下半年,我搭建了一个舆情监控系统,又因为日常分享 AI 实践经验被内部的 AIGC 比赛邀请去当了评委。但再看当时参加培训的同事们,除了当时刷屏的交作业,后续的 AI 落地方面却没有多少声响。
创作的事依然交给自己。在图文内容创作上,我目前还是自己写,只有在研究、找过往的笔记时会借助 AI 帮忙。但这方面也有个头疼的问题,可能因为我写内容原本就重逻辑性、喜欢罗列信息,去年也有过几次被怀疑文字是 AI 生成的,我觉得这种情况很像是某段时间一咳嗽,周围的人都会慌的情况。
只为降本增效用 AI 的品牌们会自食其果。AI 快速出图的能力使其很适合用在产品或营销用的美术内容生产,但个人认为,如果一个品牌或公司只为降本增效引入 AI、同时排斥有审美的专业设计人员或忽视创意表达,很有可能自食其果。市面上不堪入目的 AI 广告正变得越来越多,随处可见的皮克斯风格、诡异的人像表情、缺乏共情的信息传达……
作为消费者,我并不在乎品牌如何降本增效,我只关心最终到手的产品服务质量如何提升。但短期来看,一些品牌似乎更喜欢沉浸在 AI 狂欢中,亲手把品牌的信任透支精光。
清顺
经过一年的发展,各种 AI 新工具、新模型的推出,人们对 AI 发展的期望也大大提升。然而,尽管 AI 技术在这一年里有了显著的提升,但并没有像 GPT-3.5 那样给人深刻震撼的质的飞跃。
目前,讨论 AI 威胁为时尚早,它主要替代的是重复性工作,例如文本整理、总结,以及AI图像和视频的生成等。在真正的创作方面,AI 的成熟度还远远不够;遗漏的细节会导致逻辑混乱和内容不实,这也是当前AI生成的假新闻容易被识别的原因之一。
因此,与一年前相比,更有理由将 AI 视为辅助工具,而不是威胁。它能显著减少工作时间和成本,帮助人们更高效地完成任务。
万千十一
刚接触大语言模型时,没想到短时间内就能用上以其为基座的支持视觉等多模态能力的模型,给文本生成类 AI 带来了许多新的想象力。彼时也难以想象,以大模型为代表的这一波 AI 研究,将在安全、道德等方面面临的巨大争议和严峻挑战。
炜智能
我最开始接触 AI 工具纯粹是觉得好玩。作为一个爱折腾的人,碰到这种新奇的事物总是忍不住想要尝试一番。最开始接触到的就是 ChatGPT 这种在线聊天的工具,说实话,第一次使用的时候它真的满足了我曾经对于人工智能的大部分想象:一个可以和人类正常对话的人造物。
后来开源的 AI 项目多了之后,神秘感就降低了不少;在本地跑了许多 AI 项目,研究了一些项目源码之后更是如此。说白了,只是换了一种实现方式的工具。
现在的 AI 其实应该还算是起步阶段,部分领域比人类强大,但还是只能作为辅助工具,离真正能够完全独立地去完成复杂任务还是有点距离的。AI 其实是拓展了个人的能力边界。以我自己为例,一个完全没有任何艺术细胞的人,在 AI 工具的辅助下也可以较为轻松地完成一些基础的艺术创造。
当然,完成的作品绝对称不上完美符合要求,只能说达到了及格线。说实话,AI 某种程度上确实替代了部分底层的创作人员,但换个角度,普通人可以凭借 AI 完成基础创造,那原本的专业人士肯定也可以凭借 AI 完成更高级的作品,只能说变相的提高了社会普遍认同的最低标准。
玉树芝兰
这一年多以来,我对 AI 的认识经历了几次显著的变化。
起初,我和大多数人一样,对 AI 技术的兴起感到异常兴奋,几乎认为它立即就会使许许多多传统技能变得过时。然而,随着时间的推移,尤其是在经历了去年年中的「AI 冷静期」,和许多业内人士进行了深入的线下交流后,我开始更加深入地理解 AI 的实际能力和环境带来的局限。我不再认为很多行业颠覆的重大事件会在短期内频繁发生。但是没有改变的是,我对 AI 发展趋势信心依然非常强,也坚定了更好地应用 AI 的决心。
具体来说,我会更加主动思考:如何在自己的学习、生活和工作中,把 AI 融入工作流,而不是替代自己。例如,在使用 AI 校对文本时,我发现它能够迅速识别并更正我未曾注意到的错误,这对提高我的写作质量起到了巨大作用。对于很多懒人来说,有个 AI 「责编」帮助你校对文稿,起到的作用绝不只是改善最终输出的文本;它会给你力量,让你真正愿意做校对这个枯燥的工作。
但同时我也逐渐深刻意识到,AI 最适合执行那些清晰定义、规则明确的专业化任务,而在处理复杂的创意过程或深层次的逻辑推理时,它当前的效果还远远谈不上理想。即便是 GPT-4 这样的当前顶尖模型,也会经常发生「迷糊」的状况。于是我就会把 AI 最擅于做的工作交给它,把适合人做的工作留给自己,逐步走入「人在环中」(human-in-the-loop, HITL)的人机协同模式。
负责使用
你认为从个人用户的角度,怎样才算是「负责任」地使用AI?
Fairyex
像对待工具一样对待 AI,如何负责任地使用你的手机,就如何负责任地使用 AI。特别是使用非本地的 AI 服务,可以想象成使用一个「云手机」。想一下你不会用手机来干什么,那也不要用 AI 来干什么。
MrCoffeeTalker
- 主动告知:如果创作对外发布的内容用到了 AI 生成,需要在内容中醒目标注内容用到了 AI 生成、具体用在了什么地方。
- 不把自己无法忍受的 AI 产物推向受众:不管是文字、图片还是视频,如果 AI 生成的内容自己都不想消费,就更不要丢给自己的受众。
- 不支持会让优质创作消亡的 AI 使用方:对于侵害优质创作者权利的 AI 工具或使用 AI 的平台、企图用低质 AI 内容完全替代人创作的创作者,不使用他们的服务或不消费他们的内容,有能力的话也为积极维权的创作者提供支持。
- 确保「驾驶座」上的是真人而不是 AI:当自己使用 AI 生成内容时,务必要确保最终输出经过人工的验收,而不是直接对外使用。
清顺
杜绝滥用 AI 生成虚假信息。几乎所有文本平台都集成了 AI 工具,使得大众可以轻松地接触和使用 AI,但也方便了批量生成带有煽动性和耸动性的虚假新闻。这类虚假信息虽然容易被识别,但在当前信息过剩的时代,真相常常被虚假信息所淹没,产生的危害甚至比 Deepfake 更为严重。
万千十一
同时关注 AI 工具的用户协议和内容平台的用户协议,在其许可范围内行事。
炜智能
首先肯定是不能违反法律了。国内这方面的法规其实不多,22 年底发布过一份《互联网信息服务深度合成管理规定》,23 年中发布过《生成式人工智能服务管理暂行办法》,23 年底发过《生成式人工智能服务安全基本要求》(征求意见稿)。这些法规中的条款大部分都是针对 AI 服务提供商的,不过个人用户其实也可以从中明确一下自身的义务。
现在的 AI 已经非常强大了,一些深度合成服务组合使用起来,近乎可以达到以假乱真的程度。就问你实时换脸加实时变声这套组合拳下来,你怕不怕?相关的报道其实也早就有过了。
当然,这种诈骗的使用场景肯定不是大部分用户会用到的。但就算是恶搞和开玩笑之类的深度合成,只要你将其发布到了网上,即使给出了相关说明,就都有给你自己或他人造成麻烦的可能。因此,对于这类 AI,我的建议是自己私底下自娱自乐就好,绝对不要公开发布相关合成内容。
对于其他种类的 AI 工具来说,我觉得正常使用不需要有太多的顾虑,符合社会上主流的道德观念即可。因为说到底 AI 也依旧是一种工具,不需要太过妖魔化。
玉树芝兰
我一直跟自己的学生、观众和读者说,不要拿 AI 当成你的「枪手」。但是,我们都知道,确实现在有不少人就是拿 AI 替自己来写东西。
个人总结和年终报告就不说了,有的论文作者投稿给期刊的时候,甚至都忘记了把大语言模型撰写答案中的那些「作为一个大语言模型,我无法回答这个问题」的这一句话去掉,这让人情何以堪。在学校里,也有一些学生过度依赖 AI 来完成作业。这虽然可以带来短期内的便利,但从长远来看,会损害学习过程和个人诚信,无异于买椟还珠。
AI 应该是增强而非替代学习和工作的手段。例如,在写作任务中,AI 可以作为一个启发性的工具,帮助你生成初步的想法和框架。用户可以根据自己的理解和研究,使用 AI 生成的草稿作为起点,进而深入分析、扩展观点、调整结构。
我比较推荐的具体操作步骤包括:首先,确定写作主题和大纲,然后利用 AI 提出可能的论点和结构;接下来,通过自己的研究和思考,利用 AI 调查汇总的数据材料,经过审定后逐步扩充和深化这些初步想法;最后,对 AI 生成的内容进行严格的编辑和润色,确保文章符合学术标准。这种流程不仅有助于提高写作能力,还能培养作者对知识深入理解和批判性思维的能力。
在整个过程中,人类用户必须把控写作的走向,表达个人的独到见解,这样才算是「负责任」的 AI 使用方法。
开闭之争
目前 AI 模型的研发出现了开源和闭源的明显分野。你更看好哪种路径(或这两种路径应该怎样平衡)?
Fairyex
开源可以有更多姿态,更灵活地使用场景,更安全,更长寿命周期,更容易形成生态,集思广益也能促进产品快速发展;闭源能够维持自己的优势,获取更多的利益,从而有更多资金和资源来继续研发,发展道路也更加专注。AI 不同于其他项目,硬件软件的投入都非常大,现在大家基本是最强模型闭源,然后用非全量模型开源,来保持竞争优势,这也是多次实践之后行业总结出来的比较好的方式。
MrCoffeeTalker
对开源和闭源关注不多,这部分的讨论留给其他更关注的作者了。
清顺
开源与闭源的 AI 模型,类似于智能手机行业中的苹果系统与安卓系统的对比。由于国家政策和商业需求的存在,开源与闭源模式都将长久并存。开源模型能够吸收社区的创新精华,而闭源模型则依赖于开源社区的更新支持以增强自身的功能。因此,不论是哪个行业,开源与闭源始终处于一种平衡状态。从短期来看,闭源 OpenAI 仍将处于行业领先地位。
万千十一
闭源模型已经并很可能仍将遥遥领先,作为参照 2022 年训练好的 GPT-4 至今仍无对手。但综合考虑隐私、成本、专用性等因素,开源模型的应用渗透大概率会更快,尽管更为分散。受限于算力,预计近几年内这样的路径仍将持续下去——OpenAI 们验证,追赶者跟随,直到 AGI 到来(?)
炜智能
说来也是巧,回答这个问题的时候我刚好看到「马斯克状告 OpenAI 要求赔钱、开源」的新闻。我个人是比较看好开源的,从 OpenAI 之前开源的那些技术对世界的影响力就能看出来,一个人掌握技术和所有人掌握技术带来的能量是完全不同的。以 SD 为例,开源之后就掀起了 AI 绘画的狂潮,配套的扩展和模型都如雨后春笋般涌现,这就是开源的力量。
当然,闭源肯定也有其优势,最明显的就是技术保密。在没有更大利益激励的前提下,真金白银研究出来的技术直接白给,本身就是件不合理的事,毕竟商业公司肯定是要保证利润的。还有就是闭源研发的话,许多尝试可能可以更激进一点,产生某些技术突破可能更容易。
但是理解归理解,身为一个开源爱好者,我肯定还是支持开源的,尤其是在人工智能领域。这个领域和传统领域不同,它是一个真正能够改变人们生活方式的领域,未来会切实影响人们的衣食住行。无论是工业制造、医疗、教育、交通,还是其他更小的领域,人工智能都能够起到可预见的巨大作用。但人工智能本身带有不确定性,这就更需要一个公开透明的监督体系,让更多人参与到其中,就算不能立竿见影地提升其效果,但起码可以消除部分隐患。
玉树芝兰
这一年多来,闭源(例如 GPT-4、Gemini、Claude、Kimi-Chat 等)、开源(例如 GPT-4-all、Code Llama、Gemma 等)、不开源但开放权重(例如 Mistral)的模型我都用过不少。
从我自己的使用体验来说,目前闭源模型还是更胜一筹。这主要原因并不是开源模式不好,而是在一个强调算力、模型参数量和数据质量的领域,开发团队的资金规模、盈利模式缺失都是非常重要的基础要素。目前的开源力量发展中,Meta 起的作用非常关键。如果没有它提供 Llama 这样的开源基座模型,我们也无法看到今天如此多样化的开源模型生态。如今 Google 也用 Gemma 为开源阵营投入新鲜力量,我们可以期待未来开源模型的发展更加迅猛。
有人坚定站在开源模型一边,说这样的模型更加安全透明。其实在处理安全性和伦理问题时,无论使用开源还是闭源项目,开发者都必须负起责任,确保技术不被滥用,并采取措施保护用户数据不被泄露。这可能包括设置严格的访问控制、进行代码审计以及引入机制以防止敏感信息的提取,与许可方式没有必然联系。很多人测试安全性的时候,都喜欢问大语言模型一句「如何撬开一辆车?」如果 AI 拒绝回答,那就算是合格了。如果 AI 答得头头是道,那这模型的安全性值得商榷。但其实,我目前见到老老实实回答这种问题的「不合格模型」,大多都是开源的。
期待展望
你最期待在 2024 年看到 AI 领域出现怎样的新应用、新能力?
Fairyex
- 更多流程控制上的能力。现在已经开始有这个趋势了,比如 Stable Diffusion 3 已经支持指定图片哪一个部分生成什么,或者指定部分内容的样式。毕竟,经过了看热闹和新鲜劲儿,AI 项目接下来就要更多考虑如何落地到实际中。只有提供流程控制能力,才有可能更好的融入到现有的工作流程;如果小项目能做好这点,那么即使效果比最强的那几位差一点,也有出头之路。
- 多模态融合。可以是能够兼顾多种格式内容生成的综合模型,也可以是聚合多种模型的平台产品。
- 本地化和算力要求继续降低。现在算力要求相比去年年初已经断崖式下降,画图从之前的高端显卡到现在的低端显卡,高端显卡从之前的几秒一张图到现在的一秒几十张图;从之前的 10 亿参数模型高端 PC 本地运行还很难,到现在的手机都能宣称自己能够运行 130 亿参数的大模型。各种各样根据不同形态和算力进行裁剪量化的模型会井喷,给到我们更多选择,也能让更多人能够享受到大模型带来的好处。
MrCoffeeTalker
内容获取的去中心化——人们可以为了自己的身心健康、长期精进方向,基于 AI 定制自己的信息流,而不用受限于点击率、参与度优先的平台大数据。
清顺
Sora 的正式发布。视频生成技术的发展意味着任何人都能用它来实现自己的创意,如将个人讲述的故事、文字描述或博客文章转换成视频。这样的技术进步不仅为个人创作提供了更广阔的平台,而且可能会彻底改变内容创作、分享和消费的方式。
万千十一
- 自主智能体,出现若干成熟且大众可用的 agent(自主代理)。
- 端侧部署,有一个能力达到或超过 GPT-3.5、可以在非旗舰手机上顺畅运行的模型。
- 具身智能,人形机器人在实验室内轻松完成 80% 以上人类事务。
炜智能
更具性价比的 AI 算力硬件及配套软件普及。目前想要本地畅玩 AI 项目,基本都需要一张高显存的英伟达显卡,一家独大实在是没有什么选择的空间。之前还想着什么时候手机能够真正在本地跑各种大模型,结果就看到高通 AI Hub 的新闻,说不定今年还真能在手机上本地体验到电影中「贾维斯」那样的人工智能助手。
玉树芝兰
- 拥有 10M 上下文处理能力的新模型,如 Gemini 1.5 Pro。这种长上下文处理能力将使 AI 能够理解和处理远超当前标准的文本量(目前主流上下文长度在 200K 以内),从而在复杂的对话、研究分析和长篇文档处理上实现质的飞跃。这样的技术能够让 AI 同时阅读分析多篇论文撰写综述,或者是从百万字的小说中抽取人物特点进行续写与再创作。
- AI 在视频内容创作方面的进步。例如我希望能早点儿用上 Sora 这样的文生视频模型,它能够让用户以前所未有的简易度创作高质量的 1080P 60 秒短视频。
- AI 技术应用于教育领域。作为一名教师,我非常希望用 AI 为孩子们讲述寓教于乐的个性化故事,或者用在教学影片的制作中。我的一名医生朋友也很关注 Sora 何时开放,因为他早已经准备好要给患者做科普视频了。