不知不觉,我的生活中已经离不开 AI 了。作为一个程序员,开发过程中需要 Github Copilot / Codex / Claude Code 辅助编码和审查代码;工作中写邮件、回复消息需要 Gemini / Deepseek 进行润色;甚至日常生活中有什么疑问,第一反应也都是发给 豆包 问问有什么建议。
时间长了,慢慢发现一个问题:AI 和上下文是分离的 —— 比如这样一个场景:我在网页上打开邮箱,需要回复一个英文邮件。为了确保表述正确,没有歧义,我会先写一个中英文夹杂的版本,先粘贴到 AI 工具(无论是切换窗口打开 Copilot 还是打开一个新 tab 使用 ChatGPT),让 AI 润色完之后,再切换回原来的窗口进行粘贴。有可能不知不觉就打开了一大堆窗口。
这时就会想:如果可以不脱离当前上下文,就能和 AI 交互,并且沟通清楚后,AI 可以帮忙把剩余的操作完成就好了。(比如自动填写邮件并发送)。
除此之外,还有很多其他的问题 —— 比如:在内网环境下,对外部的 AI 工具的访问受限,只能使用特定的 AI 工具/ api key;又或者想重复利用已经购买的 AI token plan;再或者想对页面进行一些分析;还或者想使用 AI 对页面进行一些自动化操作……
基于此,做了一个浏览器插件 Cebian。它是一个运行在浏览器侧边栏的 AI Agent,支持配置AI 大模型提供商,可以感知到当前浏览器的上下文,并和网页进行交互。

它能做什么?
感知页面上下文
既然运行在浏览器的插件环境,那么它就拥有完整感知网页上下文的能力。可以直接通过「选择元素」工具选择页面中的某个部分,然后询问AI,不用脱离上下文即可完成操作。
比如在写这篇文章的时候,我就和 AI 讨论了一下思路:

它可以读取网页和pdf的内容,对于科研党也会有些帮助:

自动化操作
自动化操作可以分成浏览器粒度和页面粒度两类。
对于浏览器粒度,Cebian 可以直接接管你的浏览器的部分功能,比如整理收藏夹、历史记录、打开/关闭窗口等等,本质上是把 chrome api 封装成了工具。
对于页面粒度,Cebian 把常用的网页交互封装成了工具,比如点击、滚动、输入、等待…… 当然,如果这些工具都不能满足你,Cebian还可以直接在网页中执行脚本。

Cebian 也可以录制操作路径,作为上下文送给 AI,上图就是这样一个例子。
MCP 和 Skill
MCP 给 Agent 提供了可扩展的工具,Skill 给 Agent 提供了可复用的经验。作为 AI Agent,这两个功能是一定要支持的。
Cebian 支持 MCP 工具(只支持 http,毕竟浏览器插件环境有限制)以及MCP app。这样就可以做很多事情,比如你可以使用 draw-io 工具画流程图:

Skill 用来定义一些可以被复用的经验,这里和 Skill 规范是兼容的,因此社区开源的 Skill 在Cebian 里基本上都能用。你也可以把自己常用的一些经验封装成 Skill,比如上文自动化操作的一些经验,又或者运行脚本使用 AI 画图:

就这些吗?
不仅仅是这些。Cebian 还实现了虚拟文件系统,每个 Agent session 都有一个专属的工作空间;还有自定义指引、自定义快捷提示词等能力,未来还有计划支持 Memory……
不要忘了,它是运行在浏览器里的 AI Agent,因此它可以自由操作你的浏览器,完成一些非常复杂的任务,比如让它自主完成一些调研,并使用 Skill 进行画图:

最终绘制的图片如下:

来试试吧
Github 地址:https://github.com/maotoumao/Cebian
也简单做了个官网:https://cebian.catcat.work/
自用了一段时间,觉得好用所以分享出来。自己开发的好处之一就是所有想法都可以由自己实现。
来试试吧,万一有用呢。
最后,也欢迎关注我的公众号【一只猫头猫】,偶尔会更新一些开源产品的记录和一些技术分享。

