Cebian —— 运行在浏览器侧边栏的开源AI Agent

利益相关声明：作者与文中产品有直接的利益相关（开发者、自家产品等）

不知不觉，我的生活中已经离不开 AI 了。作为一个程序员，开发过程中需要 Github Copilot / Codex / Claude Code 辅助编码和审查代码；工作中写邮件、回复消息需要 Gemini / Deepseek 进行润色；甚至日常生活中有什么疑问，第一反应也都是发给豆包问问有什么建议。

时间长了，慢慢发现一个问题：AI 和上下文是分离的 —— 比如这样一个场景：我在网页上打开邮箱，需要回复一个英文邮件。为了确保表述正确，没有歧义，我会先写一个中英文夹杂的版本，先粘贴到 AI 工具（无论是切换窗口打开 Copilot 还是打开一个新 tab 使用 ChatGPT），让 AI 润色完之后，再切换回原来的窗口进行粘贴。有可能不知不觉就打开了一大堆窗口。

这时就会想：如果可以不脱离当前上下文，就能和 AI 交互，并且沟通清楚后，AI 可以帮忙把剩余的操作完成就好了。（比如自动填写邮件并发送）。

除此之外，还有很多其他的问题 —— 比如：在内网环境下，对外部的 AI 工具的访问受限，只能使用特定的 AI 工具/ api key；又或者想重复利用已经购买的 AI token plan；再或者想对页面进行一些分析；还或者想使用 AI 对页面进行一些自动化操作……

基于此，做了一个浏览器插件 Cebian。它是一个运行在浏览器侧边栏的 AI Agent，支持配置AI 大模型提供商，可以感知到当前浏览器的上下文，并和网页进行交互。

它能做什么？

感知页面上下文

既然运行在浏览器的插件环境，那么它就拥有完整感知网页上下文的能力。可以直接通过「选择元素」工具选择页面中的某个部分，然后询问AI，不用脱离上下文即可完成操作。

比如在写这篇文章的时候，我就和 AI 讨论了一下思路：

它可以读取网页和pdf的内容，对于科研党也会有些帮助：

自动化操作

自动化操作可以分成浏览器粒度和页面粒度两类。

对于浏览器粒度，Cebian 可以直接接管你的浏览器的部分功能，比如整理收藏夹、历史记录、打开/关闭窗口等等，本质上是把 chrome api 封装成了工具。

对于页面粒度，Cebian 把常用的网页交互封装成了工具，比如点击、滚动、输入、等待…… 当然，如果这些工具都不能满足你，Cebian还可以直接在网页中执行脚本。

Cebian 也可以录制操作路径，作为上下文送给 AI，上图就是这样一个例子。

MCP 和 Skill

MCP 给 Agent 提供了可扩展的工具，Skill 给 Agent 提供了可复用的经验。作为 AI Agent，这两个功能是一定要支持的。

Cebian 支持 MCP 工具（只支持 http，毕竟浏览器插件环境有限制）以及MCP app。这样就可以做很多事情，比如你可以使用 draw-io 工具画流程图：

Skill 用来定义一些可以被复用的经验，这里和 Skill 规范是兼容的，因此社区开源的 Skill 在Cebian 里基本上都能用。你也可以把自己常用的一些经验封装成 Skill，比如上文自动化操作的一些经验，又或者运行脚本使用 AI 画图：

就这些吗？

不仅仅是这些。Cebian 还实现了虚拟文件系统，每个 Agent session 都有一个专属的工作空间；还有自定义指引、自定义快捷提示词等能力，未来还有计划支持 Memory……

不要忘了，它是运行在浏览器里的 AI Agent，因此它可以自由操作你的浏览器，完成一些非常复杂的任务，比如让它自主完成一些调研，并使用 Skill 进行画图：

最终绘制的图片如下：

来试试吧

Github 地址：https://github.com/maotoumao/Cebian

也简单做了个官网：https://cebian.catcat.work/

自用了一段时间，觉得好用所以分享出来。自己开发的好处之一就是所有想法都可以由自己实现。

来试试吧，万一有用呢。

最后，也欢迎关注我的公众号【一只猫头猫】，偶尔会更新一些开源产品的记录和一些技术分享。