故事的开端

在折腾macOS启动台管理小工具的时候,站内有不少小伙伴提到希望能够实现图标更换的功能,并希望为大家提供各种风格的预制图标。

像这样子的
这样的建议有几条


虽然很高兴大家能够为我做的小工具提出建议,但这无疑也对我这种没有设计背景的家伙提出了巨大的挑战。在尝试“AI/PS从入门到自闭”这一过程后,我决定放弃这种不切实际的做法,还是回归到我熟悉的领域:代码之中。
正巧,在翻看SwiftUI的SDK文档时,我发现苹果开源了一套集成Diffusion和CoreML的框架,可在M系列芯片的Mac上实现基于文字的图像生成,于是我便打算让用户自己通过AI生成图标图像或者基于原图标的图像进行风格统一。

苹果开源库的名称
苹果是要在AI领域发力了

没有开源精神的家伙

因为Diffusion所用的模型规模较大(轻量化的也有1.4G,标准模型4.3G左右),启动台管理小工具没有必要包含这么重的一个功能。于是我准备找个第三方的工具,和对方打通数据接口就好(毕竟框架都是开源的,就一点封装的工作)。
结果这一查询没差点把我气死,除了开源大佬HugeFace的工具外,其他的工具要不就是在线骗你看广告,要不就是按次数收费,甚至收费之后还用不了。

左边一列除了Diffusers其他完全打不开,右边的全是收费的。
红框里的全是基于苹果CoreML+Diffusion框架的,还要收费

而HugeFace大佬的Difussers因为服务器在国外,用于图像生成的AI模型压根下载不下来,也完全没法使用。

这家伙直接拿着HugeFace大佬的模型来收费赚钱,还一副下载不了是你自己的问题
这个更厉害,明显是基于Diffusers二次封装的,还收费,服务器的钱都不肯出白嫖别人的

让我们自己来搞一个吧!

为了让大家能够更好的使用启动台小工具,我决定亲自下场,给大家弄个能用好用的AIGC文字生成图像的工具。
因为HugeFace大佬已经把自己的Diffusers开源了,于是我准备直接基于开源协议,对HugeFace的代码进行本地化,形成了DiffusersCN这个工具。

老实注明版权来源
老实注明来源也是开源精神的一部分

因为基于CoreML集成的Diffusion,性能比Python集成的要强上不少,一张512 x 512,25次推理迭代,过程中5次预览的图片在我的M3Pro MBP上只需要9秒钟左右就可以生成。

效率比想像中的快多了
几乎都在10秒内,比线上那些反应老半天的好用多了

获取方法与使用简介

因为模型较大,我目前自用的10G存储的小服务器压根扛不住这么大的I/O,只能通过网盘对模型进行分发,网盘下载链接将会在评论区更新,请各位小伙伴多留意。

九个模型就要26G的,我的免费服务器根本扛不住
9个diffusion默认模型就已经26G了,我的小水管根本扛不住。

各位下载模型和APP的DMG包后,先安装好APP。
在APP左侧的模型选择中,选在文件夹中管理模型。

点在文件夹中管理模型
点击红框处

将模型的压缩包拖入APP打开的文件夹中,选择对应的模型,解压加载完成后,就能够使用了。

设置提示词和配置属性,即可开始利用AI生成图像。

输入提示词和属性

每个属性和模型都在右侧的提示图标中注明用法和使用建议。

点击右侧的信息图标即可获得提示

写在最后

如果各位原本就在能够访问外网的环境下,建议直接在APP Store下载Diffusers APP使用,相对于我的版本,可使用的模型更多,并且可以用GPU对计算进行加速。
DiffusersCN更多的工作是在本地化、取消无法访问的外网下载等工作中,单纯是对国内基于开源框架构建收费应用行为的一次反叛革命。
接下来我准备接入GPT翻译功能,实现彻底的本土化使用,周末刚试过的几个翻译接口都需要联网,我还是要追求数据完全离线。

现在的模型用中文提示词生成全是抽象画
中文提示词生成的完全是抽象画……
14
4