AI起来以后,很多公司都在寻找AI的落地应用场景,都在思考项目工程的流程节点怎么用AI去做提效。随着人工智能技术的快速发展,图像生成需求在许多行业中迅速增长。目前,许多企业已经开始广泛使用Stable Diffusion(SD)技术进行图像生成。例如创作IP的延展,或应用于广告、产品设计、游戏开发等多个领域。然而,面向企业的大规模图像生成需求,批量化是一种刚需。

企业在使用SD进行图像生成时,往往需要处理大量的图像素材。这一过程中包括编写CSV需求单、审核素材、打标和命名等步骤,传统的手工操作流程效率低下且容易出错。如果通过AI节点式接入和GPT技术,可以显著优化这些流程,提高效率和质量。

所以我们需要去搭建一整个SOP,将批量生图做成工程化,这样才能提高效率。批量产图SOP的设计需要明确每一个流程节点,保证高效、标准化的操作。


传统的SOP流程

我们之前传统的产图SOP,需要投入的人力大概在5个:

  • 技术开发同学:负责编写工程文件预留SD的API接口,保证系统能够灵活调用SD进行图像生成。
  • 模型炼制设计师:负责炼制Lora,确保产出的素材符合公司需求的统一风格,能够满足不同类型素材的需求,如3D风格、插画风格和真实场景等。
  • prompt编写设计师:编写CSV,确定图像生成的具体需求(即生图prompt)。
  • 素材审核员:在图像生成完成后,整理和审核输出的素材。制定素材入库的视觉标准,区分素材为三类:一类是达到视觉标准,无需二次调整的素材;一类是有略微瑕疵,二次调整后可达到入库标准的素材;一类是严重异形、画面杂乱等素材,无修改价值的素材。
  • 素材管理员:针对素材的业务、类型、标签、命名做有效分类,确保素材在平台上的可查找性和可管理性。

整个SOP的运行中最核心的是prompt编写设计师的角色,他需要调控prompt和替换lora,需要去调试工程文件中的节点。技术开发同学和模型炼制设计师其实都是前置资源,从产图到入库可使用的这个逻辑是这样的:

由prompt编写设计师编写csv条目,一个条目是一个图像生成的prompt,所以批量生产同样的需要批量写prompt,prompt影响最终产图的质量。例如我们编写10个prompt,那就可以产出10张素材。编写100个,那就可以产出100张素材。但人工编写的过程非常耗时耗力,这个节点是否可以借助AI的能力去提效?又该如何接入AI?这个可以先思考一下,我们接着链路往下看⬇

当批量产出素材后,例如今天产出2000张素材,将素材转接给素材审核员,按照入库的视觉标准将素材进行分类和二次调整。2000张图需要多久,不包含调整的过程,只去审核区分素材就需要1-2个小时。那20000张呢?这个节点是否有AI运作的空间?⬇

当素材处理完,假设良品率为40%,可直接入库的素材为800张,由素材管理员进行分类和素材信息标注。当然我们也可以只给素材命个名,如:3D红包.png  那如果有200个不同的红包素材,素材如何有效召回,所以素材如何有效管理,之前传统的素材管理,是将命名作分级,如:业务A/3D/红包/装满金币。那仅这个命名过程,假设一张素材命名需要5s,那800张仅命名大约需要1.11小时。那这个时间是否可以借助AI给吃掉?

SOP流程:AI节点提效

ok,我们梳理一下整个产图到入库的流程链路,其中费时费力的节点:

prompt批量编写

素材审核

素材分类及信息标注

这些节点如何借助AI做提效或者直接用AI的能力给吃掉。我是借助GPT的能力,让技术同学预留出GPT的API接口,我负责炼制GPTs,将调试好的prompt发给前端,在工程文件中调用。在多个节点安插GPT:

输入想要的素材关键词及数量--批量产出prompt条目(GPT助力)--导入csv需求单--运行程序--调用SD做批量产图--素材质量筛选,将素材分类(GPT助力)--素材信息标注(GPT助力)

所以除了前置资源,前端提供的工程文件和模型炼制设计师提供的lora,剩余的事情只需要一名设计师即可,不仅减少人力成本,而且效率还比之前高数倍甚至数十倍。

GPT助力,都炼制了哪些GPTs?我们逐一分析一下相关的prompt该如何写:

批量csv条目助手

通过简单的关键词描述, 批量产出csv,不过这里要注意一点,我们需要制定prompt规则:

prompt指令规则:*图像名称(内容),*图像具体关键词,不希望图像里有什么

打开[新建文件夹】

找到“csv”右键打开操作目录,选择“打开于-Finder”

选中文件夹中的“csv”,

右键打开方式选择-“文稿编辑”

填入csv条目

Prompt

输出效果

输出的所有csv条目,并非可以一次成功,产出素材的内容差异性和风格统一性还是需要人工把控,毕竟只有你才知道你真正想要什么,你想要一个有卡通翅膀的红包,这种装饰性词汇具备不可控且不可猜性,所以人工针对csv条目做二次调整。

素材审核员

用AI代替人工做素材质量的判断和分类,做初级筛选,人工做素材质量的二次审核,确保最终素材均达到入库标准。

批量产出的素材分为三个档:S级A级B级

S级:完全达到入库视觉标准;A级:基本达到入库视觉标准,单一或部分元素轻微瑕疵;B级:不符合入库视觉标准,画面杂乱、元素变形、穿模等严重瑕疵。

Prompt

大家可以试一下,将GPT的API接入工程文件中,批量生产的素材输出在【新建文件夹】中,调用API读取图片,将每个图片文件传输后做质量审核和分类。API返回的数据包含会label字段,用于分类。根据返回的分类标签,将图片移动到对应的分类文件夹中。

处理返回数据并自动分类移动图片的Python代码示例:

import os
import openai
import shutil

# 设置OpenAI API密钥
openai.api_key = 'your_openai_api_key'

# 批量图片文件夹路径
input_folder = 'Batch_Image'
output_folder = 'Processed_Images'

# 创建输出文件夹(如果不存在)
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 函数:调用OpenAI API进行图片质量审核和分类
def analyze_image(file_path):
    with open(file_path, 'rb') as image_file:
        image_data = image_file.read()

    response = openai.Image.create(
        file=image_data,
        n=1,
        size="1024x1024",
        prompt="Classify and review the quality of this image."
    )

    return response

# 遍历Batch_Image文件夹中的所有图片文件
for filename in os.listdir(input_folder):
    if filename.endswith('.jpg') or filename.endswith('.png'):
        file_path = os.path.join(input_folder, filename)
        
        # 调用OpenAI API
        response = analyze_image(file_path)
        
        # 假设API返回的数据如下
        result = response['data'][0]
        classification = result['label']

        # 打印结果(可选)
        print(f"Image: {filename}, Classification: {classification}")

        # 根据分类结果将图片移动到不同的文件夹中
        classification_folder = os.path.join(output_folder, classification)
        if not os.path.exists(classification_folder):
            os.makedirs(classification_folder)
        shutil.move(file_path, os.path.join(classification_folder, filename))

print("Processing completed.")

素材信息标注员

素材的管理以业务、素材类型做分类;以标签、命名做标注。所以也需要一些前置信息的准备。业务和素材类型的全量信息,标签库的搭建和标签填充,命名的规则和限制。

其中标签,我以类别维度去搭建的标签格式:

一、主要类别(1)子分类  [具体标签]

大概整理了17个主要类别,基本囊括80%的图片素材类别,后期也会定期维护更新。

标签体系搭建后,对素材进行了全面的命名规范:

业务(判断)-素材类型(判断)-标签一、标签二、标签三-人物描述/物体名称(判断,不超过4个字)-动作/场景/特征(判断,不超过6个字)。

素材的名称即为:人物描述/物体名称(判断,不超过4个字)-动作/场景/特征(判断,不超过6个字)。例:一张女足的素材。全命名为“业务-3D-青年、运动健身、运动员-女孩-踢球”。

Prompt

输出效果

完成这一切的部署,就可以批量生图,素材审核,针对素材信息进行自动填充,素材批量上传入库。

关于Prompt如何编写,感兴趣的同学可以看一下上一篇文章。此篇文章意在分享目前大厂内部针对AI是如何运作,如何借助AI的能力做节点式提效。

由于该SOP并不是一个产品化的流程,所以需要设计师掌握一定的代码能力:

  • 部署Python集成开发环境(IDE):为Python开发提供了一个强大的工具集,如Spyder、Jupyter Notebook、PyCharm等Python开发工具都可以。

目前的批量生成素材的质量还是不错的,不过良品率还是有点低,在15%左右,不过纯批量生产可以达到1200张/小时,可直接入库的素材至少有144张。若不调试csv持续输出,每天达到入库视觉标准的素材有1152张。当然这是理想的数据。目前有着隐性和显性两个方面的元素影响,例如一:网速、调用SD批量生图时长和读取图片的返回数据时长这些隐形因素。二:人工二次审核和csv条目的调试这些显性因素。

通过接入GPT,减少了人工操作的时间,使得整体流程更加高效。prompt批量生成、素材筛选、标签生成和命名等环节均实现了自动化,大幅提升了工作效率。利用GPT的智能筛选与标记功能,可以确保素材质量的一致性和可靠性,减少了人工操作可能导致的错误。自动化的生成与筛选流程大大减轻了人工操作的负担,使得成本降低的同时效率提升。

再接再厉,共同探索AI的更多可能性~