AI绘图半监督 YOLO+SAM实现半自动角色Lora建档当前热议-微商日报

AI绘图半监督 YOLO+SAM实现半自动角色Lora建档当前热议

来源：哔哩哔哩｜时间： 2023-04-13 23:10:08 ｜

古早动画，无粮老番的粉丝们有福了。

我宣布工业化同人产粮实现半自动了！（虽然我也没做啥工作，缝合怪罢了）

总之半自动流程已经跑通了，要是有什么单样本或者交互式目标检测方法，简直就可以实现全自动了!

(资料图片)

大概就是yolo半监督训练，拿番剧视频去做目标检测，再拿去给sam，boundingbox可以做prompt做分割。总之最后得到角色的纯色背景分割好的图，使用相似度算法和yolo结合做数据清洗，就可以拉去训练lora了。尴尬的是我用最终版数据集（2000+张）跑出来的效果比mini数据集（随机选了70张）强点有限，如果不是真想高度还原的话，自己截图特挑手动分割训练也许也足够了。

以24集的番剧Gosick举例。

这样子可以直接从番剧中获得数千张角色分割图。

不过由于prompt是box，而且分割时有颗粒度的问题，所以也会有很多噪声图。如下

再次通过半监督的方式训练yolo，自动筛除大部分坏点和噪声图。自动化筛除大概1000张。

另外虽然做了关键帧，但是会有目标角色无变化，其他角色动作，导致连续抓取相同图案的情况，数据集采样的时候没考虑到，因此后期使用相似度算法自动筛除了一批。其实可以在SAM分割后直接卡相似度阈值，因为大部分相同图都是连续的，可以很方便的剔除连续相同的图案。举例如下：

前前后清理了好久数据集，从7000+清理到2700，不过也许不清这么干净也能用，只是我想让本命角色的数据集干净点，下一次想试试牧濑红莉栖，就不会这么大动干戈的手动清洗数据了。之前用yolo person识别+角色识别直接出数据集做的老模型也勉强能用。

又跑了好几个版本的Lora测试尴尬的是我用超大数据集（4000+张）跑出来的效果比mini数据集（随机选了70张）强点有限最终版模型是特挑2700张训练的，服饰过拟合的情况小点，也不像老数据集跑的会有字幕和黑点噪声。代价是头发长度和表情（指不总是板着个脸）稍微没那么像。这些是不同版本的Lora测试图，你们分得出差别吗？

最终简化版2700数据集无数据增强 4epoch 服饰过拟合的情况好一些了，但代价是表情还原度稍低。

不过个人还是觉得这版效果稍好。

sd参数设置：模型AOM3或counterfeit2.5，VAE klf8或grapefruit。使用easynegative和badhandsv5做negative prompt

效果展示：随手捞几乎无特挑

个人感觉可以说是高度还原。

最后的最后，图片无版权，但不允许商用和过分传播，请偷着乐，别找麻烦。

本技术可以视用途一定程度开源，比如你有特别喜欢的角色，愿意这么麻烦的来自己产粮，可以来找我。但是想从我这里获取源码商用，我个人是不同意的。还没想好要不要直接放开给大家用。思路给了，邪道自己去整吧，与我无瓜。

标签：

AI绘图 半监督 YOLO+SAM实现半自动角色Lora建档 当前热议

AI绘图半监督 YOLO+SAM实现半自动角色Lora建档当前热议