古早动画,无粮老番的粉丝们有福了。
我宣布工业化同人产粮实现半自动了!(虽然我也没做啥工作,缝合怪罢了)
总之半自动流程已经跑通了,要是有什么单样本或者交互式目标检测方法,简直就可以实现全自动了!
(资料图片)
大概就是yolo半监督训练,拿番剧视频去做目标检测,再拿去给sam,boundingbox可以做prompt做分割。总之最后得到角色的纯色背景分割好的图,使用相似度算法和yolo结合做数据清洗,就可以拉去训练lora了。尴尬的是我用最终版数据集(2000+张)跑出来的效果比mini数据集(随机选了70张)强点有限,如果不是真想高度还原的话,自己截图特挑手动分割训练也许也足够了。
以24集的番剧Gosick举例。
这样子可以直接从番剧中获得数千张角色分割图。
不过由于prompt是box,而且分割时有颗粒度的问题,所以也会有很多噪声图。如下
再次通过半监督的方式训练yolo,自动筛除大部分坏点和噪声图。自动化筛除大概1000张。
另外虽然做了关键帧,但是会有目标角色无变化,其他角色动作,导致连续抓取相同图案的情况,数据集采样的时候没考虑到,因此后期使用相似度算法自动筛除了一批。其实可以在SAM分割后直接卡相似度阈值,因为大部分相同图都是连续的,可以很方便的剔除连续相同的图案。举例如下:
前前后清理了好久数据集,从7000+清理到2700,不过也许不清这么干净也能用,只是我想让本命角色的数据集干净点,下一次想试试牧濑红莉栖,就不会这么大动干戈的手动清洗数据了。之前用yolo person识别+角色识别直接出数据集做的老模型也勉强能用。
又跑了好几个版本的Lora测试尴尬的是我用超大数据集(4000+张)跑出来的效果比mini数据集(随机选了70张)强点有限最终版模型是特挑2700张训练的,服饰过拟合的情况小点,也不像老数据集跑的会有字幕和黑点噪声。代价是头发长度和表情(指不总是板着个脸)稍微没那么像。这些是不同版本的Lora测试图,你们分得出差别吗?
最终简化版2700数据集 无数据增强 4epoch 服饰过拟合的情况好一些了,但代价是表情还原度稍低。
不过个人还是觉得这版效果稍好。
sd参数设置:模型AOM3或counterfeit2.5,VAE klf8或grapefruit。使用easynegative和badhandsv5做negative prompt
效果展示:随手捞几乎无特挑
个人感觉可以说是高度还原。
最后的最后,图片无版权,但不允许商用和过分传播,请偷着乐,别找麻烦。
本技术可以视用途一定程度开源,比如你有特别喜欢的角色,愿意这么麻烦的来自己产粮,可以来找我。但是想从我这里获取源码商用,我个人是不同意的。还没想好要不要直接放开给大家用。思路给了,邪道自己去整吧,与我无瓜。