模型权重不匹配的解决思路——PyTorch预训练权重shape修改

MWHLS • 2022/10/25 am11:18 • Python, Pytorch, 计算机语言

已阅： 85

前言

为什么要修改预训练权重shape？

如何修改预训练权重shape？

在哪修改预训练权重shape？

前言

最近太忙没时间细致的写，所以这篇讲的是思想，不是实际代码，大家意会一下。
因为GPU有限，这篇文章讲的有些东西只是我自己的观点，缺乏实验证明，欢迎大家批评指正。
今天题图在实验室用轨迹球画的，比较艺术一点。

为什么要修改预训练权重shape？

预训练能大幅提升精度是毋庸置疑的，但间断加载预训练权重有效吗？
我试过一些网络结构的修改，这些都会使得预训练权重shape mismatch，其中最简单的一个修改是将输入的(3, 224, 224)改为(4, 224, 224)（即conv(3, 768, 16, 16)变为conv(4, 768, 16, 16)），它只会使得第一层权重无法加载，但精度大幅降低
微调通过冻结前面若干层网络权重，训练尾部网络，而不是冻结尾部训练头部，也表明了这点。
网络是逐层计算的，权重梯度也是逐层传递，当某一层的预训练权重被修改后，后部的权重也理所应当失去了它应有的效果。

如何修改预训练权重shape？

我个人认为根据实际修改方式修改预训练权重会有更好的效果。
比如原来是一路的网络，现在把它拓展到四路，每路的shape与原来一致。
- 如conv(3, 768, 16, 16)到conv(3, 768*4, 16, 16)
- 那权重直接改为 torch.cat((x, x, x, x), dim=0)，因为权重的shape为(768, 3, 16, 16)，即(C_out, C_in, H, W)，所以在dim=0上改。
- 这样conv出来的结果直接分成四份，每份的结果依然保持原来的结构
如果是一路的网络，和上面一样拓展四倍，但不分成四路，那为了保持原来的权重结构，就应该用上采样的方法，而不是cat。
- 但我没有找到一个合适的上采样函数能上采样(C1, C2, H, W)中的某一路，只有对(H, W)上采样的。
- 不过当(H, W)中有某个维度=1时，可以permute, squeeze变为(H, C1, C2)来上采样
- 如果(C1, C2, H, W)都不为1时，理论上将其permute为(H, W, C1, C2)，在分为H * (W, C1, C2) 后上采样应该也能保持较好的结构信息。
- 但正如开篇说的那样，我没有实验能够证明结论，也没有实际探究过上采样的实现方式，所以只是给大家提供一个思路，实际还是以炼丹结果为导向。

在哪修改预训练权重shape？

加载权重后，用 k, v for checkpoint.item()的形式取出对应键值对。
对 v 用上采样函数即可，同特征的上采样。
修改完后，保存 k, new_v 到新的权重字典，保存字典。

版权声明：
作者：MWHLS
链接：https://mwhls.top/4034.html
来源：无镣之涯
文章版权归作者所有，未经允许请勿转载。

THE END

python Pytorch

二维码

打赏

分类

月份归档

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

搜索内容

模型权重不匹配的解决思路——PyTorch预训练权重shape修改

前言

为什么要修改预训练权重shape？

如何修改预训练权重shape？

在哪修改预训练权重shape？

回复一之涯取消回复

共有 3 条评论

分类

月份归档

标签云

最新评论

模型权重不匹配的解决思路——PyTorch预训练权重shape修改

前言

为什么要修改预训练权重shape？

如何修改预训练权重shape？

在哪修改预训练权重shape？

回复 一之涯 取消回复

共有 3 条评论

分类

月份归档

标签云

最新评论

回复一之涯取消回复