Paper Reading 15 LLM finetuning and forgetting

问题一：大语言模型的遗忘与小模型的遗忘有什么区别？

1.1 模型规模与遗忘的关系

模型规模是否影响遗忘程度？

是否存在规模临界点（如10亿参数以上），遗忘率会显著降低？
更大的模型参数是否本质上只是增加了存储能力，而非记忆的质量？

预训练规模对遗忘的影响？

数据集覆盖度：是否覆盖更多的概念，减少需要迁移的部分？
训练时间的影响：长时间训练的模型是否更容易产生知识冲突？

1.2 数据集特性与遗忘

数据集中冗余对遗忘的影响？

重复样本或相似样本是否会降低遗忘率？
数据集是否越稀疏，越容易导致灾难性遗忘？

数据分布变化

长尾数据是否更容易被遗忘？
逐步学习中，数据顺序对遗忘的影响有多大？

训练顺序的不同会影响大模型的效果

1.3 网络架构与遗忘

架构复杂性对遗忘的作用

Transformer相较于RNN是否更具抗遗忘能力？
模块化设计（如MoE）是否有助于减少知识干扰？

记忆机制的加入

可微记忆网络（如DNC）是否对抗遗忘有效？
是否可以通过增加外部记忆模块（如RAG框架中的检索模块）减少遗忘？

问题二：当前大语言模型的微调方法有哪些？效果如何？

2.1 微调方法分类

基于参数微调
- 全参数微调：是否适用于特定任务，但更容易遗忘？
- 参数冻结+微调：冻结底层网络，仅更新上层。
- LoRA或Adapter的使用是否有效减少灾难性遗忘？
基于增量学习的微调
- 在线微调：数据分布变化时如何平衡新旧知识？
- 知识蒸馏：是否可以通过蒸馏模型避免遗忘？
基于迁移学习的微调
- 迁移学习中的反向迁移：微调后原始任务性能的退化是否是遗忘？

2.2 微调的缺点与不足

泛化能力
- 微调是否导致模型对未见任务的泛化能力下降？
- 数据不平衡是否会加剧微调时的灾难性遗忘？
数据效率
- 数据利用率是否影响微调的效果？少样本场景下灾难性遗忘是否更严重？

2.3 新兴微调技术

Prompt-tuning方法
- Prompt工程能否减少微调带来的遗忘？
- Prompt与RAG相结合是否提升对知识的稳定性？

问题三：持续学习方法在大语言模型中的应用

3.1 已应用方法与场景

任务隔离方法
- EWC、MAS等正则化方法在模型中是否有效？
- 模型分支策略（如多任务分层）在实际场景的效果？
记忆回放方法
- 使用少量历史数据进行微调是否对抗遗忘有效？
- 模拟历史数据生成的回放技术能否提高泛化能力？

3.2 持续学习面临的挑战

知识冲突
- 在跨领域任务微调时，知识冲突的解决机制是否足够高效？
- 是否需要动态调整网络结构以适应多样任务？
长期依赖问题
- 在长时间序列任务中，如何确保早期知识不会被遗忘？
- 是否需要动态适应模型权重，确保关键知识点的长期稳定性？

3.3 效果评价

评价指标
- 评价灾难性遗忘的标准是什么？任务性能下降的幅度？
- 持续学习方法是否在实际工业场景有量化的收益？
对实际场景的影响
- 知识更新需求强烈的场景（如法律、医疗），哪种持续学习方法效果最佳？
- 多模态任务（如视频+文本）中的遗忘是否存在跨模态影响？

应用领域

1 判断隐私数据是否被大模型训练使用

LLM Dataset Inference Did you train on my dataset?

LLM Dataset Inference Did you train on my dataset?
semanticscholar Paper
2024 arXiv.org

这个设定就很想是continual learning 设置。设置两个数据集，用PLMs提取特征，然后训练一个分类器，这个分类器用来区分不同的类别。然后测试在这两个数据集上的表现。区别就是这里的两个数据库不是分类类别，而是数据库是来自同一部分的不同数据，大概可以类比为迪士尼中的布鲁斯和高迪的概念。背后的逻辑是大模型的表征能力来自于训练集，训练集和测试集对于大模型来说是不一致的，但最终效果并不显著

文档信息

本文作者：zuti666
本文链接：https://zuti666.github.io/2025/01/06/Paper-Reading-Note-15-LLM-fintuning-and-forgetting-Question/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

英飞

Paper Reading 15 LLM finetuning and forgetting

Paper Reading 15 LLM finetuning and forgetting

问题一：大语言模型的遗忘与小模型的遗忘有什么区别？

1.1 模型规模与遗忘的关系

模型规模是否影响遗忘程度？

预训练规模对遗忘的影响？

相关参考论文

1 EFFECT OF MODEL AND PRETRAINING SCALE ON CATASTROPHIC FORGETTING IN NEURAL NETWORKS

2 Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models

1.2 数据集特性与遗忘

数据集中冗余对遗忘的影响？

数据分布变化

1.3 网络架构与遗忘

架构复杂性对遗忘的作用

记忆机制的加入

相关参考论文

CAN BERT REFRAIN FROM FORGETTING ON SEQUENTIAL TASKS? A PROBING STUDY

Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models

问题二：当前大语言模型的微调方法有哪些？效果如何？

2.1 微调方法分类

2.2 微调的缺点与不足

2.3 新兴微调技术

问题三：持续学习方法在大语言模型中的应用

3.1 已应用方法与场景

3.2 持续学习面临的挑战

3.3 效果评价

应用领域

1 判断隐私数据是否被大模型训练使用

文档信息

Search

Table of Contents