NeurIPS 2025 | TANDEM:基于双层优化的数据配比学习方法
本文入选顶会NeurIPS 2025大型语言模型的能力很大程度上取决于各个领域的训练数据。优化特定领域数据的混合比例可以建模为双层优化问题。本文将该双层优化问题简化为单层惩罚形式,并使用一组孪生模型进行求解:一个使用原始数据训练的代理模型和一个使用额外数据训练的动态更新的参考模型。本文提出的方法,基于孪生模型的双层数据混合比例优化 (TANDEM)

