苏州大学 联系我们

科研

学术论文

    张民教授和李俊涛老师共同指导的2020级博士生梁小波在NeurIPS 2021上发表论文,题目为《R-Drop: Regularized Dropout for Neural Networks》,由苏州大学和微软亚洲研究院合作完成。

    会议简介:NeuIPS是关于机器学习和计算神经科学的国际人工智能顶会,于每年的12月举行,其全称是神经信息处理系统大会(Conference on Neural Information Processing Systems),为人工智能领域的A类会议。

    第一作者:梁小波、吴郦军(共同)

    论文题目:R-Drop: Regularized Dropout for Neural Networks

    论文概述:Dropout是一种功能强大、应用广泛的深度神经网络正则化训练技术。Dropout虽然有效且表现良好,但其带来的随机性导致了训练与推理之间不可忽视的不一致性。本文引入了一种简单的一致性训练策略来正则化dropout,即R-Drop,它迫使dropout生成的不同子模型的输出分布彼此一致。具体来说,对于每个训练样本,R-Drop使dropout所采样的两个子模型的输出分布之间的双向KL-divergence最小。理论分析表明,R-Drop降低了上述不一致性。在5个广泛使用的深度学习任务(共18个数据集)上进行的实验,包括神经机器翻译、抽象摘要、语言理解、语言建模和图像分类,表明R-Drop是普遍有效的。尤其是在应用于微调大规模的预训练模型时(如ViT、RoBERTa-large和BART),它获得了显著的提升,并在WMT14英语→德语翻译(30.91BLEU)和WMT14英语→法语翻译(43.95BLEU)上实现了最先进的(SOTA)性能,甚至超过了使用额外大规模数据训练的模型和专家设计的Transformer模型的高级变体。

    GitHub代码链接:https://github.com/dropreg/R-Drop