苏州大学 联系我们

学术报告

报告题目:神经机器翻译中数据增强方法及应用

发布时间:2022-10-13 阅读次数:10 来源单位:



报告题目:神经机器翻译中数据增强方法及应用

报告人:王星腾讯人工智能实验室高级研究员

报告时间:2022102419:00-20:00

地点:腾讯会议(待公布)


报告摘要:近年来,基于深度学习的神经机器翻译(NeuralMachineTranslation)获得迅速发展。在神经机器翻译模型落地到实际应用场景中,数据增强技术扮演着重要的角色。本次报告中,我将首先介绍我们在在数据增强方面针对神经机器翻译的不同场景(监督/半监督/无监督)所做的前沿技术探索。然后,我会介绍我们参与WMT2022国际翻译评测极低资源场景(利沃尼亚语-英语)所面临的挑战及解决方案。最后,我将简要介绍我们在手语翻译研究所做的数据增强探索工作。



参考论文:

论文1WenxiangJiao, Xing Wang, Shilin He, Irwin King, Michael Lyu and Zhaopeng Tu.Data Rejuvenation: Exploiting Inactive Training Examples for NeuralMachine Translation. EMNLP 2020.

论文2WenxiangJiao, Xing Wang, Zhaopeng Tu, Shuming Shi, Michael Lyu and IrwinKing. Self-training Sampling with Monolingual Data Uncertainty forNeural Machine Translation. ACL 2021.

论文3ZhiweiHe, Xing Wang, Rui Wang, Shuming Shi, Zhaopeng Tu. Bridging the DataGap between Training and Inference for Unsupervised Neural MachineTranslation. ACL 2022.

论文4:Zhiwei He, Xing Wang, Zhaopeng Tu, Shuming Shi, Rui Wang. Tencent AILab-Shanghai Jiao Tong University Low-Resource Translation System forthe WMT22 Translation Task. WMT2022

论文5:Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu2ScalingBack-Translation with Domain Text Generation for Sign Language GlossTranslation. arxiv 2022


报告人简介:王星,腾讯公司人工智能实验室(Tencent AI Lab)高级研究员,2018年博士毕业苏州大学,导师张民教授,主要从事机器翻译相关的研发工作。在人工智能和自然语言处理相关顶级会议和刊物上发表论文约三十篇,其中自然语言处理顶级会议ACL/EMNLP/NAACL发表论文18篇,人工智能顶级会议AAAI发表论文4篇,目前Google引用数约900。在WMT国际翻译评测多个赛道获得评测比赛第一名。作为企业研究计划项目负责人联合主持的科研项目获2020年度腾讯AILab犀牛鸟专项研究计划技术创新奖(前10%)。曾在第十八届全国机器翻译大会CCMT2022进行讲习班报告。目前担任中国中文信息学会青年工作委员会委员。个人主页:http://xingwang4nlp.com/