基于大数据的面向开放域的智能问答技术专家咨询研讨会

发布时间：2019-05-05 阅读次数：2198 来源单位：

基于大数据的面向开放域的智能问答技术专家咨询研讨会

报告题目：基于机器阅读理解的智能问答技术研究

报告人： 黄萱菁（复旦大学）

报告时间：2019年5月7日（星期二）2:00-2:30

报告地点：苏州大学理工楼321

报告摘要：

机器阅读理解（MRC）是自然语言处理领域非常重要的任务之一，我们针对机器阅读理解任务中处理问题无法回答情况的新任务提出了一个通用的模型。该模型通过引入一个通用节点Universal node，来处理问答系统（QA）中给定的问题（Question）和对应原文（Passage），将其整合为一个连续的序列来实现端到端的多任务训练。

对话问答任务是一个机器阅读理解（MRC）的最新挑战。相对于传统的单轮问答任务，对话问答需要机器充分理解对话上下文和给定的文章。对话问答的主要挑战包括文章理解，上下文理解，以及指代消解等。我们研究了预训练的双向Transformer编码器加对话历史增强的问题模型，将对话中的问题和对话的历史结合起来，用以解决对话中常出现的指代消解以及和省略的问题。并且该模型对问题的类型做了推断，用以解决需要做推断的问题。对于需要生成答案的问题，统一预处理成可以从文章中抽取答案的问题。

报告人简介：

黄萱菁博士，复旦大学教授、博士生导师，研究方向为人工智能、自然语言处理、信息检索和社会媒体分析。她已经在SIGIR, IEEE TKDE, ACL, ICML, IJCAI, AAAI, SCIS, CIKM, ISWC, EMNLP, WSDM和COLING等多个高水平国际学术期刊和会议上发表了80余篇论文。近年来担任2014年ACM 信息与知识管理会议（CIKM）竞赛主席，2015年ACM 互联网搜索与数据挖掘会议（WSDM）组织者，2015年社会媒体处理大会程序委员会副主席，2016年全国计算语言学会议（CCL）程序委员会副主席，2017年国际自然语言处理与中文计算程序委员会主席, 2019年全国计算语言学会议（CCL）程序委员会副主席，等学术职务。并多次在人工智能、自然语言处理和信息检索的国际学术会议IJCAI, ACL, SIGIR, WWW, EMNLP, COLING, CIKM, WSDM担任程序委员会委员和资深委员。

报告题目：基于大数据和数据发掘的问答库和问答知识库构建

报告人： 何清（中国科学院计算技术研究所）

报告时间：2019年5月7日（星期二）2:40-3:10

报告地点：苏州大学理工楼321

报告摘要：

目前大多数现存的知识库面临

完整性的问题，而且人工向知识库中添加知识是很低效的。因此，自动挖掘知识是一个十分重要的任务。为解决这一问题，我们研究并提出了S2AMT模型来从互联网中挖掘知识三元组，如（巴拉克•奥巴马，妻子，米歇尔•奥巴马），并将这些三元组加入知识库中。特别地，对每个关系来说，种子实例是很难获取的。该模型可以在有限的种子实例下挖掘知识三元组。更明确地，由于在训练数据有限的情况下，多任务学习算法经常可以取得比单任务学习算法好的效果，因此我们将每个关系的三元组挖掘任务视为单任务，并使用多任务学习的方法来解决这个问题。另外，在多任务学习中，找到合适的任务组是至关重要的问题，这可能直接影响模型最终的效果，因此增加一个聚类算法来找到合适的任务组，以进一步提高模型效果。

报告人简介：

何清，中国科学院计算技术研究所，中国科学院智能信息处理重点实验室研究员，博士生导师。2000年获北京师范大学博士学位，兼任中国人工智能学会副秘书长，常务理事，机器学习专业委员会常务理事, 分布智能与知识工程专业委员会秘书长。中国电子学会云计算专家委员会委员。主要研究领域：机器学习与数据挖掘，基于云计算的大数据挖掘。主要学术贡献：提出了基于超曲面的覆盖学习算法；提出极小样本集抽样方法与相关理论；提出了基于进化规划的基于摄动的模糊聚类改进算法，解决了模糊聚类失真问题；证明了模糊集扩展原理在范畴论意义下的合理性；提出概念语义空间用于知识管理；提出一种新型信息熵用于分类；提出基于粒度的多层次决策方法；在国内外重要刊物和会议上发表近百篇学术论文，30多篇文章发表在SCI国际期刊，已被SCI收录27篇，被EI收录66篇。

报告题目：问句语义解析技术

报告人： 孙乐（中国科学院软件研究所）

报告时间：2019年5月7日（星期二）3:20-3:50

报告地点：苏州大学理工楼321

报告摘要：

传统弱监督端到端语义解析模型的主要问题是解码时搜索空间太大，在缺乏初始知识的情况下难以找到正确的解析结果，导致训练过程无法找到合适的参数。针对这个问题，我们探索了降低搜索空间的算法，在提升效率的同时，同时也大幅度提升了语义解析的性能。我们结合语义图（Semantic Graph）表示与目标知识库密切关联的优点，以及深度学习模型的强表示学习能力和强预测能力，提出了一种端到端的语义解析方法(Sequence-to-Action)，通过将语义解析建模为端到端语义图生成任务，有效的提升了语义解析的性能。

报告人简介：

孙乐，中国科学院软件研究所特聘研究员，博士生导师。中文信息处理实验室主任，中国中文信息学会副理事长兼秘书长、中文信息学报副主编、国家语委语言文字规范标准审定委员会委员。国际计算语言学大会(COLING 2010)组织委员会联席主席、国际计算语言学年会（ACL2015）组织委员会联席主席。先后在英国Birmingham 大学、加拿大Montreal 大学做访问研究。目前主要研究方向: 自然语言理解、知识图谱、信息抽取、问答系统。作为项目负责人承担国家自然科学基金重点项目、国家“863”项目和国际合作等40余项, 在ACL、SIGIR、EMNLP等重要国际会议和国内核心期刊发表论文百余篇。

报告题目：基于知识库的问答系统

报告人： 周斌（国防科技大学）

报告时间：2019年5月7日（星期二）4:20-4:50

报告地点：苏州大学理工楼321

报告摘要：

近来，以Bert为代表的QA的性能表现已经取得了重大的进展，但这类QA主要针对于阅读理解（ reading comprehension，RC）领域。在这类领域的应用中，问题的解答默认存在于QA系统所阅读的文本中，其表述形式也与问题的词句相近。系统只需要正确完成文本（或其相关上下文的语义）与问题的匹配即可获得出色的性能表现。然而实际的问答场景往往更为复杂，问题本身可能由多个需要分别回答的子问题组成，而最终的正确回答又需要在正确解答这些子问题后进行推理才能得到。在这类复杂问题的场景下，面向阅读理解（RC）领域的问答系统便无法给出解答。

相对的，基于知识库的问答系统注重语义解析，这种技术通常将问题本身分解为一系列动作，问答系统通过依序执行这些动作，从知识库的一个节点转跳至相邻节点，最终达到正确答案所在的节点，系统也从而得以从知识库中检索得到解答。在复杂问题的场景下，语义解析同样能够将问题本身分解为多个子问题文本片段。一旦所有的子问题得到了解答，系统便能够从宏观上执行交，并，极值，比较等操作完成最终解答的推理过程。而这一问题分解的过程由一个深度神经网络实现是一个比较妥当的做法。

报告人简介：

周斌，博士/研究员，博士生导师，现任国防科技大学计算机学院国产基础软件工程研究中心副主任，中国计算机协会大数据专业委员会委员，中国网络空间安全协会理事。1999 年获国防科学技术大学工学博士学位。长期从事数据挖掘、分布计算、信息检索等相关研究工作。目前主要从事面向互联网的文本内容分析与挖掘技术、网络舆情分析与挖掘技术、社会工程学的网络安全应用，大规模数据处理技术的研究。作为课题负责人和技术骨干主持或参研国家自然科学基金项目、“863”等国家级项目十多项，研究成果获国家科技进步二等奖4项、省部级科技进步一等奖3项、二等奖2项。历年来指导或协助指导博士及硕士研究生80多人。在国内外刊物和会议上共发表论文200多篇；进入SCI检索30多篇，进入EI检索80多篇，在本专业方向上软件著作权10多项、软件专利20多项。