2022年4月29日,应我中心苏劲松老师邀请,西湖大学特聘研究员张岳,带来题为“Guiding Document Encoding for Sequence-to-Sequence Tasks -- A Soft Constraint Method”的线上讲座。讲座由苏劲松老师主持,多名老师、博士生、硕士生及本科生参加了讲座。
文档级别的NLP任务近年来受到越来越多的重视,比如共指消解、篇章分析、摘要、关系抽取、机器翻译等。文档级别NLP任务面临两个根本的挑战:1)数据集规模普遍比较小,样本量比句子级别任务的小一到两个数据量级;2)需要对较长文档上下文的整体理解。当前工作在文档级别NLP任务上的建模方法可以分为两大类:一类在句子的建模基础上构建整篇文档的建模,比如层次模型;另一类直接将整篇文档作为一个完整序列进行建模,比如Transformer。这两类方法在建模时,要么聚焦与每个句子而忽视文档上下文,要么关注文档上下文而失去的局部的聚焦。
针对这些问题,张岳研究员介绍了他们提出的一类简单有效的方法—Guided Document Encoding,并在文本摘要和文档级别机器翻译任务上进行了验证。实验表明,这类方法能较好的平衡对句子内容的聚焦和对文档上下文的注意力的冲突,在Transformer训练失败的小规模文档级别机器翻译数据集上也能获得SOTA效果。讲座过后,我中心的老师同学们向张岳研究员请教了关于文档建模的若干问题,张岳研究员对这些问题都给予了耐心细致的回答。


张岳老师的主要研究领域为自然语言处理、文本挖掘、机器学习等。研究成果包括自左向右处理文本的结构预测算法、多任务融合学习的联合模型、自然语言处理和人类常识研究,以及金融市场应用。发表国际期刊论文50余篇,CCF-A/B 类国际会议论文200余篇。获CCF2018中文计算与自然语言处理青年新锐奖、SemEval2020 Honorable Mention、COLING2018和IALP2017最佳论文奖等奖项。