近日,我中心自然语言处理研究组完成的论文Semantically Smooth Bilingual Phrase Embeddings Based on Recursive Autoencoders被Neural Processing Letters(NPL)期刊录用。NPL期刊是CCF-C类,JCR-3区期刊,2019年影响因子为2.591。

论文由中心2017级硕士研究生林倩,杨静,张祥文,陆垚杰(中科院软件所),王鸿吉副教授,苏劲松副教授合作完成。论文认为,双语短语向量表示学习是机器翻译知识的重要研究内容。然而,传统模型独立考虑每个短语,忽视了短语之间的相似性。对此,论文提出基于递归自编码器的语义平滑双语短语嵌入(SSBRAE),以学习双语短语向量表示。具体来说,论文扩展传统的双语递归自编码器,通过正则项方法保留翻译和复述概率分布,以同时利用更丰富的显式和隐式的相似性约束来学习双语短语向量表示。论文将基于所提出的两个短语级别相似性特征融入翻译系统中,中英翻译任务的实验结果证明了论文所提方法的有效性。