学术讲座
【“语料库与跨学科研究”讲坛第12讲】刘伍颖:服务超深度自然语言处理的全语言数据建设初探

题目:服务超深度自然语言处理的全语言数据建设初探 All-Language Data Construction for Ultra-Deep NLP


报告时间:2020年6月19日


内容提要:首先,探寻语言认知智能的三大前置条件,由超强的算力、超深的算法和超大 的算料支撑起超深度自然语言处理。其次,介绍我们在全语言数据建设方面取得的初步成 果,包括平行词句库、领域词句库、语音语料库、稀缺语言资源等。接着,展示基于上述 语言数据实现的低资源机器翻译、非通用语言辅助学习等应用系统。最后总结:随着人类 语言信息生产力的迅速提升,语言数据已上升为一种新型生产要素,作为语言认知智能的 关键基础设施,大规模高质量全语言数据建设意义重大。



讲者简介:刘伍颖,男,1980 年生,国防科技 大学博士,广东外语外贸大学副教授、硕士研究生导师、云山学者,本硕博毕业于国防科技大学计算机系,研究方向为计算语言学、计算 传播学和人工智能。长期致力于“多语种大数 据语言资源”建设和“全语言深度信息处理技术”研究,已在 SIGIR 等会议和期刊上发表学术论文 60 余篇,其中 SCI、EI 检索 40 余篇,出版学术著作 2 部,主持科研项目 8 项,获得软件著作权 10 项。已构建自主知识产权语言资源 20 余组、软件系统 10 余套,其中同文术语矩阵(TWTermMatrix)等资源、星汉传思(StarHanTrans)机器翻译等系统已在语言教学、专利翻译、舆情传播、网络空间安全等领 域部署推广,实用效果理想,经济效益和社会效益显著。