【“语料库与跨学科研究”讲坛第12讲】刘伍颖：服务超深度自然语言处理的全语言数据建设初探

教师登录 ENGLISH

学术交流

学术讲座

当前位置: 首页学术交流学术讲座

题目：服务超深度自然语言处理的全语言数据建设初探 All-Language Data Construction for Ultra-Deep NLP

报告时间:2020年6月19日

内容提要:首先，探寻语言认知智能的三大前置条件，由超强的算力、超深的算法和超大的算料支撑起超深度自然语言处理。其次，介绍我们在全语言数据建设方面取得的初步成果，包括平行词句库、领域词句库、语音语料库、稀缺语言资源等。接着，展示基于上述语言数据实现的低资源机器翻译、非通用语言辅助学习等应用系统。最后总结:随着人类语言信息生产力的迅速提升，语言数据已上升为一种新型生产要素，作为语言认知智能的关键基础设施，大规模高质量全语言数据建设意义重大。

讲者简介:刘伍颖，男，1980 年生，国防科技大学博士，广东外语外贸大学副教授、硕士研究生导师、云山学者，本硕博毕业于国防科技大学计算机系，研究方向为计算语言学、计算传播学和人工智能。长期致力于“多语种大数据语言资源”建设和“全语言深度信息处理技术”研究，已在 SIGIR 等会议和期刊上发表学术论文 60 余篇，其中 SCI、EI 检索 40 余篇，出版学术著作 2 部，主持科研项目 8 项，获得软件著作权 10 项。已构建自主知识产权语言资源 20 余组、软件系统 10 余套，其中同文术语矩阵(TWTermMatrix)等资源、星汉传思(StarHanTrans)机器翻译等系统已在语言教学、专利翻译、舆情传播、网络空间安全等领域部署推广，实用效果理想，经济效益和社会效益显著。