研究院动态
上外语料库研究院举办“语料库与跨学科研究”讲坛第12期讲座

2020619日上午, 应上海外国语大学语料库研究院邀请,广东外语外贸大学副教授、云山学者刘伍颖博士做了题为“服务超深度自然语言处理的全语言数据建设初探”的讲座,上外语料库研究院许洪志副教授主持讲座。本期讲座为上海外国语大学语料库研究院举办的“语料库与跨学科研究”讲坛第12讲。

本次讲座主要分为三个部分。在第一部分即全语言部分,刘伍颖副教授从巴别塔的故事讲起,指出人类现存约7000种语言,并形象生动地向大家讲解了完备的语料对于语言研究的重要性。在第二部分,刘伍颖副教授深入浅出地介绍了面对这些数量众多的语言和规模庞大的语料时的处理方法,让大家对深度自然语言处理有了一定的了解。刘伍颖副教授指出深度自然语言处理有效的最主要原因在于特征细化,并且需要超强的算力、超深的算法和超大的算料作为支撑,这也是语言认知智能的三大前置条件。在第三部分,刘伍颖副教授展示了其带领的团队针对语言数据建设和应用所做的工作,如同文术语矩阵和星汉句库、低资源机器翻译和非通用语言辅助学习系统、语言科学探索等。最后,刘伍颖副教授以一段发人深省的视频提出了对于人工智能与生命伦理的思考。

在提问环节,针对师生们提出的多语种语料库建设和使用等问题,刘伍颖副教授进行了耐心详细的解答。本次报告展示了作为语言认知智能的关键基础设施的大规模高质量全语言数据建设的意义重大,生动详实、旁征博引、由浅入深,吸引了近200名师生观看。

 

主讲人简介:



 

刘伍颖,男,1980 年生,国防科技大学博士,广东外语外贸大学副教授、硕士研究生导师、云山学者,本硕博毕业于国防科技大学计算机系,研究方向为计算语言学、计算传播学和人工智能。长期致力于多语种大数据语言资源建设和全语言深度信息处理技术研究,已在SIGIR 等会议和期刊上发表学术论文60 余篇,其中SCIEI 检索40 余篇,出版学术著作2 部,主持科研项目8 项,获得软件著作权10 项。已构建自主知识产权语言资源20 余组、软件系统10 余套,其中同文术语矩阵(TWTermMatrix)等资源、星汉传思(StarHanTrans)机器翻译等系统已在语言教学、专利翻译、舆情传播、网络空间安全等领域部署推广,实用效果理想,经济效益和社会效益显著。

 

撰稿:张晨夏