研究院动态
上外语料库研究院举办“语料库与跨学科研究”讲坛第六期讲座

20191219日下午,应上外语料库研究院邀请,上外科研处副处长毛文伟教授做了题为数据挖掘在文学研究中的应用概述的讲座,语料库研究院院长胡开宝教授主持了讲座,50余名师生参加了本次讲座。


毛文伟教授首先对数据挖掘技术进行了简要介绍,指出数据挖掘可以从海量数据中发现有价值的信息,将数据转化成有组织的知识。通过数据挖掘,可以对表面看起来毫无规律的庞大数据进行概况分析,按照一定的标准对数据进行整理,并描绘出整体的构造。

在介绍数据收集、数据的预处理等数据分析准备工作的基础上,毛教授详细说明了如何运用统计学方法,借助 PythonR等编程语言或SPSSKH Coder等现有工具,提取特征词汇、分析热点话题,对包括文学作品在内的不同类型文本进行定量分析。毛教授从写作时间推断、作者识别、文本分类、作品分析等方面,介绍了不同的计量文献学研究案例。

此外,毛教授还结合自己的研究,讲述了如何借助数据挖掘技术对小说进行文本分析。他以日本作家夏目漱石的中长篇小说为例,以名词比、动词比、修饰词比、MVR、句长、接续词句比、非过去式句比等文本特征为指标,运用聚类分析对文本进行分类,运用t 检验对文本间的显著性差异进行检验,并运用个案排秩对数据进行标准化,验证了不同数据挖掘技术的价值。


在提问环节,针对师生提出的数据处理及统计工具、结果显著性差异的影响因素等问题,毛教授耐心、细致地做了进一步说明。


本次讲座为语料库与跨学科研究讲坛的第六期,本学期最后一期讲座将于202019日举行,届时上外语料库研究院韩子满教授将做题为国防白皮书英译文翻译腔研究的报告。