2019年12月19日下午,应上外语料库研究院邀请,上外科研处副处长毛文伟教授做了题为“数据挖掘在文学研究中的应用概述”的讲座,语料库研究院院长胡开宝教授主持了讲座,50余名师生参加了本次讲座。
毛文伟教授首先对数据挖掘技术进行了简要介绍,指出数据挖掘可以从海量数据中发现有价值的信息,将数据转化成有组织的知识。通过数据挖掘,可以对表面看起来毫无规律的庞大数据进行概况分析,按照一定的标准对数据进行整理,并描绘出整体的构造。
在介绍数据收集、数据的预处理等数据分析准备工作的基础上,毛教授详细说明了如何运用统计学方法,借助 Python、R等编程语言或SPSS、KH Coder等现有工具,提取特征词汇、分析热点话题,对包括文学作品在内的不同类型文本进行定量分析。毛教授从写作时间推断、作者识别、文本分类、作品分析等方面,介绍了不同的计量文献学研究案例。
此外,毛教授还结合自己的研究,讲述了如何借助数据挖掘技术对小说进行文本分析。他以日本作家夏目漱石的中长篇小说为例,以名词比、动词比、修饰词比、MVR、句长、接续词句比、非过去式句比等文本特征为指标,运用聚类分析对文本进行分类,运用t 检验对文本间的显著性差异进行检验,并运用个案排秩对数据进行标准化,验证了不同数据挖掘技术的价值。
在提问环节,针对师生提出的数据处理及统计工具、结果显著性差异的影响因素等问题,毛教授耐心、细致地做了进一步说明。
本次讲座为“语料库与跨学科研究”讲坛的第六期,本学期最后一期讲座将于2020年1月9日举行,届时上外语料库研究院韩子满教授将做题为“国防白皮书英译文翻译腔研究”的报告。