上外语料库研究院举办“语料库与跨学科研究”讲坛第六期讲座

教师登录 ENGLISH

研究院动态

当前位置: 首页研究院动态

2019年12月19日下午，应上外语料库研究院邀请，上外科研处副处长毛文伟教授做了题为“数据挖掘在文学研究中的应用概述”的讲座，语料库研究院院长胡开宝教授主持了讲座，50余名师生参加了本次讲座。

毛文伟教授首先对数据挖掘技术进行了简要介绍，指出数据挖掘可以从海量数据中发现有价值的信息，将数据转化成有组织的知识。通过数据挖掘，可以对表面看起来毫无规律的庞大数据进行概况分析，按照一定的标准对数据进行整理，并描绘出整体的构造。

在介绍数据收集、数据的预处理等数据分析准备工作的基础上，毛教授详细说明了如何运用统计学方法，借助 Python、R等编程语言或SPSS、KH Coder等现有工具，提取特征词汇、分析热点话题，对包括文学作品在内的不同类型文本进行定量分析。毛教授从写作时间推断、作者识别、文本分类、作品分析等方面，介绍了不同的计量文献学研究案例。

此外，毛教授还结合自己的研究，讲述了如何借助数据挖掘技术对小说进行文本分析。他以日本作家夏目漱石的中长篇小说为例，以名词比、动词比、修饰词比、MVR、句长、接续词句比、非过去式句比等文本特征为指标，运用聚类分析对文本进行分类，运用t 检验对文本间的显著性差异进行检验，并运用个案排秩对数据进行标准化，验证了不同数据挖掘技术的价值。

在提问环节，针对师生提出的数据处理及统计工具、结果显著性差异的影响因素等问题，毛教授耐心、细致地做了进一步说明。

本次讲座为“语料库与跨学科研究”讲坛的第六期，本学期最后一期讲座将于2020年1月9日举行，届时上外语料库研究院韩子满教授将做题为“国防白皮书英译文翻译腔研究”的报告。