研究院动态
上外语料库研究院成功研制智能化多语种教学科研平台

智能化多语种教学科研平台(以下简称“平台”)由上海外国语大学语料库研究院胡开宝教授领衔的团队研发,该平台旨在推进语料库在外语教学与科研中的应用,实现语言教学与科研的数据化、可视化与智能化。平台在语料库检索与应用平台基础上,优化了部分功能,并扩充了其中的语料。目前,平台已经对外开放,网址为:https://instcorpus.com/ ,欢迎注册并使用。


图片

平台内容


目前平台包含政府工作报告汉英平行语料库(2000-2014年)莎士比亚戏剧英汉平行语料库,近期将陆续上传记者招待会汉英会议口译语料库中央政治文献汉英平行语料库外交话语语料库等多种类型的语料库。


“政府工作报告汉英平行语料库”包含2000年-2014年政府工作报告汉英平行语料库,供用户进行相关教学与研究;“莎士比亚戏剧英汉平行语料库”包括18部莎士比亚戏剧英文原著及其对应梁实秋译本、朱生豪译本,近期将进一步扩充;“记者招待会汉英会议口译语料库”(即将上传)包含人工转写的记者招待会汉英口译平行语料,可进行口译教学与研究。


此外,平台本地部署后还可以提供自定义语料库功能,支持本地语料的上传与分析,允许自定义标注集,用户可进行个性化设置。


图片

(图1 智能化多语种教学科研平台)

平台功能


平台为已上传的语料库提供教学科研两大功能模块。


图片

(图2 智能化多语种教学科研平台语料库模块示例)


教学模块

教学模块目前提供“语篇展示”功能。

图片

(图3 智能化多语种教学科研平台教学模块)

1

语篇展示

语篇展示可以显示单语语篇或实现句级对齐的多语平行语篇,以方便在外语教学过程中了解某一特定语篇的篇章内容,如图4所示:

图片

(图4 教学模块-语篇展示实例)


科研模块

科研模块可以进行单语或平行语料的检索,提供“基础信息”、“KWIC”、“索引行”、“词频”、“词簇”、“搭配”等语言数据的查询,并在提供具体检索结果的基础上,实现词频、搭配等数据结果的可视化呈现。

1

基础信息

基础信息可以提供所选语料的类符、形符、类符形符比、标准化类符形符比等总体语言数据。

图片

(图5 科研模块-基础信息)


2

KWIC (key word in context)

KWIC(key word in context),可以查询具体词汇的上下文使用语境,如查询莎士比亚戏剧中lord的上下文使用语境。

图片

(图6 科研模块-KWIC)


3

索引行

索引行模块可以按提供的检索词,进行单语或平行索引行的检索,展现符合特定检索条件的句子,检索结果可以以单语或多语形式显示。该模块支持复合检索和排除检索,如检索政府工作报告中同时包含“环境”和“经济”的句子以及对应的英语译文。索引行模块可以为语言教学与科研提供大量、真实的语言使用实例,为不同语种语言的观察、分析等提供语料基础。

图片

(图7 科研模块-索引行-政府工作报告汉英平行语料库)

图片

(图8 科研模块-索引行-莎士比亚戏剧英汉平行语料库)


4

语篇展示

词频模块可以展示选定语篇中词汇的出现频次、占比、标准化频率等信息,并对其进行可视化呈现。平台支持选择某一类或多类词性、排除某些词汇或排除特定词性的词等多个设置。词频的查询结果以可视化云图以及具体表格两种形式展示,分别如图9和图10所示。

图片

(图9 科研模块-词频-可视化呈现)

图片

(图10 科研模块-词频-信息呈现)


5

词簇

词簇模块可以呈现 2个或2个以上的词构成的序列,也可以输入检索词,查询包含特定词汇的序列。

图片

(图11 科研模块-词簇)


6

搭配

搭配模块可以用来考察词汇的共现。选定语种并输入要考察的节点词后,可以呈现与该节点词一起出现的其它词汇的信息,包括频次、搭配强度等信息。检索结果可以按搭配词的字母顺序、频率高低或搭配强弱等多种信息排序。在呈现具体搭配数据的同时,该模块也实现了搭配信息的可视化,直观地展示词语的搭配行为。

图片

(图12 科研模块-搭配)