焦点新闻
上外语料库研究院推出《习近平谈治国理政》多语种数据库综合平台2.0版

近日,上海外国语大学语料库研究院胡开宝教授领衔的团队完成了《习近平谈治国理政》多语种数据库综合平台2.0版的研制。平台2.0版旨在丰富《习近平谈治国理政》多语种数据库综合平台1.0版中的数据资源并优化部分功能,同时,增加自定义模块以满足用户上传本地语料进行检索应用的需求,从而更好地推动以《习近平谈治国理政》及其外译为教学内容的课程思政教学,推进该平台在《习近平谈治国理政》多语种版本的教学与科研中的应用,加深语料库在不同语种教学与科研中的应用,实现外语教学与科研的数据化可视化自动化智能化


图片

图1 《习近平谈治国理政》多语种数据库综合平台2.0版


目前,《习近平谈治国理政》多语种数据库综合平台2.0版试用版已经对外开放,网址为:http://imate.cascorpus.com/。欢迎注册并试用,试用版主要内容如下:

《习近平谈治国理政》多语种数据库综合平台

1.《习近平谈治国理政》第一卷、第二卷汉英平行语料库

2.知识库

3.文献库

自定义语言数据分析与应用平台

2000-2014年中国政府工作报告汉英平行语料库

用户可在语料库模块进行相关语言数据的检索与查询。目前,试用版中的自定义语言数据分析与应用模块暂不支持用户上传本地语料,正式版中可以按需上传自定义语料并进行相关统计分析。



《习近平谈治国理政》

多语种数据库综合平台

《习近平谈治国理政》多语种数据库综合平台包含语料库(教学科研平台)知识库文献库三个大模块,主要功能如下:

语料库(教学科研平台)

语料库(教学科研平台)包含教学模块科研模块(如图2),两个模块相辅相成,可直接应用于多语种语言教学与科研。


图片

图2 《习近平谈治国理政》多语种数据库综合平台语料库模块示例


(1)教学模块

教学模块可进行语篇展示、翻译策略与技巧查询。


图片

图3 《习近平谈治国理政》多语种数据库综合平台教学模块


1.语篇展示

语篇展示可以显示单语语篇或实现句级对齐的多语平行语篇,以方便在多语种教学过程中了解某一特定语篇的篇章内容,如图4所示:

图片

图4 语篇展示示例


2.翻译策略与技巧

翻译策略与技巧查询模块可根据不同目录、语对以及翻译策略与技巧等进行相应查询,考察特定语境中具体词汇、短语等表述的翻译策略与技巧,为翻译教学与科研提供丰富的翻译实例。

图片

图5 翻译策略与技巧模块查询示例


(2)科研模块

科研模块可以进行单语或平行语料的检索,提供基础信息、KWIC、索引行、词频、词簇、搭配等语言数据的查询,并在提供具体检索结果的基础上,实现词频、搭配等数据结果的可视化呈现。


1.基础信息

基础信息可以提供所选语料的类符、形符、类符形符比、标准化类符形符比等总体语言数据。

图片

图6 基础信息查询示例


2.KWIC(key word in context)

KWIC(key word in context),可以查询具体词汇的上下文使用语境。

图片

图7 KWIC查询示例


3.索引行

索引行模块可以按提供的检索词,进行单语或平行索引行的检索,展现符合特定检索条件的句子,检索结果可以以单语或多语形式显示。该模块支持复合检索和排除检索,如检索同时包含“环境”和“经济”的句子。索引行模块可以为语言教学与科研提供大量、真实的语言使用实例,为不同语种语言的观察、分析等提供语料基础。

图片

图8 索引行查询示例


4.词频

词频模块可以展示选定语篇中词汇的出现频次、占比、标准化频率等信息,并对其进行可视化呈现。平台支持选择某一类或多类词性、排除某些词汇或排除特定词性的词等多个设置。词频的查询结果以可视化云图以及具体表格两种形式展示,分别如图9和图10所示。


图片

图9 词频信息的可视化呈现


图片

图10 词频信息的数据呈现


值得说明的是,在表格形式的词频信息中,可点击某一词汇,进入相应以句子为单位的语境,或者进一步点击句子,查看词汇使用的具体篇章,实现词汇→句子→篇章的依次扩充,从而有效避免只关注个别词汇而忽略具体语境的情况。 


5.词簇

词簇功能可以呈现 2个或2个以上的词构成的序列,也可以输入检索词,查询包含特定词汇的序列。

图片

图11 词簇检索示例


6.搭配

搭配模块可以用来考察词汇的共现。选定语种并输入要考察的节点词后,可以呈现与该节点词一起出现的其它词汇的信息,包括频次、搭配强度等信息。检索结果可以按搭配词的字母顺序、频率高低或搭配强弱等多种信息排序。在呈现具体搭配数据的同时,该模块也实现了搭配信息的可视化,直观地展示词语的搭配行为。

图片

图12 搭配可视化呈现示例


知识库

知识库模块由术语库和典故库两部分组成,前者提供对多语种专业术语及其译文的查询,后者用于对典故信息的多语种查询。


图片

图13 知识库框架结构


(1)术语库

术语库提供与语料库中语料文本直接相关的术语及其多语种译文,并提供相应语种的术语解释,如图14所示的“两个一百年”奋斗目标这一术语不同语种的译文及其解释。


图片

图14 术语库示例


(2)典故库

典故库主要用于对典故的多语种查询,同时提供对典故出处、意义等信息的说明与解释。


图片

图15 典故库示例


文献库

文献库模块可以按标题、作者、来源、出版时间、标题和主题等检索项进行单一检索或复合检索,并支持查看相关文本文献、影像资料、图片资料等。


图片

图16 文献库示例