研究院动态
上外语料库研究院《习近平谈治国理政》多语种数据库综合平台

上海外国语大学语料库研究院胡开宝教授团队在充分发挥本校语种资源优势的同时,跟多所高校合作,通过共同建库、合作研究的方式,牵头建设《习近平谈治国理政》多语种平行语料库,成功研发《习近平谈治国理政》多语种数据库综合平台,并基于多语种语料库和数据库综合平台,积极推广技术赋能的外语教学与科研。


图片


(图1 《习近平谈治国理政》多语种数据库综合平台)


《习近平谈治国理政》多语种数据库综合平台以《习近平谈治国理政》中文原文为中心语言,建设汉语与英文、朝鲜文、德文、俄文、法文、蒙古文、日文、泰文、土耳其文等28个语对句级对齐的语料库,旨在实现外语教学与科研的数据化、可视化与智能化。


已发布的《习近平谈治国理政》多语种数据库综合平台目前是上海外国语大学校内试用阶段,平台网址为http://202.121.96.180/,欢迎上外师生校内注册使用。



《习近平谈治国理政》多语种数据库综合平台包含语料库(教学科研平台)知识库文献库三个大模块,主要功能如下:


语料库

(教学科研平台

语料库(教学科研平台)包含教学模块科研模块(如图2),两个模块相辅相成,可直接应用于多语种语言教学与科研。


图片


(图2 《习近平谈治国理政》多语种数据库综合平台语料库模块示例)


教学模块

其中,教学模块可进行语篇展示翻译策略与技巧查询


图片


(图3 《习近平谈治国理政》多语种数据库综合平台教学模块)


语篇展示

语篇展示可以显示单语语篇或实现句级对齐的多语平行语篇,以方便在多语种教学过程中了解某一特定语篇的篇章内容,如图4所示:


图片


(图4 语篇展示示例)


翻译策略与技巧

翻译策略与技巧查询模块可根据不同目录、语对以及翻译策略与技巧等进行相应查询,考察特定语境中具体词汇、短语等表述的翻译策略与技巧,为翻译教学与科研提供丰富的翻译实例。


图片


(图5 翻译策略与技巧模块查询示例)


科研模块

科研模块可以进行单语或平行语料的检索与查询,实现词频词簇搭配索引行等功能,并在提供具体检索结果的基础上,实现词频、搭配等数据结果的可视化呈现


词频

词频模块可以展示选定语篇中词汇的出现频次、占比、标准化频率等信息,并对其进行可视化呈现。平台支持选择某一类或多类词性、排除某些词汇或排除特定词性的词等多个设置。词频的查询结果以可视化云图以及具体表格两种形式展示,分别如图6和图7所示。


图片


(图6 词频信息的可视化呈现)


图片


(图7 词频信息的数据呈现)


值得说明的是,在表格形式的词频信息中,可点击某一词汇,进入相应以句子为单位的语境,或者进一步点击句子,查看词汇使用的具体篇章,实现词汇→句子→篇章的依次扩充,从而有效避免只关注个别词汇而忽略具体语境的情况。


词簇

词簇功能可以呈现2个或2个以上的词构成的序列,也可以输入检索词,查询包含特定词汇的序列。


图片


(图8 词簇检索示例)


搭配

搭配模块可以用来考察词汇的共现。选定语种并输入要考察的节点词后,可以呈现与该节点词一起出现的其它词汇的信息,包括频次、搭配强度等信息。检索结果可以按搭配词的字母顺序、频率高低或搭配强弱等多种信息排序。在呈现具体搭配数据的同时,该模块也实现了搭配信息的可视化,直观地展示词语的搭配行为。



图片


(图9 搭配可视化呈现示例)


索引行

索引行模块可以按提供的检索词,进行单语或平行索引行的检索,展现符合特定检索条件的句子,检索结果可以以单语或多语形式显示。该模块支持复合检索和排除检索,如检索同时包含“世界”和“中国”但不包含“特色”一词的句子。索引行模块可以为语言教学与科研提供大量、真实的语言使用实例,为不同语种语言的观察、分析等提供语料基础。


图片


(图10 索引行查询示例)


知识库

知识库模块由术语库典故库两部分组成,前者提供对多语种专业术语及其译文的查询,后者用于对典故信息的多语种查询。


图片


(图11 知识库框架结构)


术语库

术语库提供与语料库中语料文本直接相关的术语及其多语种译文,并提供相应语种的术语解释,如图12所示的“两个一百年”奋斗目标这一术语不同语种的译文及其解释。


图片


(图12 术语库示例)


典故库

典故库主要用于对典故的多语种查询,同时提供对典故出处、意义等信息的说明与解释。


图片


(图13 典故库示例)


文献库

文献库模块可以按标题、作者、来源、出版时间、标题和主题等检索项进行单一检索或复合检索,并支持查看相关文本文献、影像资料、图片资料等。


图片


(图14 文献库示例)