上海外国语大学语言数据共享平台由上海外国语大学语料库研究院负责牵头建设,平台汇聚上海外国语大学校内的优质语言资源,旨在推动多语种、多领域语言数据的共建与共享,促进语言教学与研究的发展。
目前,平台已正式上线,上海外国语大学校园网内可以免费注册使用,平台网址为http://ldc.shisu.edu.cn/,欢迎上外师生登录使用。
平台内容
平台已上传了8个单语语料库和双语平行语料库:
二十大报告汉英平行语料库(胡开宝教授团队)
十九大报告英汉平行语料库(胡开宝教授团队)
《新时代的中国国际发展合作》白皮书语料库(胡开宝教授团队)
政府工作报告汉英平行语料库(胡开宝教授团队)
记者招待会汉英会议口译语料库(胡开宝教授团队)
美国国情咨文语料库(雷蕾教授团队)
莎士比亚戏剧英汉平行语料库(胡开宝教授团队)
《人民日报》翻译话语语料库(耿强教授团队)
这些语料库由上海外国语大学胡开宝教授团队、雷蕾教授团队、耿强教授团队与上外语料库研究院共同建设、维护,后续将有法律、外交、文学等多个语料库上传,并将扩充语料库所涉及的语种。
平台功能
基础信息
基础信息功能提供所选语料的类符、形符、类符形符比、标准化类符形符比等总体语言数据,主要用于了解语料的基本情况。
类符(type)是指语料库中的不同词汇,或每个第一次单独出现的词形 。
形符(token)是指语料库中出现的所有词形。
类符/形符比(TTR, type/token ratio)指文本中类符与形符的比率,计算公式为:TTR=type/token*100%。
标准化类符/形符比(STTR, standardized type/token ratio)的计算方法为:按照一定长度(如1000形符)切分文本,再逐个计算各切分文本的类符/形符比,最后取其平均值,即为标准化类符/形符比。
词频
词频功能可以展示选定语篇中词汇的出现频次、占比、标准化频率等信息,并对词频统计结果进行可视化呈现。
词频可以作为语料库研究的出发点,或用于观察文本的主要内容或文体风格等。
关键词上下文语境(KWIC)
关键词上下文语境功能可以检索某一关键词出现的上下文语境,并且将关键词居于中间位置高亮显示,方便观察词汇的应用语境。
索引行
索引行功能可以按提供的检索词,进行单语或平行索引行的检索,展现符合特定检索条件的句子,检索结果可以以单语或多语形式显示。
索引行可以为语言教学与研究提供丰富的实例。
词簇
词簇功能可以呈现 2个或2个以上的词构成的序列,也可以输入检索词,查询包含特定词汇的序列,同时平台还会统计对应序列出现的频次及其占比数据。
搭配
搭配功能可以用来考察词汇的共现。选定语种并输入要考察的节点词后,可以呈现与该节点词一起出现的其它词汇的信息,包括频次、搭配强度等信息,平台还实现了搭配信息的拓扑图可视化,更加直观地展示词语的搭配行为。
欢迎上外师生登录使用上海外国语大学语言数据共享平台,也欢迎师生通过平台进行语料分享。