一、研究院简介
上海外国语大学语料库研究院为校级跨学科实体研究机构。研究院积极对接国际学术研究前沿和国家发展战略,实施“国际化”、“学科交叉”和“产学研相结合”等发展战略,致力于技术与人文之间的交叉与融合,基础研究和应用研究并重。研究院定位于四大基地建设,即我校外国语言文学跨学科研究基地、语言数据科学与应用学科协同创新基地、国际化办学示范基地以及智能化语言数据处理与应用研究成果转化基地,以带动我校外语类基础学科的理论创新和实践创新,推动数据科学和人工智能技术与语言研究和语言教育之间的深度融合,引领我国外语教育信息化与智能化。
研究院以语料库和数据库的建设与应用为基础,以多语种平行语料库的建设为重要建设内容,开展语言数据与语言研究、语言数据与翻译研究、语言数据与智慧教育以及语言数据与人工智能等领域的研究,培养对接国家发展重大需求和国际学术研究前沿的语言数据科学与应用专业人才。同时,研究院与字节跳动公司和上海达而观信息科技公司联合建设实习基地和创新实践基地。
二、项目介绍
“语言数据科学”微专业依托于上海外国语大学语料库研究院语言数据科学与应用专业。语言数据科学与应用学科系2020年上外语料库研究院新设学科,本学科一方面对接教育部新文科发展战略,顺应当代学术研究交叉与融合的趋势,另一方面积极响应国家人工智能重大发展战略,培养语言智能领域的高端人才。语言数据科学与应用学科是基于信息科学、统计学、语言学和翻译学的新兴交叉学科,旨在研究语言数据的各种类型、状态、属性及其变化规律,以揭示人类语言和语言行为背后的规律,并探讨语言数据在智慧教育和人工智能领域中的应用。该学科以语料库和数据库的应用为基础,开展语言数据驱动的语言研究、翻译研究、智慧教育以及人工智能相关领域的研究,从而实现数据科学与语言学、翻译学、智慧教育以及语言智能等领域研究的有机结合,最大程度地揭示和解释语言和翻译的本质,推进语言数据在智慧教育和语言智能等领域中的应用。
三、项目特色
平台优势:语料库研究院对接国际学术研究前沿和国家发展战略,实施“国际化”、“学科交叉”和“产学研相结合”等发展战略,致力于技术与人文之间的交叉与融合,基础研究和应用研究并重。
师资力量:专职研究人员16名,其中教授9人,副教授3人,助理研究员4人,教学科研团队国际化水平高,现有全职任教的国际知名学者共4人,2024年下半年开始预计还将新增3名全职外教。
四、课程设置
“语言数据科学”系列课程包含语言学理论、语料库建设、计算语言学及编程和数据开发等方面,课程体系完备,在全国高校同类课程中具有较强的学科优势。
课程名称 | 任课老师 | 学分 | 学时 | 开课学期 |
理论语言学 | 李晶洁 | 2 | 30 | 第3学期 |
概率论与数理统计 | 安玉莲 | 2 | 30 | 第4学期 |
语言数据库建设与应用基础 | 李晓倩 | 2 | 30 | 第3学期 |
Python编程与语言数据开发 | 许洪志 | 2 | 30 | 第3学期 |
计算语言学 | 许洪志 | 2 | 30 | 第4学期 |
语料库与话语研究 | 胡开宝 | 2 | 30 | 第4学期 |
自然语言处理与语言研究 | 雷蕾 | 2 | 30 | 第6学期 |
语言数字人文导论 | 雷蕾 | 2 | 30 | 第5学期 |
五、核心课程介绍
1、理论语言学(The Theoretical Linguistics)
该课程对当代理论语言学知识做全面的介绍,为学习者和研究生提供参考信息,其中包括的语音学、形态学、句法学、语义学、语用学和修辞学知识是语言学专业研究生都必须具备的,课程为学习者的纵深研究打下坚实的基础,要求学习者把握各家理论之间的关联联系和演进的脉络,分辨不同的观点,领会人类语言背后潜藏着的认知模式和优选策略。
2、概率论与数理统计(Probability and Mathematical Statistics)
该课程是我国高等学校经济学类、工商管理类、理工科各专业以及新兴交叉学科的重要基础课之一。它既与其它数学分支有着紧密的联系,又在众多领域有广泛的应用,还与众多基础学科相结合产生出了许多边缘学科,其理论与方法向各个基础学科、工程学科的渗透,是近代科学技术发展的特征之一。在理论联系实际方面,本课程是数学学科中最活跃的分支之一。
3、语言数据库建设与应用基础(Introduction to corpus compilations and applications)
该课程旨在向学生系统介绍文本数据库和语音数据库的建设与应用,使其能够掌握自建语言数据库的操作步骤,了解数据提取和分析的角度与方法,并能独立使用合适数据库开展基础研究。
4、Python编程与语言数据开发(Python Programming and Data Processing)
该课程主要讲述Python编程语言的基础,并以语料库的建设,包括简单的文本数据清洗、格式化、检索以及统计为主要应用背景,从而在方法和效率的角度增强学生的科研能力。
5、计算语言学(Computational Linguistics)
该课程主要介绍计算语言学的基础知识,包括常用的机器学习模型,如贝叶斯分类器、决策树、K近邻、支持向量机SVM、逻辑回归、最大熵、隐马尔可夫模型HMM、条件随机场CRFs、人工神经网络以及深度学习简介等,同时也介绍一些常见的基础NLP任务,如分词、词性标注、句法分析,以及应用型NLP任务,如语言生成、情感分析、信息检索、信息抽取等。
6、语料库与话语研究(Corpora and Discourse Studies)
该课程旨在向学生系统介绍语料库在话语研究中应用的主要研究领域、研究路径、研究方法以及研究意义,侧重于分析语料库对外交话语、政治话语、军事话语、新闻话语、社交媒体话语、学术话语和多模态话语研究等领域中的应用,通过个案分析阐明语料库在话语研究领域应用的具体路径和方法,着力培养学生话语分析素养和语料库技术素养,提高学生批评性话语分析的能力和开展基于语料库的话语研究的能力。
7、自然语言处理与语言研究(Natural Language Processing and Language Research)
该课程既讲授自然语言处理理论与技术,更注重自然语言处理在语言研究中的运用。通过生动、真实的研究案例,培养学生研究动手能力。课程实践环节需要学生具有一定Python编程基础 (掌握Python基本数据类型、条件判断、循环、函数编写等入门基础即可)。
8、语言数字人文导论(Digital Humanities in Linguistics: An Introduction)
该课程旨在帮助学生了解语言数字人文的发展沿革和主要方法,培养学生透过真实数据和客观事实分析问题和解决问题的能力,引导学生树立正确的世界观和方法论,提升学生的人文情怀。本课程采用语言数字人文技术和方法,引导学生分析文学、语言学、社会学、心理学、新闻传播学、信息与图书馆学等人文社科主要领域的大量案例。案例选材兼顾真实性、趣味性、科学性。
六、师资力量
胡开宝,教授,博士生导师,博士后合作导师,入选国家重大人才计划特聘教授。现任上海外国语大学语料库研究院院长,兼任第三届全国翻译专业学位研究生教育指导委员会委员、中国翻译协会翻译理论与翻译教学委员会副主任委员、上海市翻译专业学位研究生教育指导委员会副主任委员、上海市语文学会副会长。兼任Routledge“应用语言学研究前沿”(Frontiers in Applied Linguistic)系列丛书、Springer“语料库与跨文化研究”系列丛书(Corpora and Intercultural Studies)主编,担任《中国外语》《中国翻译》《山东外语教学》和《当代外语研究》等学术期刊编委。2009年获得上海市育才奖。2014年度获上海市高等教育优秀成果奖二等奖,被评为上海市外语界十大年度人物。2015年度获得教育部第七届高等学校科学研究优秀成果奖三等奖。2022年度获得上海市第十五届哲学社会科学优秀成果奖二等奖。
雷蕾,教授,博士生导师,上海外国语大学语料库研究院专职科研人员。研究兴趣涉及二语习得、语料库语言学、学术英语、语言计量研究等。在Applied Linguistics、Journal of English for Academic Purposes、International Journal of Corpus Linguistics、Discourse, Context and Media、System等SSCI期刊发表研究性论文二十余篇、发表书评十余篇,在《现代外语》、《解放军外国语学院学报》等CSSCI期刊发表论文或书评10余篇。主持国家社科基金项目等科研项目多项。曾多次赴美国University of Alabama、University of Nebraska - Lincoln访学,赴澳大利亚University of Adelaide、英国International House London进修。
李晶洁,教授,博士生导师,上海外国语大学语料库研究院专职科研人员。上海交通大学外国语言学及应用语言学博士,在英国利物浦大学“信息与语言系统研究中心”完成博士后研究,兼任中国语料库语言学研究会理事。出版学术专著1部;发表论文近40篇;主持并完成国家社科基金青年项目1项。