计算语言学教育部重点实验室围绕如下五个方向开展研究:
在北京大学语言学、计算机科学、认知科学、心理学、逻辑学、哲学等多学科的传统积累基础上,充分利用学科交叉与融合的优势,探索语言深度理解的内涵,构建面向语言理解的汉语意合语法描写体系。在语言学、计算机科学、认知科学、心理学、逻辑学、哲学等多学科的传统积累基础上,充分利用学科交叉与融合的优势,探索语言深度理解的内涵,构建语言理解的多元认知理论基础。出版语言学基础理论研究著作 25 部,发表多篇高水平学术论文。在过去五年(2014-2018)的QS全球大学排名中,北京大学的语言学和现代语言两个单项学科排名稳步提升,且都已进入全球前10。北京大学中国语言学研究中心在教育部人文社会科学重点研究基地“十二五”评估(其中语言、文学、文献基地共16个)中,是评估结果获得“优秀”评级的唯一一家单位。2018年,中文系陈保亚教授领衔的“语言学理论教学团队”获得国家级教学成果一等奖。袁毓林教授当选长江学者、詹卫东教授、董秀芳教授当选青年长江学者。
语言知识库是支撑语言信息处理的基础设施。将语言学理论与计算机工程相结合,构建支撑中文深度计算的语言知识资源基础设施。充分借鉴语言科学、认知科学的研究成果。针对中文“意合”的语言特点,建立了一套涵盖多层次语义信息的中文深层语义描述体系。发表语言知识资源构建相关规范3项。建立了中文语言知识资源构建工具集 CNLPware,覆盖从词法分析、句法分析到语义分析的核心构建工具软件,其中基于深度学习的汉语分词构件是国际上最早的中文深度分词模型,结合词典知识和标注数据的词义构件是目前国际最好的词义消歧基线方法,图解码深度依存分析构件,国际上最早发表的深度图解码依存分析,首次实现端到端的依存分析建模。构建了基于群体智慧的语言知识资源构建平台,实现规范化和(半)自动化的语言知识工程构建方法,建立了多层次大规模中文语义知识库。在国内外顶级会议和期刊发表论文40余篇,获得多项国际会议最佳论文奖,组织多项国际评测。
在“基于深层结构的语言理解与生成”方面,取得了一系列具有国际影响力的研究成果,包括复杂语言结构降解理论和算法StructReg、深层神经网络优化理论和算法AdaBound、稀疏化语言学习算法meProp等,相关论文发表在自然语言处理和机器学习的国际顶级会议ACL、ICML、NIPS、ICLR、COLING等。提出的方法和理论在多个语言理解和生成任务刷新本领域准确度,被广泛应用于学术界和产业界,在Github的总Star数超过了6000。孙栩研究员2015年获得香港求是基金会“求是杰出青年学者奖”,为该年度计算机领域唯一获奖学者;2016年在自然语言处理顶级国际会议之一EMNLP开设三小时的特邀Tutorial 报告向国际学术界介绍结构化NLP技术,并以 119 人注册成为最受欢迎的2个Tutorial 之一。2018年获得“中国计算机学会自然语言处理与中文计算(NLPCC)青年新锐奖”; 2018年获自然语言处理顶级会议之一COLING最佳论文奖(Best Paper Award)、为该年度中国唯一获奖论文。
在“基于篇章理解的文本生成技术”方面,最早提出了利用依存结构表示文本单元之间的关系,可以表示出文本单元之间的非投射关系,降低了分析的难度,并在新闻、科技领域构建了篇章依存结构语料库,在计算语言学理论和技术上进行了积极有益的创新性探索。同时结合心理认知学模拟人类重复阅读行为,提出多阶段多任务神经网络模型解析篇章结构,提高了篇章分析的性能。技术成果荣获顶尖国际学术会议ACL 2017两项杰出论文奖(全球唯一获两个奖项的实验室)与IJCAI 2018杰出论文奖。和百度合作构建了最大规模的中文阅读理解语料Dureader,已有130多个团队参加该语料的评测;开发了阅读理解模型,在微软阅读理解数据集MS MARCO和斯坦福大学阅读理解数据集SQuAD上取得过当时的第一名。科研工作被世界知名学者广泛引用,其中包括美国宾州大学教授Mitchell Marcus(AAAI Fellow)、美国斯坦福大学教授Chris Manning(ACM/AAAI Fellow)、美国伊利诺伊大学芝香槟分校教授Jiawei Han(IEEE/ACM Fellow)、美国卡耐基梅隆大学教授Jaime Carbonell(AAAI Fellow)等。指导过的研究生获得过Google奖研金,微软学者称号等。
在文本内容理解及文本生成方向取得了一系列国际一流成果和智能应用技术。在语义分析(Parsing)、智能问答、文本语义推理、微博检索等国际权威评测中连续多年获得第一名;研制了PKUBase知识图谱构建与问答平台和gStore图数据库系统、基于人机对话的智能投研与量化投资系统等智能应用技术。提出了一系列新颖的自动文摘与文本生成方法,包括图注意力神经网络生成模型、混合生成对抗网络模型以及SentiGAN等,以原创与二次创作两种方式实现高质量、长短可控、风格多样的文本稿件(包括新闻、文摘、评论、诗歌等)的智能创作,技术成果荣获吴文俊人工智能技术发明奖,所研制的机器写作系统应用于今日头条、南方都市报、日本三菱等多家单位,累计生产稿件十多万篇,大大提高了写稿效率与覆盖率,受到上百家国内外媒体的广泛报道,实现了人工智能技术在新闻出版行业的落地应用,推动了新闻出版行业的技术变革。
以上研究成果充分显示了实验室的原始创新能力,在国内外同领域具有重要地位和学术影响。
研究团队:
语言认知机制与计算建模:
语言资源与语言知识工程:
语言复杂系统处理模型:
语言深度理解关键技术:
语言智能信息处理应用: