分项说明

综合型语言知识库(简称CLKB)属于文理结合的“中国语言文字信息处理”学科。语言信息处理旨在让机器理解和运用人类语言。我国语言信息处理的上规模研究始于20世纪80年代中期,当时国内外汉语语言基础资源几乎是空白。与英语、日语不同,汉语缺乏形式标记,汉语语言知识库的建设尤显迫切和艰巨。基于对母语知识与文化的认知优势,项目组从1986年开始研究汉语计算模型和语言知识形式化描述方法,并构建语言知识库。历时20余年,建成综合型语言知识库,有力地支持了中文信息处理的原创性科学研究和应用技术开发。

CLKB包括6个语言知识库、10项规范与标准、4个核心基础软件和4个应用系统,它们相互支撑,形成一个紧密联系的有机整体。语言知识库是CLKB的主体,包括:

现代汉语语法信息词典,含8万词的360万项语法属性描述;

汉语短语结构规则库,含600多条语法规则;

现代汉语多级加工语料库,实现词语切分并标注词类的基本标注语料库1.5亿字,其中精加工的有5200万字,标注义项的有2800万字;

多语言概念词典,含10万个以同义词集表示的概念;

平行语料库,含对译的英汉句对100万

多领域术语库,有35万中英对照术语。

CLKB的系列化语言知识库涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。综合而言,CLKB是当今世界规模最大且获得广泛认可的汉语语言知识资源,具有完全的自主知识产权。

CLKB近期所获奖励有:2011年度中国国家科学技术进步奖二等奖、2010年中国电子学会电子信息科学技术奖一等奖、2008年度北京技术市场金桥奖项目二等奖、2007年度教育部科技进步奖一等奖、2007年中国科协第四届期刊优秀论文奖等。

管理员信箱:athing@pku.edu.cn