分项说明
现代汉语多级加工语料库

资源简介

《现代汉语多级加工语料库》主要由三个语料库“基本标注语料库”、“同形标注语料库”和“细粒度义项标注语料库”构成。这三个语料库通过结合《现代汉语语法信息词典》和《现代汉语语义词典》对《人民日报》进行标注,并不断将加工深度向前推进,使得语料库形成从分词,词性标注,到粗粒度义项,再到细粒度义项的多层次标注的语料库。其中“基本标注语料库”共标注1.5亿字,其中精加工5200万字,而“同形标注语料库”共标注2800万字,“细粒度义项标注语料库”共标注642万字。

最新进展

  • 增加了14,663个名词、动词、形容词,以及1993个区别词、时间词、处所词、方位词、副词、数词。词典规模已达到6.6万余条词条;
  • 开发了一个全新的语素库
  • 对原有的“词语”、“词类”、“同形”、“拼音”、“兼类”、“备注”等字段进行了统一检查、修订,语义属性描写质量有了显著提高;

授权列表

目前已有中国大陆境内、外的20多个单位用户从北大计算语言所购买了这部词典的许可使用权:

  • IBM
  • Intel
  • Fujitsu……
  • Toshiba
  • NTT
  • Canon
  • Sail-labs

 

  • [1].常宝宝; 俞士汶.语料库技术及其应用[J].:外语研究.2009-10-15 00:00:00.0.
管理员信箱:athing@pku.edu.cn