图书简介:
目 录
第1章 引 言 1
1.1 研究意义和背景 1
1.2 研究内容和基础 3
1.3 本书内容及结构安排 4
第2章 综合型语言知识库系统 7
2.1 国内外相关研究 7
2.2 综合型语言知识库的资源概况 9
2.2.1 语言数据资源简介 10
2.2.2 工具软件简介 17
2.3 系统集成方案 19
2.4 系统功能 21
2.4.1 语言加工模块 21
2.4.2 知识检索模块 22
2.4.3 知识挖掘模块 23
2.5 本章小结 24
第3章 词语的概率语法属性研究 26
3.1 现代汉语词汇计量研究的发展 27
3.2 构建《概率型现代汉语常用词汇知识库》 30
3.3 名词概率语法属性研究 31
3.3.1 “数名”属性 33
3.3.2 “数量名”属性 34
3.3.3 “前名”和“后名”属性 35
3.4 本章小结 35
第4章 数名结构的计量研究 37
4.1 数名结构 37
4.2 实验设计 38
4.2.1 语料标注 38
4.2.2 获取数名结构 39
4.3 分散度 40
4.4 实验结果及分析 42
4.5 本章小结 44
第5章 量名搭配的句法语义分析 45
5.1 复杂数量名短语的识别 46
5.1.1 名词短语识别概述 46
5.1.2 复杂数量名短语界定 48
5.1.3 系统流程 49
5.1.4 量名搭配词典的构建 50
5.1.5 右边界识别算法 53
5.1.6 实验结果及分析 56
5.2 量名搭配统计结果 59
5.3 量词对名词的语义选择倾向 62
5.3.1 选择倾向 62
5.3.2 量名搭配的特点 62
5.3.3 获取方法 63
5.3.4 实验结果及分析 66
5.4 基于量词的名词概念获取 69
5.4.1 概念获取 69
5.4.2 基于量词的名词概念描述 70
5.4.3 聚类方法 71
5.4.4 评价方法 72
5.4.5 实验设计 73
5.5 本章小结 77
第6章 复合名词短语的研究 79
6.1 复合名词短语概述 79
6.1.1 复合名词短语定义 79
6.1.2 复合名词短语的特点 80
6.1.3 复合名词短语的相关研究 81
6.2 复合名词短语的自动获取 83
6.2.1 问题提出 83
6.2.2 数据准备 83
6.2.3 统计指标 85
6.2.4 基于机器学习模型SVM的实验 92
6.2.5 讨论 95
6.3 复合名词短语的语义解释 97
6.3.1 问题概述 97
6.3.2 汉语复合名词短语的释义方法 100
6.3.3 动词获取 100
6.3.4 释义短语生成 104
6.3.5 释义短语过滤 105
6.3.6 实验结果 109
6.3.7 结果分析 110
6.4 基于相似度计算的复合名词短语推荐 113
6.4.1 问题概述 113
6.4.2 研究思路 113
6.4.3 词语相似度计算 114
6.4.4 短语相似度计算 117
6.4.5 实验数据及结果 118
6.5 本章小结 119
第7章 总结与展望 120
7.1 总结 120
7.2 进一步工作 121
附录A 语料库词性标记与词典词类代码对照表 124
附录B 复杂数量名短语的识别结果样例 126
附录C 6.3节中实验所用的复合名词短语样例 129
附录D 基于相似度计算的复合名词短语推荐样例 130
后记 131
参考文献 135
展开
序 言
新年伊始,欣闻王萌博士的《面向概率型词汇知识库建设的名词语言知识获取》一书即将出版,甚为高兴。王萌博士约我为书作序,作为她的博士生导师,义不容辞。
王萌自2006年至2010年在北京大学计算语言学研究所攻读博士学位,研究方向是计算语言学,重点则是大规模语言知识的自动获取。
计算语言学的研究内容是实现自然语言的自动处理,包括分析和生成两大任务。自动分析相当于让计算机“读”人类的语言,自动生成则是让计算机“写”自然语言。语言知识库是为实现自然语言处理在计算机系统中配备的有关语言的各种知识的集合。语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。基于这样的认知,北大计算语言所建立30年来,长期将研究重点放在语言知识库的建设上,并取得了一项成果,即综合型语言知识库。王萌入学时,恰逢综合型语言知识库的各个组成模块基本成形,进入集成阶段。王萌入学后,在认真学习、了解已有成果的基础上,积极参加综合型语言知识库的集成研究。通过研究实践,王萌对综合型语言知识库的主体部分《现代汉语语法信息词典》和大规模现代汉语基本标注语料库有了相当深入的了解,对计算语言学的理论、方法和技术有了丰富的积累,并敏锐地认识到,随着统计语言模型和语料库方法在自然语言处理领域的广泛运用,大规模语言知识的自动获取成为自然语言处理技术研究的前沿,便在这个方向上潜心钻研。在攻读博士学位的最后一年,王萌获得到香港理工大学人文学院交流的机会,在黄居仁教授的指导下,进一步增强了语言学功底。经过4年的艰苦努力,王萌完成了博士论文。在答辩会上,答辩委员们一致评价她的论文是一篇优秀的博士学位论文。本书就是在她的博士论文的基础上形成的。
本书的主要内容如下。
1.设计并集成了综合型语言知识库系统的主体功能模块,提出了构建《概率型现代汉语常用词汇知识库》的实现方案,并选择名词作为突破口,从大规模语料中自动获取名词典型的语法属性。(见第2、3章)
2.提出并计算了新的统计量“分散度”,定量地验证了《现代汉语语法信息词典》关于“数名”属性的定性描述,进一步提高了该词典的质量。(见第4章)
3.设计并实现了复杂数量名短语的识别算法,自动获取准确的量名搭配分布,首次定量地分析了量词对名词的语义选择倾向,并研究了量词在名词语义分类中的作用。(见第5章)
4.针对基于统计指标不能有效获取低频复合名词短语的问题,提出了一个新的解决方法,将其视作一个分类问题,利用统计指标获取典型的、高频的复合名词短语作为训练数据,来帮助发现低频的复合名词短语。(见第6章)
5.首次采用动态的策略,提出了“基于动词的释义短语”的方法,对复合名词短语进行语义解释。(见第6章)
这些内容都是王萌自己的研究成果,其中第2项、第3项和第5项具有创新性,特别是第5项的创新性尤为显著。在此借用一则新闻对第5项成果作简要介绍。消费者协会在处理顾客投诉某厂商制作的绿豆饼里面没有绿豆这一案件时,该厂商辩解道:“人家老婆饼里面也没有老婆啊,为什么我的绿豆饼里面一定要有绿豆?” 听到这个诡辩,也许觉得好笑;但要驳倒他,你得有说服力地指出他是在偷换概念。人们在用两个名词的组合命名一个新概念时,隐含着不同的意义构建过程且常使用省略形式,即隐去将两个名词组合在一起的动词成分。新闻中的“绿豆饼”实际是“用绿豆制作的饼”,“绿豆”和“饼”之间是材料和制成品的关系;而“老婆饼”是“老婆制作的饼”,“老婆”和“饼”之间是制作人与制成品的关系。显然,这是两种截然不同的语义关系。大众运用语言进行交流必须遵守约定俗成的法则。该厂商利用因省略而带来的语言歧义进行狡辩,自然是站不住脚的。本书第6章的研究对象就是复合名词短语,目标是对复合名词短语给出正确的语义解释。本书提出了一个基于计算的自动方法:在大规模语料中,由软件自动发现与名词概念相关的动词,进而获取基于动词的释义短语并加以过滤和排序。
本书介绍的各项研究成果只有将文理学科的知识融会贯通才有可能取得,这是难能可贵的。王萌博士之所以能做出如此出色的工作和她的学术背景不无关系。王萌大学本科和硕士阶段都是学计算机的,博士阶段攻读计算语言学,这是一个文理交叉的学科,跨度较大。王萌认真踏实,刻苦努力,顺利完成了知识结构的调整。她能够静下心来观察分析复杂的语言现象,针对要解决的问题建立数学模型,并用程序实现计算分析,不断探索,最终取得了满意的成果。
与自然语言处理的丰富内容与长远目标相比,王萌博士取得的成果只是沧海一粟。本书中的很多工作还需要进一步充实和完善,我相信她不会懈怠。“路漫漫其修远兮,吾将上下而求索。”这是我自己的座右铭,也以此与王萌博士共勉。
序写到此,可以结束了。不过,我还想借此机会再多说几句。王萌2006年入学,那时,综合型语言知识库的研制已历时20年,对外进行成果转让也满10年。北大信息科学技术学院要求综合型语言知识库报奖。王萌在完成第一学年紧张学习任务的同时,做了大量关于报奖的收集资料、整理文档工作,从而为综合型语言知识库获得2007年度教育部科学技术进步奖一等奖作出了贡献,也为其后来获得2011年度国家科学技术进步奖二等奖打下了基础。报奖工作既复杂又烦琐,王萌认真负责,兢兢业业。对刚入学的王萌来说,做这些事是付出,是奉献。然而,在付出、奉献的同时,王萌也有收获,比较深入地了解了《现代汉语语法信息词典》和综合型语言知识库的内容、设计思想及学术成就,对这项成果有了参与者的情感,这也是王萌后来孜孜不倦地潜心于综合型语言知识库的集成研究和《现代汉语语法信息词典》的深度探索的感情基础。我以为,做任何一件事,只有喜欢它,才能做好。这也是王萌博士写出这本好书的缘由之一。
俞士汶
2016年2月2日于北京褐石园
展开