基于统计滚雪球模型的知识挖掘理论与方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:rg595091068
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,互联网已成为一个巨大的信息源,其中含有大量的关于现实世界命名实体的信息。这些命名实体包括机构、地点和人物等,既涵盖了名人也涉及日常生活中的普通人。命名实体搜索引擎从大量的网页中挖掘出命名实体,并总结出与用户查询的命名实体相关的知识,直接返回给用户。与普通搜索引擎返回的非结构化网页相比,这种搜索引擎更快捷、更直观,已成为工业界和学术界关注的热点之一。要构建既快又准的命名实体搜索引擎,就必须对命名实体知识进行深度挖掘。从网页中自动识别命名实体、对命名实体进行摘要和为命名实体建立联系并挖掘出其关系是实体知识挖掘的三个关键科学问题。本文围绕构建命名实体搜索中的这三个科学问题展开了深入的研究,提出了一个基于统计学习的自学习模型——统计滚雪球模型,弥补了现有自学习模型的不足。具体来说,本文的主要研究内容和创新之处如下:1.分析互联网搜索的需求,充分调研了互联网知识挖掘的特点,重点讨论了基于自然语言特征的有监督学习模型和基于模板的自学习模型的知识挖掘算法;分析了这两类方法的基本思想,讨论了每类模型代表性的工作,并发现了其中的不足之处。2.提出了一种基于自学习的关系抽取模型:统计滚雪球模型。该模型使用基于统计的模板评价函数替代传统的基于手动构造的模板评价函数,使之能采用更高效的模板特征;同时采用马尔可夫逻辑网络作为底层的统计模型,从而融入各级关系联合抽取,充分地利用信息达到提高抽取性能的目的。在互联网真实数据上的关系抽取实验表明,相对于传统的自学习方法,统计滚雪球方法能在保持相同准确率的前提下,明显提升抽取的召回率。3.提出了一种迭代式命名实体识别和关系抽取的联合抽取模型。该模型扩展了实体识别的条件随机场模型,将基于关系抽取的特征加入到实体识别的过程中,从而提高实体识别的性能;同时采用迭代挖掘的方法,在命名实体识别和关系抽取两个任务之间建立联系,使各自的结果能被另一个任务在决策时使用。在互联网真实数据下的实验表明,相对于传统的顺序式知识挖掘模型,联合挖掘模型对实体识别和关系抽取任务的性能都有较大提高。4.提出了一种基于统计滚雪球模型的命名实体摘要模型:摘要滚雪球。该模型充分利用互联网数据中命名实体的事实与摘要之间的对偶性,同时完成命名实体的事实挖掘与摘要排序;同时采用自学习统计滚雪球框架,可以从少量种子出发,迭代式地同时增加命名实体事实与摘要。在互联网真实数据上的实验和用户调研表明,该模型在事实挖掘与摘要排序问题上都取得了明显改进,也证明了统计滚雪球模型具有很广的适用性。5.构建了基于10亿网页的中文命名实体搜索引擎人立方和基于30亿网页的英文命名实体搜索引擎EntityCube。这两个命名实体搜索引擎能够在大规模互联网数据中挖掘出关于命名实体的各种有用信息,获得了巨大的成功和很好的反响。本文提出的关系抽取方法已经应用到实际系统之中,其他方法也都经过了真实系统数据的验证。最后,对全文工作进行了总结,并对下一步的研究方向进行了展望。
其他文献
通过分子设计,向荒氨酸结构中引入酯类官能团,成功制备了两种新型荒氨酸酯类衍生物,并对其结构进行了表征;对其摩擦学行为初步考察发现,此化合物在多元醇酯中展现了一定的抗磨性能
随着现代科学技术的不断发展,三维几何模型成为继声音、图像和视频之后的第4代多媒体数据类型在工业界得到了广泛的应用。因此,一门新的处理三维几何数据的学科——数字几何
变压器经济运行是指在传输电量相同的条件下,通过择优选取最佳运行方式调整负载,使变压器电能损失最低。文章对开展变压器经济运动范围进行分析计算并提出意见。
图书馆要实现可持续发展,就要转变服务理念,改进服务方式,发展特色服务,将图书馆的少儿功能兼教育职能充分发挥出来,以吸引更多的少年儿童到图书馆中进行阅读。
目前全国各个城市地区都有建设经济适用房,本文以武汉市具体研究对象为例,介绍了在国家和地区政府的一系列住房改革的宏观调控之下,武汉市经济适用房建设的情况,总结武汉市政府在
本文通过针对地产商业空间规划设计的现状问题,分析商场空间设计如何有机结合业态需求特征,深入研究前后期经营策略,提高空间的规划效率,更加专业化发展。
通过分子组装和晶体工程的方法,金属离子和有机阳离子在一定条件下可以得到具有高度规则的配位聚合物。将合成的新型有机阳离子BPHP·Br2与金属盐AgI进行分子组装,合成了
[摘 要] 北部湾经济区民族体育休闲旅游产业发展环境与条件的生成,走一条产业化、规模化、市场化与社会化发展的道路,需要政府制定鼓励民族体育休闲旅游产业等发展,目前《北部湾经济区旅游发展规划》进入设计调研阶段。本文拟在宏观投资选择、重点发展项目选择、产业布局选择、产业组织结构与规模的导向择等方面进行探讨,促进民族体育休闲旅游成为北部湾经济区社会发展的一个重要品牌产业,推进广西民族文化建设和旅游产业的
<正>1概述细胞工程是指通过细胞水平或细胞器水平上的操作,按照人们的意愿来改变细胞内的遗传物质或获得细胞产品的一门综合技术。依据考试说明,植物细胞工程为理解等级:学生