基于互联网的城市机构知识条目抽取方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:squllwu20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络信息成爆炸式增长,百科知识已经成为人们获取知识的重要手段。人们对垂直化知识的需求对百科知识库提出了新的要求。目前网络上的百科知识库都是由志愿者人工填写和维护的,这样必然会面临着知识更新速度不够快,知识不够完整和工作量巨大等问题。因此如何自动的从互联网海量信息中抽取有用的知识,来满足各个城市的人对所在城市的某一类垂直信息的需求是本课题的主要研究内容。  本文在城市百科知识库的基础上,建立了一个城市机构名称自动抽取及机构条目自动构建系统。本文的主要工作是从互联网的海量信息中爬取与特定的城市相关的信息,自动的抽取其中的机构名称并进行判断,最终确定该机构名称是否属于这个特定的城市。本文的主要研究内容包括以下几个方面:  (1)网络信息采集:从互联网中采集并过滤出与所需要的城市相关的信息,并进行净化预处理,保证采集信息的准确性和高效性;  (2)机构名称提取:对采集到的信息进行分词和停用词的过滤,采用统计与规则相结合的方法,抽取出采集信息中的机构名称;  (3)机构名称的城市相关度判定:采用基于规则和相关特征词同现频率的方法,得出所抽取的机构名称与所在城市的相关度,从而判定机构名称是否属于该城市。  通过将以上模块整合到一起,实现了城市机构名称自动抽取及机构条目自动构建系统。该系统已经成功应用于城市百科知识库自动构建系统之中,并取得了良好的效果。
其他文献
随着互联网的出现并不断发展,人们获取到的信息形式经历了从过去的文本、数字到如今的图像、语音、视频等多媒体的过程。当下三维模型在多媒体领域中的需求量大,该领域对三维
伴随着流媒体时代的到来,网络规模和应用获得了快速增长,为网络服务提出了新的挑战。传统的拥塞控制机制使用的是尽力服务模式,取得了一系列发展成果,为网络的健壮发展和性能
如何解决多企业间的快速互联协作一直是计算机网络研究中非常重要的研究课题。在目前网络技术迅速发展的背景下急需一种能为不同企业提供统一的快速互联协作机制的新型网络应
近年来,随着web2.0的迅猛发展,互联网不断扩展成一个拥有海量数据并且内容丰富的信息载体。并且涌现出一些新型的,与用户交互性强的知识服务形式,其中典型的服务包括百科知识
随着信息技术的快速发展,访问控制已成为保护网络信息安全的一种重要策略。基于角色的访问控制(RBAC)是一种先进的访问控制技术,在各企业组织中得到了广泛应用。职责分离(SoD
装箱问题是一类非常典型的NP-hard问题,具有很重要的理论价值与实际应用意义。这类问题的共同目的就是把若干“物体”放入指定的“箱子”中,而最终使用的“箱子”数最少。如
学位
早期智能规划研究一直集中在“封闭世界”假设之下的经典规划领域,然而,很多实际问题并不满足这样的假设条件,因此,一些学者将目光投向了不确定性规划的研究,其中概率规划的
人脸识别技术是当前生物特征识别领域的一个研究热点。光照不足、姿态和表情变化等因素使2D人脸识别受到了很大的限制。相比2D图像,3D人脸模型不受光照条件的限制,且提供了更
基于WLAN的VoIP技术与目前有线网络上的VoIP技术有很多相似之处,但由于无线网络自身的特点,其对实时业务的支持与有线网络相比还有较大的差距,这导致一个WLAN所能支持的同时
在机器学习领域的众多实际应用中,获得标记样本通常需要付出较大的代价。在一些情况下,获得所有的类标记是非常困难的。近年来,半监督学习已经成为机器学习领域的一个研究热点。