城市百科知识库自动构建系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wenqin2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,互联网对人们生活的影响力越来越大,用户对从互联网中获得全面、权威、地域性信息的需求越来越强烈,比如生活在深圳的人对深圳的信息的兴趣更大。这就提出了新的互联网应用需求,如何满足不同城市的人对所在城市知识的需求,如何对海量的数据分类并挖掘出满足条件的词条是本课题的主要研究内容。本文以自然语言处理的相关技术对百度百科近300万词条进行中文信息处理,主要包括两个方面的内容:一是构建百科知识检索系统;二是构建城市百科分类系统。1.构建百科知识检索系统:主要包括百度百科数据爬虫、网页净化、正排索引、倒排索引及数据检索。所实现的网络爬虫爬取了近300万百度百科词条;建立了相应的检索系统,对索引的粒度进行了优化,采取了以段落为索引和检索的基本单位,实验证明在其它条件相同的情况下,该系统的检索精度比以文章为索引单位的系统提高了近50%。2.构建城市百科分类系统:主要包括文本的城市空间分类和百科知识条目分类。本文对特征词提取方法和文本分类算法做了改进,实验证明改进后的特征提取方法比使用单一的特征提取算法的效果得到较大提高,平均F值提高了近10%。针对特定条件下的分类需求,使用不同的分类算法并进行改进得到了较好的实验效果。最后,我们将上述分类算法应用到了城市百科知识库自动构建系统。百科知识检索系统和城市百科分类系统的协同工作完成了城市百科知识库的自动构建。本文所介绍的技术都已经应用到了海天园城市百科知识库自动构建系统中。
其他文献
专家系统是人工智能中最重要的也是最活跃的一个应用领域,它实现了人工智能从理论研究走向实际应用,通过推理来模拟通常由人类专家才能解决的各种问题,达到与专家具有同等解
随着社会信息化程度不断提高,大量信息系统广泛应用于不同领域,积累了海量数据。为了使信息系统能够有效可靠地支持组织的工作,要求系统的数据必须准确的反映现实世界的真实
随着计算机技术在辅助教学中的飞速发展,计算机自动评判技术越来越引起人们的关注。当今的评判系统中对客观题的评判技术近乎完善,但对主观题的评判技术仍处于研究探索完善阶
随着高速铁路的快速发展,现在的铁路客运最高时速已经能达到481km/h,如此高的速度已经不能依靠人的驾驶,而需要由整个系统来保证列车运行的安全。目前使用的安全系统门类众多,每
量子电路是构建量子计算机的基本单元,也是描述复杂量子计算的高级语言。量子电路是可逆的,可逆逻辑因其在量子技术中的重要应用而引起人们的广泛关注。目前,可逆电路还广泛应用
地理信息系统(GIS, Geo —Information system)是展示和分析包含空间位置属性的多种信息的强大工具,基于GIS的数字铁路信息系统综合全球卫星定位、遥感等技术,实现铁路系统资
随着计算机软硬件、网络以及多媒体技术的迅速发展,产生了大量的数字图像。因此,如何高效的管理和检索现代大规模的图像数据库,已成为目前的一个研究热点,基于内容的图像检索
目前随着Web和访问控制的不断成熟,基于访问控制的应用不断涌现。分布式环境中的委托授权已成为访问控制领域的研究热点,为访问控制提供了更广阔的拓展空间。虽然很多研究者
诊断设备能否精确地瞄准实验靶球以实现自动化控制是惯性约束核聚变(ICF)系统中的公共诊断平台急需解决的问题之一。根据ICF工程检测要求,构建了一套三维精确定位机器视觉系统
学位
入侵检测是近十年发展起来的一种动态监测、预防或抵御系统入侵行为的安全机制。目前入侵检测有许多模型和方法,而神经网络和模式识别等技术的引入使网络安全的智能检测研究