搜索引擎智能行为的研究及实现

被引量 : 0次 | 上传用户:FreshLearn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前搜索引擎面临着Internet网络信息更新快,用户查询结果要求越来越精确的严重挑战,智能搜索引擎的研究已经成为Web数据挖掘领域研究的重要内容。为了解决搜索引擎中用户查询结果诸多问题,如信息查询的不准确等,发展了目录搜索引擎、全文搜索引擎和元搜索引擎,在这些Internet信息搜索理论、技术、方法上,人们开始引入人工智能。本文综合现有搜索引擎的成果,将人对图书资料检索的智能行为应用到搜索引擎中,进行了如下内容的研究: 1.分析了人们在图书馆查阅资料的智能行为包括:记忆能力、理解能力、感知能力、推理能力、实践能力。分析了图书资料查阅与Internet中信息检索的相似性。系统地分析和总结了现在全文搜索引擎实现方式上的五种智能能力的表现,提出了三网智能行为模型(Outernet(外网)→Internet(万维网)→Innernet(内网)),阐述了实现该模型的关键问题,通过一个具体的应用实例,说明了三网智能行为模型的实现是可行的。 2.从网页和用户查询关键词的“概念与意义”匹配的角度,借助了形式概念分析这一工具对网页的形式概念表示、关联规则的获取、网页匹配中的不确定性推理三个方面进行了研究: (1)在定义用户查询词的下接近与上接近的基本概念基础上,研究了下接近网页集形成的多值形式背景的形式概念表示方法,该方法以单个属性等价类为出发点,采用概念格形式概念对象之间的相等、包含、相交关系,建立了形成概念格的算法。与现有概念格建立算法相比,其时间复杂度有了较大的降低。 (2)结合用户查询词与网页匹配的特点,把现有概念格上的关联规则扩充为“与规则”和“或规则”,研究了从概念格中获取这两种关联规则的方法、算法。同现有概念格上无冗余规则获取算法相比,其时间复杂度有了显著的下降。 (3)从形式概念分析的角度出发,研究了利用关联规则,对上接近网页集中的网页与用户查询词进行不确定性匹配的模型、方法、算法,其算法复杂度是比较低的。 3.使用线性归结方法研究了英文网页的词法分析,认为归结过程本身就是一个线性归结,得出非正规文法都可以转换为正规文法的结论,并给出了转换算法;在正规文法的基础上研究了一个基于线性归结的词法分析方法的原理,证明了该方法的完备性,并予以算法和程序的实现。
其他文献
近年来学术图书馆学习空间再成为欧美图书馆界的研究热点,新的馆舍空间展示未来学术图书馆的面貌。文章以香港中文大学图书馆新启用的学习空间使用调查为例,论述学生对社交学
在整个戏曲出版史上,明刊戏曲插图本在质和量方面皆大有可观。插图位置从剧中转向卷首,插图与剧本愈来愈疏离;插图的形制经历了上图下文式、嵌入式、单面方式、双面连式、月
机电产品种类繁多,其中机床夹具是非常重要的一种工具,机床夹具设计的结果将最终影响着机电产品质量好坏或者是工具测量结果的精确度。目前来看正在使用中的机床夹具其工作效
陈列艺术概念设计是以具备创造性和唯一性的创意为前提的。这一创意过程侧重于就陈列艺术提出宏观的设计方向及思路,并给后期设计留有足够的微观再创作余地。本文就其内涵、
非物质文化遗产铜工艺品"传统失蜡法"铸造工艺既有文化性,又有艺术性。文章试以铜陵职业技术学院铜工艺品设计与制作(传统失蜡法)专业为例,探讨高职艺术教育对非物质文化遗产
结合国内外催化裂化装置改造的具体情况,介绍并分析了我国催化裂化装置挖潜增效采取的一些措施,如应用新工艺对老装置进行扩能改造、选用新型裂化催化剂及再生技术、采用高效设
<正>"如何当好班组长"估计这是所有班组长不止一次思考过的问题,到底自己是不是一个好的班组长自己说了不算,班组长的所作所为大家都看在眼里,关键在于"好",原地踏步的班组能
期刊
近年来,我国旅游业持续快速发展,在国民经济中的比重不断增加。据世界贸易组织预测,到2020年,中国旅游总产值可望占国内生产总值的10%以上,成为名副其实的主要支柱产业。然而
组织蛋白酶B(cathepsin B,CB;EC 3.4.22.1)是组织蛋白酶超家族中特殊的一员,为同时具有肽链内切酶和羧基二肽酶活性的半胱氨酸蛋白水解酶。虽然组织蛋白酶B广泛存在于各种动
影响家具风格创新的因素是多方面的,其中由于家具对材料的特殊依赖性,使得家具材料的创新会直接引导和推动着家具风格创新的发展,家具材料成了家具艺术实现的重要物质媒介。