基于垂直搜索引擎的结构化信息处理技术研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:oldfly2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,搜索引擎在不断满足巨大的信息资源量的需求下,却无法兼顾到信息搜索的准确度和及时性,此时垂直搜索引擎为满足用户需求应运而生,本文通过对垂直搜索引擎进行了深入研究,并针对现有模型及其所存在的问题提出一种改进的垂直搜索引擎模型,依据该模块特点对结构化数据的去重和分类算法进行改进,通过两个改进算法在改进的垂直搜索引擎模型中的实验应用,得出改进的垂直搜索引擎模型进一步提高了垂直搜索引擎的实时性和准确性。新模型设计的主要方案是对现有模型新增加一个数据二次处理的模块,该模块主要对抽取到的非结构化数据和半结构化数据向结构化数据转换。模块的主要研究内容是对网页信息的去重处理和分类处理。因此本文的主要研究内容和创新点分为以下三点:(1)在参考现有的电子商务领域广泛应用的垂直搜索引擎的基础上,提出一种改进的垂直搜索引擎应用模型,结合本文改进的去重算法和分类算法使用查全率和准确率两个指标评估该模型的实用性和可行性。(2)提出一种新的信息处理技术的网页去重算法,并以时间复杂度、空间复杂度、查全率和准确率作为四个指标分析该算法在改进的垂直搜索引擎模型中的可行性和健壮性,以及对信息检索效率的提高。(3)对现有的一种分类算法进行改进,进而使得适合于本文提出的垂直搜索引擎的结构化数据处理计算,该算法的结构包括词条数组和每个词条的文本链表。词条数组指将所有的训练文本分词,经过特征提取后的所有特征项组成的数组,存储在数组中的是特征项(词条)的ID号。词条数组中的每个词条(ti)有一个指针,指向含有ti的所有文本组成的链表。文本链表由两部分组成,文本的ID和ti在文本中的权重。ti的文本链表生成以后,按照ti在文本中的权重递减排序,然后对其进行进一步的优化进而降低原有算法的查找范围。
其他文献
随着对算法运算速度要求的提高,一些用软件实现的算法已满足不了实时性的要求。因此,充分利用硬件电路的并行性和快速运行的特点,实现算法硬化,成为算法研究的一个新方面。本文工
随着互联网的迅猛发展,信息正在以指数形式飞速增长。通过互联网人们可以轻而易举地获取大量的信息,从而对自己的行为起着非常重要的指引作用。短文本是互联网中一种非常重要
随着二维条码技术的不断发展,不同于传统“图形”二维条码,出现了一种“文本”形式的新型字符二维条码。本文在对传统二维条码编码技术进行研究的基础上,对字符二维条码的编
关键词是指文档中具有专指性且能够反映文档主题的词语或短语。采用自动化技术从文档中抽取出关键词的过程称为关键词自动抽取。关键词自动抽取是文本自动处理中分类、检索和
随着社会生活节奏的加快和物质的极大丰富,人们对饮食质量的要求日趋提高,进餐者想要找到满意的食品难度越来越大。目前,大多数的配餐系统都是服务于特定的人群,且大部分都是基于
Web2.0和互联网技术成熟与进步促使用户产生内容逐渐成为用户使用互联网的全新方式。用户作为互联网资源的使用者,同时也作为互联网资源的创造者,让人与互联网的交互模式得到
随着并行计算技术和多核处理器的快速发展,应用程序的性能由单纯依赖于处理器频率的提升已经转向多核并行执行,而传统串行编程方式已经无法充分利用多核处理器计算资源获得性能
射频识别技术(RadioFrequencyIdentification,简称RFID)是一项利用射频信号通过空间耦合(交变磁场或电磁场)实现非接触信息传递,并通过所传递的信息实现目标识别的技术。随着物联网
XML(eXtensible Markup Language)即可扩展的标记语言,是一套定义语义标记的规则,是Internet环境中跨平台的技术,其目的在于定义计算机和人都能方便识别的数据类型。随着信息技
USB(Universal Serial BUS通用串行总线)是一个外部总线标准,主要应用于规范电脑与外部设备的连接和通讯。USB接口支持设备的即插即用和热插拔功能。随着USB3.0的慢慢普及,它的应