面向领域的垂直搜索系统研究与实现

被引量 : 0次 | 上传用户:c224224224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网领域主要的搜索引擎服务商如Google、百度、Yahoo等,为用户提供的都是横向的海量信息搜索。这些通用搜索引擎在满足信息全面搜索的同时,却很难兼顾搜索的准确度与相关度的质量,而且存在网页覆盖率低、索引不及时等缺点,尤其对于信息需求相对集中、分类更加详细的行业用户缺乏导向。垂直搜索引擎作为搜索引擎技术发展的一个分支方向,通过对领域内信息的全面搜集、再组织整理,将会提供更专业化、个性化的行业信息服务,能够满足用户对专业领域信息的搜索需求。本文的研究工作主要分为两个部分,第一部分主要研究了垂直搜索引擎中的网络蜘蛛技术和结构化信息抽取技术。在网络蜘蛛的研究中,重点解决了主题目标描述、对URL的搜索策略和主题相关度判定问题。其中通过领域专家选定初始种子URL,从主题网页库中自动提取特征关键词并辅助人工筛选的方式生成主题特征向量;在网络蜘蛛搜索过程中,采用最佳优先的搜索策略以保证高效地抓取主题资源;通过向量空间模型计算网页与主题特征向量之间的相似度,并考虑了关键词的位置权重。在Web信息抽取技术的研究中,对比分析了现有的Web信息抽取方法,采用了基于正则表达式的网页结构化信息抽取方法。第二部分对搜索结果聚类进行了研究,通过分析现有聚类方法的不足及搜索结果聚类的特点,提出了一种适合于搜索结果动态聚类的新的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,采取比较子串和父串短语类代表的文档数量策略有效地解决了基于二进制方法合并短语类后的类别描述问题,并利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。实验结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。最后本文设计并实现了一个面向专利领域的垂直搜索系统,其中以Lucene开源框架实现了索引和搜索功能,采用基于词典的正向最大匹配算法实现了中文切词,并运用信息可视化技术对搜索聚类结果进行展示。
其他文献
对父本、母本及杂交F1代的羽绒的各种性状指标进行了测定,并进行差异显著性比较.试验证明,鹅羽绒的杂种优势利用明显,杂交F1代的绒朵长度、千朵重都极显著高于母本(P<0.01),杂
近年来,随着国内城市化水平的不断提升与城镇居民小汽车拥有量的迅速增加,在给动态交通造成持续压力的同时,停车设施与服务供给不足以及管理滞后等静态交通问题也日益凸显,引
有限责任公司的股权转让是公司资本运作的一个重要方面,是兼并或接手其他公司的重要途径。其一直是公司法理论和司法实务中的热点和难点问题。尽管我国新《公司法》在修订后,
3G无线蜂窝系统能比目前的2G无线蜂窝系统提供更高速率的数据传输业务,能对处于不同的位置,不同的信道情况下的不同用户提供多种服务业务。众所周知,有三种多址技术,分别是频
在各种废弃物处置的方法中,由于焚烧法具有减容减重比大、处理速度快、占地面积小、可回收热能等优点,在国外已经得到广泛应用。而对于人口压力大、土地能源资源紧张的中国来
概括了对地下通信线缆防蚁塑料护套的基本要求 ,比较了半硬聚氯乙烯护套、聚酰胺 (尼龙 )护套及Term igon特种聚烯烃共聚物护套三种物理防蚁护套的特点和可行性 ,并提出 Term
目前,文化市场综合执法部门作为国家意识形态领域的主要的管理机关和执法部门,在依法治国中处于极为重要的位置。在我县创建省级文明城市的活动中,文化部门创建的任务更是异常繁重,文化市场管理执法人员夜以继日,严防死守,为净化社会文化环境、规范文化市场经营行为立下了汗马功劳。作为工作在文化市场管理第一线的执法人员,也深切地感受到文化执法工作还存在一些有待解决的问题,我们应该深刻剖析发生问题的根源,明确工作思
期刊
以2004—2015年中国沪深A股上市公司为样本.考察签字注册会计师执业经历表征对审计质量的影响.研究结果表明:整体执业经历、特定行业执业经历、特定客户执业经历均有助于提高
论述了消费者权益法律救济的理论基础和价值取向,并针对我国消费者权益法律保护进行分析并提出完善建议,以期对我国消费者权益保护的法律实践作出理论上的贡献。
目的通过对社区卫生服务的满意度的调查,分析居民利用社区服务的影响因素。方法设计调查问卷,深入社区居民家中、公共场所等对家庭成员及社区卫生服务利用情况进行调查。结果