基于语义的Web主题提取的研究

来源 :中国电子商务 | 被引量 : 0次 | 上传用户:wangxiang62
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们通过互联网对同一主题进行搜索时,会通过链接展现出许多包含主题的相关网页,为了使用户更加准确地找寻到有用信息,或更快更方便地转移到相关感兴趣的话题,很好的维护与正确的识别这些有紧密联系网页是十分有意义的。目前众多网页集的维护还是通过人工方法进行,因此,更智能的识别技术被人们迫切需求。本文重点研究的是引入本体库,结合了语义信息的网页主题提取算法。利用WordNet本体库,进行关键词的语义相似度的计算,然后进行关键词语义级别的合并,对整个文本信息进行语义抽象归纳,从而达到更准确的主题抽取的效果。此方法改进了现有的采用人工方法或者词频统计的方法进行主题提取的不足,使搜索变得自能化,使搜索结果更加准确。此方法的实现分为以下几个步骤。首先,将获取的样本网页进行过滤处理,清除与主题不相关的信息,如网页包含的图片、广告及导航链接等信息,这些信息的去除使得在进行主题抽取的过程不会受到这些对主题提取贡献不大的信息的干扰,从而使得最终主题的提取更加准确。然后将其转化为文本信息,因为在后续的操作中,直接进行页面的聚类计算量是很大的,并且效率也不高。然后,将初步处理后得到的文本信息进行共指消解和分词处理。引入共指消解系统使得出现频率较高的代词很好地解析出来,对主题抽取的准确性有很大的帮助。采用Lucene进行分词操作,可以分辨出名词短语,如人名、专有名词,并且还提供为单词建索引的功能,提高了主题提取的效率和准确性。其次,引入WordNet,利用改进的Lesk算法计算语义相似度,然后进行网页的聚类,使得拥有不同主题的网页聚集到不同的类中,从而减少不同主题的网页产生的噪声。利用主题词之间的语义相似度,不只是单纯的计算关键字的内积,可以保证网页之间的语义信息得以保留。最后,利用改进的TF*IDF算法进行Web主题词的抽取,改进后的TF*IDF算法考虑到了特征项在类间和类内的分布情况,弥补了TF*IDF的不足,使之最终的主题词更加准确。最后通过实验证明了本文提出的方法是可行且有效的。
其他文献
本论文采用规范分析和案例分析相结合的研究方法,首先探讨了当前我国国有企业国有资产管理中存在的会计监管问题,同时。根据会计监管的实际情况和效果,构建了“以政府监管为主导
财务质量分析是以公路企业财务报告及其他相关资料为主要依据,对公路企业的财务状况、经营成果及现金流量进行的质量评价和剖析,反映公路企业在运营过程中的利弊得失、财务状况
本文建立了漫滩水流滩槽相互作用的射流边界层理论模式,对滩槽水流相互作用的机理进行了阐述,导得顺直主槽复式河槽断面统一的速度剖面表达式(15)。计算结果表明,计算值与实
近年来,淘宝网提供的C2C交易平台,在国内,目前是最受消费者瞩目的主流展示销售平台之一。本文的讨论重点,是针对C2C服装类卖家,如何在这个平台上树立自身的服务优势,以提升其在竞争
人工智能背景下社会信息化进程的加快,导致数据孤岛逐渐成为世界各国产业发展和科技创新面临的普遍障碍。然而,我国现行立法在破解数据孤岛时,却暴露出立法理念不适当、数据
原发性肝细胞癌是全球第5位常见恶性肿瘤,也是近年来发病率上升最快的肿瘤之一,其病死率位于因癌症而死亡的第3位。引起肝癌的危险因素很多,我国主要是由乙型肝炎病毒感染引
本文从当前电子商务人才培养的时代需求出发,提出了设置柔性课程体系,加强实践教学环节和重视电子商务创业教育三个方面电子商务人才培养的思路,为高等学校电子商务专业人才培养
工程项目施工涉及面广,是一个极其复杂的过程,影响质量的因素很多,均直接影响着工程项目的施工质量;而且工程项目位置固定、体积大,不同项目地点不同,因此影响施工项目质量的因素多
本文从网站信息丰裕度和互动性的视角对网上消费行为的影响进行研究。研究采用实验法和内容分析法,将信息丰裕度分为信息广度和深度两个维度,分别从信息呈现方式的多元性和质量
长庆油田采油三厂五里湾、盘古梁、姬塬油田蕴含着丰富的伴生气资源,本文分析了该油田伴生气现状及如何有效回收该油田的伴生气资源并加以有效利用。根据现场生产运行情况,积