基于主题特征的Web信息挖掘模型的研究与实现

被引量 : 7次 | 上传用户:dark709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,Web互联网已经成为一个蕴含海量信息、分散、无结构的数据仓库。如何帮助人们从纷繁、不清晰的网络资源中,获取到有价值的信息,成为Web信息挖掘最急需解决的问题。基于Web信息挖掘的现状,论文一方面致力于主题特征的研究;另一方面,论文针对网站的主题层次、网页结构分类和网页的细粒度信息抽取进行了深入的研究,提出了许多有效的信息处理方法。论文的主要研究工作和成果包括:第一,提出了结合Web结构挖掘和内容挖掘的主题站点垂直挖掘模型。模型能够处理不同主题站点的不同类型的网页、提取的信息细粒度高、支持增量信息的获取。第二,实现了网站的主题层次结构提取和网页结构分类。提出的由URL字符串、URL锚文本和URL页面入度组成的三元组URL描述法,可以有效的分析网站的主题层次结构,实现网页结构分类。第三,设计了网页信息抽取的新方法。利用基于正文和标题依存树的网页正文抽取方法精确的抽取网页正文,利用基于语义和规则的Web网页信息细粒度抽取方法抽取网页的细粒度信息,最终实现网页信息的准确获取。利用上述研究成果,根据实际应用需求,构建站点垂直挖掘系统,通过实验验证了模型可以对主题网站信息实现智能、有效、全面、精确的挖掘。
其他文献
随着科技的发展,人们对于新闻质量的要求越来越高。新闻采访的写作水平关系着新闻的整体质量。因此,提高新闻记者的写作能力尤为重要。文章主要分析了提高新闻写作的重要性,
本文采用实验性肺转移模型定量分析了环磷酰胺对肿瘤血源转移的影响及其作用机理。实验发现,(1)环磷酰胺预处理动物后以剂量依赖性方式促进肿瘤转移;(2)环磷酰胺预处理对血源
[处方]:穿心莲(干燥全草)1000克提炼成浸膏后制1000片。每片相当原生药1克。 [工艺过程]:取原生药切成小段(约3~4公分),用80%~85%乙醇作溶剂,热提取两次,每次各2小时,提取液回
期刊
文中针对现代浴室水耗能耗较大的状况,设计了一款智能卫浴系统。该系统可在淋浴初始阶段实现冷水回收,在淋浴期间进行液滴加压,对淋浴排放的废水和热量进行回收,相比传统淋浴
以新古典经济学为主要内容的西方经济学教育在中国已经产生严重后果,中国经济学教学改革迫在眉睫。演化经济学将是21世纪的主流经济学,经济学教学改革必须遵循演化经济学的基
唑来膦酸因具有高亲骨性和抑制骨重吸收活性而被广泛应用于临床治疗变形性骨炎、骨质疏松以及肿瘤引发的骨相关疾病。本文合成了唑来膦酸及其衍生物作为配体,配位合成了系列双
随着时代的进步和科技的发展,建筑教育也步入了新的时期。但是现代建筑教育的发展是在建筑教育体系形成的基础上发展的,所以研究建筑教育体系的形成就有了必要性。现代高校为了
目的探讨稳定期慢性阻塞性肺疾病(COPD)患者血清及诱导痰可溶性晚期糖基化终末产物受体(sRAGE)的表达及临床意义。方法选取稳定期COPD患者40例作为COPD组,招募同期健康吸烟者
记者从相关检验机构获悉,继欧美等发达国家先后对玩具及儿童产品中塑化剂含量进行严控后,中国香港于不久前发布了《玩具及儿童产品安全(附加安全标准或规定)规例》。该规例将
随着当前新闻媒体的发展和不断完善,在新闻采访写作过程中,新闻记者的写作水平在很大程度上能够提升新闻采访报道的新鲜度以及新闻采访报道的真实度,很多时候新闻工作者的写