基于特定领域的网页文本提取与实现

来源 :中央民族大学学报:自然科学版 | 被引量 : 0次 | 上传用户:wuwu245
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了针对小范围的网页文本提取的一种方法.结合对东方财富网的股评网页的HTML文件进行网页文本分析,设计出基于特定领域的网页结构特征的网页文本提取算法.该算法的设计与普通的广义网页提取算法的设计相比,设计简单,针对性较强,提取效率较高,且对股票市场的网页信息的识别与处理起到基础性的作用.
其他文献
目的探讨胃肠道恶性神经外胚层肿瘤的临床病理学特点、免疫表型、分子遗传学改变、诊断及鉴别诊断要点。方法回顾性分析胃肠道恶性神经外胚层肿瘤的临床资料、光镜观察、免疫
目的 探讨影响进展期胃癌新辅助化疗患者临床疗效的危险因素并进行多元Logistic回归分析。方法116例进展期胃癌患者的临床资料进行回顾性分析,找出可能影响其临床疗效的相关
这里所谓粘球杆菌,系指文献中长期以来名称相当混乱的一大类革兰氏阴性细菌——Mora-sclla-Mima-Herellea。它们的共同特性是:1)球杆形,常成对排列,酷似奈瑟氏菌,但具有多形
期刊
【正】十月间不能随四十年前的伙伴到台湾,因为在义乌开工近半年之久的漂染厂,股东们又建议得来一个隆重的开张典礼,热闹热闹一下.十一月已铁定要到泰国赴会.十二月也已订好
中、小学语文教育是提高整体文化科学素质的奠基工程,是发展上述整体素质的必要前提和条件。因此,搞好中、小学语文课素质教育,是关系到提高整体民族文化素质和教育素质的世纪大
【正】 十二月 柴可夫斯基第一号钢琴曲像雪花,以那又柔软、又嫩白的手儿抹过琴键,每组音符都是自岑寂无声中流泻而出,迸发为优美绝伦的音籁,组合成不朽的“冬天之梦”。 风
在学生的成长历程,有的成才了,有的却走了弯路,原因种种,非智力因素起着重要的作用,本文就中学数学学困生的非智力因素及培养做了初步探讨。
小学生具有可塑性强的特点,因而,小学阶段是习惯养成的绝佳时期。身为小学语丈教师的我,视培养小学生的良好语文学习习惯为己任。于是,在教学实践中不断探索,总结归纳了七方面的良
介绍了种衣剂的发展历史、成分、类型、特性与作用机理并对种衣剂在水稻上的应用效果进行了综述。
本文研究了光网络的生存性问题,提出了光网络M∶N保护的两种优先排队模型,给出了相关的信令协议,通过仿真验证了模型的正确性.此模型可用于基于优先级的M∶N保护设计,有助于