一种基于特征符号的网页主题信息抽取方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:sailordong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网络的日益普及,W eb上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足W eb挖掘方法的通用性。通过对W eb网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(contentextraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。
其他文献
针对传统边缘检测对噪声较敏感且不能准确定位的不足,分析了图像边缘邻域像素之间的关系,提出了基于局部特征的图像边缘检测方法,建立了判断该像素点是否位于边缘上的准则函数。本方法以像素点为研究对象,检测的边缘可能为噪声点或伪边缘点,因此利用图像边缘连续性和噪声点孤立性的特点,运用形态学提取图像边缘并克服了噪声对边缘检测的影响;然后运用形态方向梯度去除伪边缘点。实验结果表明该方法能够准确地检测出图像的边缘
1临床资料所选病例均为1999-10~2002-10经本院门诊,除外其他可引起尿路刺激征的泌尿生殖系等各种疾病,确诊为急性尿道综合征的患者,共57例.随机分成治疗组和对照组.治疗组37例
Ⅱ型糖尿病是最具典型性的胰岛素抵抗(IR)相关疾病,本文以补肾活血为治疗大法,采用益糖宁颗粒剂治疗Ⅱ型糖尿病肾虚血瘀证60例,并进行了对照观察,报告如下.
提出了一种新的1/4像素运动估计算法。新算法根据相邻分数像素点之间高度相关的运动估计匹配误差和运动矢量方向,选择最优整像素点周围最有可能的1/2像素点进行搜索,摈弃可能性较小的1/2像素点,在最优1/2像素点周围进行钻石搜索得到最优的1/4像素点。新算法只搜索7个点,与全搜索的16个点相比少了56.3%。实验证明,与全搜索法相比,新算法的峰值信噪比平均下降了0.06 dB,比特率平均上升了1.3%
提出了一种适合等值线图裁剪处理的算法,该算法通过构造扫描带,然后对落在每条扫描带内的线段进行处理,从而获得等值线在裁剪多边形内的部分。用实际的大量数据进行了多边形区域裁剪的测试,实践证明,这种方法可行且提高了效率。
针对传统木马检测技术比较被动这一缺陷,提出一种基于人工免疫原理的木马检测方法。利用人工免疫具有自适应以及免疫学习能力的特点,将人工免疫原理应用到木马检测中。分析了数据来源特征,给出了计算抗体与抗原或抗体与抗体之间相似度以及抗体的适应度公式,建立了一个木马检测系统模型;实验测试了利用人工免疫的方式检测木马能有效提高木马检测的检测率,减少误报率。
为了减少时延、增加数据传输率,根据业务自适应特征,引入两种触发切换需求,分别从测量控制、切换判决和切换执行三方面对3GPP规范的LTE切换过程加以改进。根据基站邻居列表缩小测量范围,使用层次分析法进行多参数切换判决,在终端与源基站保持连接时进行与目标基站的同步接入。仿真表明此优化机制减少了切换延时,增加了数据传输速率,并有效地提高了切换效率和全网利用率。
本文分析了制作CAI软件的重要性和选择支撑软件的依据,并详细介绍了多种CAI素材(包括文字、图形、声音等)的选用原则和制作技术.
当前影响政法成人高校教学质量的因素主要有:教学质量观、教师素质和数量、学生素质、课程、教材、教学方法和教学技术、考试制度、教学质量监控机制、教学环境等.政法成人高
1一般资料男性22例、女性14例、20岁~40岁者16例,41岁~60岁者16例、60岁以上者4例、患病2年以上者6例、5年以上者16例、10年以上者6例、20年以上者6例、30年以上者2例.