基于模糊集模型的相似HTML文件检测方法

来源 :中国公共安全(学术版) | 被引量 : 0次 | 上传用户:quzoufeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着信息技术的发展,互联网上的信息量越来越庞大,造成部分内容或全部内容重复的网页文件大量存在于网络中.这些文件不仅给网络带来很多冗余的信息,而且增加了额外的储存空间及过滤特殊信息的耗时,进而降低了网页信息检索的效率.本文提出一种新的对相似HTML文件的检测方法,将模糊集模型引入其中.该检测方法通过利用任意两个文件的优势比来确定文档的相似度,结果用图表显示文档中相似语句的位置.本文提出的检测类似文件的方法能够处理大量的不同大小的网页,且不需要静态单词列表,因此,它可应用于不同领域的不同网页文件之中.
其他文献
近年来我国食品安全事件频发,不仅是经济问题,而且关系到公共安全,这必然需要从政府和市场两方面来剖析其产生的原因.本文根据政府经济学的相关研究来分析,揭露食品安全事件
农民工是在中国经济市场化中迅速崛起的一个新型群体,他们为城市繁荣、农村发展和国家现代化建设做出了重大贡献,然而他们却生活在社会的最底层,很多合法权益都得不到有效的
纵观建国以来我国的人口政策,大致经过了鼓励生育、放任生育、计划生育等政策的演变与调整.如何历史、辩证地看待我国人口政策,不但可以认清我国当前的人口现状,也有利于寻找
二十一世纪什么最珍贵,无可置疑的绝对是人才,但是对于人才来说创新的思维又是至关重要的.而在音乐人才的培养过程中,教师的思想理念直接决定着教学质量的高低和教育方向,拥
目的了解社区计划生育部门和卫生部门的服务人员对艾滋病自愿咨询检测(HIV voluntary counseling and testing,VCT)和自愿咨询转诊(HIV voluntary counseling&referral,VCR)
办公室所处的特殊地位和所属的工作性质,决定了办公室工作职能的核心就是服务,发展趋势就是优化服务,实质就是企业的服务中枢。笔者根据工作经验,对新形势下如何做好企业办公
上世纪三四十年代的"冰心-林徽因之争"又被人提起并引发了新的争论.本文指出当年首发此论的沈从文、李健吾的说法本就不无片面性,折射着京派文人崇尚美丽的新风雅的人文理想
鼓励选拔大学生到农村和社区任职是党中央推进社会主义新农村建设的一项重大决策.本文主要采用问卷调查法,并辅以集中座谈法及实地走访调查法,对淮安市涟水县大学生村官现状
根据非营利组织的特点,阐述了我国非营利组织的激励与约束控制、员工业绩评价控制、责任控制、预算与规划控制等管理控制活动对组织非财务绩效的影响关系,并据此提出加强非营
随着实验技术的发展和高校实践教学改革的不断深入,传统的实验室管理模式已经制约了实验室管理效率的提高和实践创新人才的培养.文章在分析了当前高校实验室管理现状的基础上