人物信息相关网页过滤方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhugege521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的提高以及智能手机的普及,互联网已经彻底改变了我们的沟通交流和日常实践方式,人们越来越喜欢在社交网络上发表自己的看法与观点,这些活动在网络中留下了宝贵的文本数据资源。而在这些文本数据中蕴藏着大量有关人物介绍的信息,准确获取这些人物信息对于人物画像等领域来说具有重要的意义。此外,互联网文本内容的非正式性使得其在自然语言处理的各个层面都面临着挑战。因此本文以互联网中人物信息相关网页过滤为应用背景,结合网页文本数据预处理相关技术,重点研究了人物信息网页正文文本抽取以及人物信息网页的过滤问题,具体贡献如下:(1)提出基于网页DOM节点路径特征的潜在人物信息文本抽取方法。本文根据网页DOM节点路径与网页文本内容之间存在联系性的特点,建立了主题正文文本与噪声文本的DOM节点路径特征集合,然后对节点路径特征进行聚类挖掘,获取到了主题正文的节点路径类簇,最后通过正文类簇中的节点路径抽取出主题正文文本。实验结果表明,该方法能够适用于不同类型网页的文本抽取工作,具有抽取准确率高、速度快等特点。(2)提出基于人物信息触发词特征的网页过滤方法。本文首先运用主题爬虫技术从互联网上抓取具有潜在人物介绍信息的网页。通过对大量人物信息网页文本内容的观察和分析,发现文本中的人物属性词组附近往往存在着人物触发词信息。基于此特点,本文总结了一些描述人物属性信息的触发词特征。在特征提取的过程中,还提取了网页的结构性特征。最后本文利用支持向量机模型构建分类器,训练并应用于人物信息网页的过滤中。实验结果表明,该方法对人物信息网页能够起到较好的过滤效果,能够解决目前获取人物信息网页难的问题。
其他文献
  在开采信息数字化的基础上实现矿山开采的智能化。能够保证矿山的高效、低耗、安全生产,是矿山企业的发展方向。分析了智能化矿山的概念,针对复杂的地下矿山的开采条件,在现
<正>随着信息技术的快速发展,传统的体育教育模式将被新的教育技术替代。高校体育教学的实践性和参与性较强,不仅需要体育教师在课堂教学过程中进行大量的示范,而且要求学生
目的了解浙江省中药配方颗粒发展情况与面临问题,为制定相关政策措施和管理制度提供参考。方法对5家在浙江省有中药配方颗粒生产销售的企业和30家已使用的医疗机构进行调查,
在市场经济快速发展的背景下,企业面临着更为激烈的竞争,这种竞争主要表现在管理竞争方面,而人力资源管理是企业管理中的关键内容,其管理成效直接关系到企业的生存与发展。将
<正>书法是一种道,每个人都有着自己的理解,但都源于一种精神的坚守。这种坚守不管书者身处何地、身从何业,都会顽固地潜伏于每一位书者的心底,等待"惊蛰"的到来。朱讲用是一
目的:组蛋白去乙酰基化转移酶抑制剂(histone deacetylases inhibitors, HDACis)对于很多肿瘤细胞具有诱导细胞凋亡及分化的作用,而对正常细胞的细胞毒作用很低,这一选择性杀
期刊
地质遗迹是一种珍贵的不可再生资源,是研究地质演化的珍贵实物,也是一种特殊的地质资源类型,具有独特的开发利用价值,对社会文明与进步、地方建设与发展具有十分重要的作用。
<正>~~
期刊
强制性标准是我国技术标准体系的重要组成部分,在调整产业结构、规范市场秩序、提高产品质量、加强社会管理、服务民生改善、节约资源保护环境中发挥了重要作用。但是,面对政