基于百度百科与文本分类的网络文本语义主题抽取方法

来源 :2012年第三届中国计算机学会服务计算学术会议 | 被引量 : 0次 | 上传用户:fanjun6699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘。百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法。首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题。最后提出根据语义离散度确定最终语义主题。在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能。
其他文献
高斯是个数学天才,但是千里马也要有伯乐发现才行啊!在这里,我也想给大家隆重介绍一位善于发现数学人才的小学数学老师。
妇女卫生用品的卫生质量问题已日渐引起广泛重视。我们对南昌市卫生纸生产企业进行了细菌污染情况调查。对妇女用卫生纸,以细菌总数不超过50cfu/g,未检出化脓菌者为合格。调
  基于SAAS的在线服务数量曰益宠大,使得如何有效的查找特定的服务成为突出问题。目前普遍采用用户自定义的服务标签来标识服务,并通过标签来搜索服务,但这些标签存在随意性,容
会议
  为了在互联网上实现跨组织数据共享,以及及时响应多变的临机业务需求,能够支持最终用户在分布自治数据源上构建整合的数据视图变得非常重要。在本文中,我们在数据服务模型的
会议
miRNA是一类长度约21~24个碱基的单链非编码RNA,通过靶向mRNA 3'端非翻译区结合导致mRNA降解或翻译抑制,在按蚊对入侵病原体的防御反应等多种生物学过程中均发挥重要功能.本文
  当前业界存在多种需求模型,模型本身结构各异,其间的语义互操作也存在巨大的困难。由于缺乏支持互操作管理以及互操作能力评估的高效而通用的方法,导致了此类困难的延续。为
会议
防治蚊虫是防控蚊媒传染病的主要措施,化学防治一直是防蚊灭蚊的主要手段.然而随着蚊虫杀虫剂抗药性问题的日益突出,亟待发现新型高效、环境友好的蚊虫防治方法.嗅觉在蚊虫生
为保证全市妇幼保健各项指标的落实,我们采取定期考核与随机检查相结合的方法,连续四年组织了农村妇幼卫生质量联查工作.现将1989年对我市六区县农村妇幼卫生工作调查情况分
随着农村体制的改革,生产责任制的落实,农药的保管使用,农户家家有,这不可避免地给农民的身体健康带来相应的危害,特别近几年来农药中毒事故相继发生,严重的影响农业生产的
在我国,厂矿企业是组织社会主义生产建设的基本单位。企业在组织职工生产,保证完成国家计划时,必须全面地搞好安全生产、工业卫生工作,切实保障职工的生命安全和身体健康,这