基于词共现网络的文本特征提取方法研究与应用

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:zhangyangyingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本特征提取旨在从文本中挖掘能表现文本特征的语言成分,是自然语言处理研究的重要课题之一。伴随着互联网数据井喷式地增长,越来越多的数据需要被处理和存储。海量的文本数据不但需要极多的硬件设备支持,而且对文本处理的性能和准确性的要求也越来越高。高效地从文本中抽取出有价值的内容,不但可以减少存储数据的规模,还能提炼出更有价值的信息,为分类、聚类等自然语言处理的后续工作提供数据基础。不同的垂直领域的文本具有不同的属性和特点,如何更加快速而有效地从这些领域中挖掘出与文本处理任务相关的属性和特征,不但是自然语言处理科学研究的重点,而且是人工智能社会生产中的重要需求之。本文基于现有的研究成果,着重在文本特征抽取的性能和效率两个方面做了大量的研究工作。在互联网舆情和电商领域的前提下,本文分析和比较了基于统计、基于图模型和基于语言学三种文本特征提取方法的优劣,并创新性地将基于图模型的和基于统计的特征抽取方法相结合,提出了一种基于词共现网络和卡方统计的文本特征词提取方法。该方法综合考虑文章关键词和摘要关键词,不仅发挥了图模型识别语义抽取丰富、精度高的优势,而且保留了统计模型性能好、速度快的特点。在模型性能和效果的分析中,本文从数据规模、时间复杂度、应用类型三个方面评估该模型优势和不足。实验结果表明,该方法相比传统的tf-idf、textRank等经典特征抽取算法,精度提高了 5%-10%,性能提升了 50个百分点。该模型效果不随数据规模、文本处理任务的变化而变化,因此该模型具有较强的任务迁移和泛化能力。本文通过flask框架实施了算法落地,客户端通过向服务端发送http请求实现模型的实时服务,统一了应用接口,并且支持多条数据的分布式处理。
其他文献
<正>凡事预则立,不预则废。教学是一项有计划、有目的的活动,具备较强的预设性。但教学过程是具体而鲜活的,经常会出现一些出乎意料的情况。如何在上课前科学预设,在教学中把
探讨基于MOOC的软件工程专业教学模式,提出构建基于MOOC与传统教学相结合的课程体系与培养方案,基于MOOC的混合式课内教学模式及翻转课堂团队学习模式,建立混合式教学模式的
往来于镁光灯下的明星,常常不只有镜头前光鲜亮丽的一面,戏如人生,公众视野之外的重重身份,往往更接近于真实。身份的多重曝光去年9月,北京798迎来一场明星公益摄影展,摄影作
期刊
新疆在国家“一带一路”政策的带动下,基建工程需求量日益加大,工程中要用大量的河砂,但是高购价和高运费使得工程成本增加。新疆有大量的沙漠砂资源可以利用,可缓解河沙的资
汉语人名包括姓、氏、名、字、号等,其修辞艺术丰富多彩,我们将其概述为构成中的修辞艺术和运用中的修辞艺术两大类别。前者包括断取、对比、析字、回文、顶真、复字、叠音、双
随着科学技术突飞猛进的发展,信息化时代的到来,文书档案的管理工作迎来的不仅仅是模式的变革,更是一场技术上的革新。变革本身是不可避免的,以一种积极的态度去应对,将信息
煤矸石是煤矿采煤过程中产生的一种固体排弃物,若长期在地表堆放,不仅占用土地资源,而且会污染周边环境。若是把煤矸石当作一种材料进行加工并且回填到煤矿采空区中,既可以节
西夏姓氏dyu1dyu1是中原史书中"茹茹"一词的对音,这意味着西夏境内存在古柔然人的后裔。文章对西夏以及中原文献中"茹茹"和"柔然"的语源关系做了尝试性的解释,并根据阿尔泰语言的情
由感染、外伤等引起的牙髓病、根尖周病是口腔科比较常见的疾病,对于牙髓病或根尖周病最常规的治疗方法就是根管治疗。虽然根管治疗可以保留患病的牙齿,延长其保留时间,但经
目的:Foxl2(Forkhead box L2)是Forkhead转录因子家族的成员,最初在睑裂病/眼睑下垂/内眼角赘皮综合征(blepharophimosis/ptosis/epicanthus inversus syndrome,BPES)患者中