面向垂直领域的文本分类研究及实现

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:songking515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垂直领域文本分类一般将研究内容限定在特定专业领域或有某种特定需求的领域中,与非垂直领域相比,垂直领域文本分类在文本表示、特征提取以及分类方法方面更聚焦于专属领域,以此为基础衍生出的垂直搜索引擎、信息分类等应用能为特定用户或特定需求提供专业、精炼及有深度的信息及相关服务。垂直领域的文本由于具有特定领域的属性使得文本表达与应用场景密切相关。一方面,文本自身的非结构化特性给文本分类带来一定困难;另一方面,在特定场景下能代表领域特征的文本相似度较高,而应用服务要求提供更加精准的分类方法,这样对一般泛化领域的文本分类提出更高要求。如何在一般文本分类方法基础上提供更加细粒度的分类方法是本文的研究重点。多标签分类是文本分类的常用方法。但在垂直领域的文本分类任务中,由于文本特征相似度高,标签之间语义关系相近且逻辑关系层次较深,为在特定领域内寻找区分度高的文本分类方法带来挑战。本文以从互联网获取的军事领域文本为研究对象,以Doc2VecC模型为基础,以提升特定领域的文本分类性能为目标,开展了部分研究工作:1.提出了以逆文档频率为度量指标的文本特征过滤策略,实现了高质量文本特征筛选。利用词的逆文档频率具有反映文档主题的能力,保留逆文档频率较大的词可提高特征信息在标识中的比例,进而提高了文本特征表达能力。2.构建了增强文本特征的PV-IDF模型,实现了垂直领域文本细粒度分类。使用增强特征的文本表达方式,用特征标识代替传统的文本标识,与上下文信息共同构成输入向量可明显增强文本特征,实现高质量的细粒度分类。3.结合增强文本特征的表示模型构建了多标签分类框架,提出了基于静态阈值的标签选择方法和基于最小二乘法的动态阈值标签选择方法。同时,以LSTM分类模型为基础,通过构造标签相似度矩阵量化标签之间的关系,将量化结果与模型融合,增加了专业领域多标签分类的合理性。
其他文献
目前,智能终端应用技术基本都是针对具体操作系统平台提供针对性的语言和工具进行开发,开发人员在完成一款终端应用后,通常需要花费大量的时间和精力进行跨平台的移植工作和
目的观察远隔肢体缺血预处理对肺叶切除术患者术后血液单核细胞TLR4和血浆炎性因子表达的影响,以及患者术后肺功能变化和肺部并发症的发生情况,探讨远隔肢体缺血预处理的肺保
随着电子信息化技术不断更新换代,在推动经济发展过程中起着越发关键作用。面对互联网金融的浪潮,IT技术对于金融行业就更为重要,作为掌握计算机技术的研发人员,自然就成为银
细胞凋亡是一个高度调控和复杂的细胞程序性死亡过程,它对细胞的生长和增殖具有极其重要的意义。细胞凋亡异常会导致许多疾病,如神经退行性疾病、自身免疫性疾病和癌症,因此
慈善,作为从人性的善良面中诞生的行为,伴随着人类文明在历史长河中不断发展。21世纪,随着我国的经济不断发展,社会公众对于慈善事业的需求与关注,也已经上升到了新的高度。
试验一:奶牛隐性乳房炎三种致病菌多重PCR检测方法的建立根据S.aureus NUC耐热基因、S.agalactiae 16S rRNA基因、P.aeruginosa ETA基因序列设计特异性引物。通过对PCR反应退
对北洋集团中各色人物的研究,一直是北洋史相关研究中的热点内容。但在已有的研究成果中,往往偏向政治经济领域的核心人物,对于一般性的人物则较为忽视。对核心人物的研究虽有利于梳理历史脉络,但并不足以了解历史的全貌。对于一般性人物的研究更有利于了解当时政治、社会、经济的一般情况。在此基础上,文章选取在北京政府统治时期身份地位相对较为一般的蒋雁行作为研究对象,通过研究蒋雁行身份地位的变化以及其与社会变化间的
氯喹,是一种广泛用于预防和治疗疟疾以及治疗自身免疫性疾病的基础公共卫生体系必备药物,被发现具有一定抗病毒作用,同时还是一种常用的自噬抑制剂,近期更是因其在新冠肺炎病
上海市文史研究馆是上海市人民政府领导下具有统战性质的机构,它对保障老年知识分子生活和维护社会安定起到了十分重要的作用。本文从上海市文史研究馆的成立与机构调整、馆员的基本情况和文史研究馆组织的活动等三个方面入手,对上海市文史研究馆进行较为系统的研究。1953年6月上海市文史研究馆正式成立,成为老年知识分子开展工作与活动的主要场所,随着工作的转变,其机构设置也在不断调整,1966年10月,因受到政治形
本论文以刺参生殖发育相关神经肽的功能基因筛选及活性研究为核心,通过生物信息学分析、分子克隆、细胞水平的活性验证及生理功能评价,开展较为系统的研究探索,以期为刺参生