面向会话文本的关键词抽取技术研究

来源 :中国人民公安大学 | 被引量 : 0次 | 上传用户:nj_wpp1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在即时通讯工具中存在大量的会话文本信息,这些信息中包含谣言、人身攻击、招摇撞骗、反动言论等不良信息,甚至很多不法分子借助即时通讯工具实施犯罪,因此面向会话文本的分析对于公安舆情分析、案件侦查、电子证据分析等业务具有重要作用。关键词是快速掌握文本主要内容的最佳方式,因此对会话文本关键词抽取的研究是很有价值的。本文主要针对会话文本的关键词抽取任务展开研究,具体内容如下:1、针对会话文本向量稀疏、中心性差、话题交叉性强的问题,提出了SCM(Segmentation-Clustering Model)会话文本初始类簇构建模型。SCM采取先分割后聚类的思路,构建出会话文本初始聚类簇。首先,通过会话文本的时序特征和隐式特征构建会话分割算法,将会话文本流分割为细粒度的会话片段;然后,利用DBSCAN算法对会话片段进行聚类,构建出会话文本初始聚类簇。2、针对会话文本在传统算法上适应性差的问题,提出了NBLT(Naive Bayes-LDA-TFIDF)犯罪类文本关键词抽取及犯罪分类识别模型,NBLT利用SCM算法的初始聚类簇完成关键词抽取任务,融合了有监督和无监督的关键词抽取算法,将改进的朴素贝叶斯算法的关键词抽取结果和多重算法融合的无监督关键词抽取算法的抽取结果进行融合,有效解决了会话文本关键词抽取的难点,并基于抽取出的关键词集利用杀人类案件、贪腐类案件、涉毒类案件的会话文本对贝叶斯模型进行训练,得到犯罪类会话文本分类器,实现了会话文本的关键词抽取和犯罪类型分类识别。3、基于以上两个模型设计并开发了犯罪类会话文本分析系统。该系统通过将测试文本进行预处理,运用本文提出的SCM算法实现会话文本流的分割和聚类,运用NBLT算法进行关键词抽取和犯罪类型识别。同时该系统还添加了基于jiaba的分词标注、命名实体识别、词频统计及词云展示,基于百度AI情绪分析工具的文本情感分析功能,便于公安实战业务中对会话文本流的分析和应用。本文以公开QQ群聊天数据集、犯罪类电影字幕为语料进行了以下实验:会话文本特征提取及基于特征的分割实验;会话片段聚类实验;犯罪类会话文本关键词抽取实验;犯罪类会话文本分类实验。实验表明,本文提出和采用的方法在准确率、召回率、F值方面均有较好的效果,验证了本文提出的模型及系统具有一定的优越性。
其他文献
随着电子产业的不断发展,工业生产对电子封装密度和集成度提出了更高的要求,从而使电子封装技术面临新的挑战。近年来,三维硅通孔技术不断创新,为芯片的封装提出了一种新的思路。其中,超薄高保形绝缘层的制备是实现三维TSV垂直互联的关键技术之一,但随着TSV直径的减小和深宽比的增大,传统的工艺越来越无法满足性能的要求。现有研究发现,水相接枝绝缘层的方法可以制备出均匀致密,与基底结合牢靠,绝缘性能也满足要求。
随着能源危机及环境污染等问题愈发严重,寻找可替代能源迫在眉睫。生物质能具有分布广、储量大、可再生等优点,已受到国内外广泛的关注。利用快速热解技术能够将结构复杂的固体生物质转化为高附加值液体产物,是生物质高效利用的重要途径之一。然而,常规热解得到的液相产物存在成分复杂、目标产物含量低等问题,不利于分离提纯,经济性差。预处理能够改变生物质的化学组成和结构,提高其热解选择性。在众多预处理工艺中,生物预处
烟草青枯病作为一种由青枯雷尔氏菌引起的土传性病害,在长期连作的模式下极易爆发并造成严重损失。土壤是植物生长的基础载体,其中土壤微生物是维持土壤健康的关键因素之一,也是影响烟草青枯病发生的一个重要生态因素,已有研究表明,生物熏蒸在土壤理化性质改良、主栽作物生长、病虫害控制等方面均有一定作用,而系统地研究生物熏蒸对连作发病土壤微生物群落结构的变化及对烟草青枯病的控制效果至今没有报道。本文主要通过盆栽试
超分子化学为化学家合成许多具有应用前景的材料提供了一种有效的途径。科学家们精心设计含有合适空腔结构的化合物时,总希望它们能够用来专一且可预知的催化一些反应。事实
深度高斯过程(deep Gaussian process,DGP)是一种流行的概率建模方法,它具有强大的功能,适用于函数近似和不确定性估计,能广泛应用于各个机器学习领域。随着大数据时代的到来,数据的获取方式和特征类型不断增多,出现了越来越多的多视图数据。然而,传统的DGP主要处理的是单视图数据的建模问题,缺乏对多视图情况的考虑。因此,本文主要研究的是多视图深度高斯过程,提出了一般化的多视图深度高斯
蛋白质是活细胞生命活动中最主要的载体,执行着生物体内各种重要功能。对蛋白质功能进行自动标注是生物信息学领域的关键问题,也是后基因组时代的核心问题之一。准确全面地对蛋白质进行功能标注,不仅能帮助人们正确理解生命机理,而且对疾病分析、药物研发、农作物促产等研究领域都有着极大的促进作用。基因本体(Gene Ontology,GO)是一种在蛋白质功能预测中被广泛使用的功能标注数据库。本体中包含多于4500
企业的投资决策既涉及到企业的筹资,又关系到企业资金的配置效率,因此,投资效率的高低会关系到企业未来发展情况和企业内在价值的提升,若企业不能进行有效的投资,则会增加企业未来的经营风险、降低获利能力以及资金的周转率,同时也会影响企业在资本市场中的经营业绩和发展前景。因此,研究相关指标对投资效率的影响这一问题一直以来是微观经济中最为重要的课题之一。随着前几年我国政府实施去杠杆,到近两年的稳杠杆,我国经济
随着时代的发展和科技的进步,互联网和计算机在人类活动中起着越来越重要的作用,而其安全性也引起越来越高的关注。模糊测试是一种高效的自动化漏洞挖掘技术,在软件安全领域有着广泛的关注和运用。而为了应对日趋复杂的软件,模糊测试则需要在精确度和效率上不断做出改进。缺乏有效的种子筛选策略和变异的盲目性是目前模糊测试面临的两个问题。本文针对以上问题所作的工作和创新点为:1)针对缺乏有效的种子筛选策略的问题,研究
目的:运用前瞻性研究方法探讨“开郁通闭”之参蛤益肺胶囊治疗慢性阻塞性肺疾病稳定期的临床疗效和免疫影响,观察患者中医证候积分、mMRC量表积分、CAT评分、肺功能、血清细胞因子IFN-γ和IL-4、免疫球蛋白IgA和安全性指标等。为“开郁通闭”法治疗慢性阻塞性肺疾病稳定期患者提供临床依据,并初步探究参蛤益肺胶囊对COPD稳定期患者的免疫机制。方法:选择2018年10月到2019年10月期间于西南医科
乳腺癌对于女性是致死率较高的疾病之一,早发现早治疗是治愈乳腺癌的关键。超声成像技术因其无创伤、价格低廉、操作简便等优势,已经成为乳腺癌早期辅助诊断的主要工具之一。超声图像中的肿瘤分割对于乳腺癌的早期诊断具有重要意义。然而,乳腺超声图像存在灰度不同质性问题,这会严重影响算法的分割精度。为了解决该问题,本文研究了一种标签分布嵌入的活动轮廓分割模型:首先,在encoder-decoder网络框架下,构建