面向招标项目名称的中文短文本分类技术研究

来源 :南京财经大学 | 被引量 : 1次 | 上传用户:h8x8x8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论是短信、电子商务的商品评价,还是微博消息,都呈现爆炸式增长的趋势,说明用简短的文字表达信息即短文本在我们传递信息的过程中起着越来越重要的作用。但是,短文本欠缺长文本所具有的丰富的语义特征,其稀疏的特征矩阵导致我们很难对短文本进行分类和深度的信息挖掘。主题模型用于长文本挖掘的技术已经相对成熟,但是短文本处理却始终处于长文本处理的框架下。很多的研究都致力于借助相关外部信息扩充短文本,然后使用主题模型。但这种方法在搜索短文本的相关信息时存在难度,且依赖于搜索到的相关信息的质量,不具有通用性。招标项目名称是典型的中文短文本数据,近年来,依赖人工采集处理的招投标网站不能满足日渐激烈的市场环境,亟需自动化处理的网站。与本文相关的网站可以实现对项目名称自动化的采集、处理和分析,本文着重分析项目名称的分类问题,针对特征较为稀疏的短文本数据集,即招标网站获取的项目名称,展开具体的实验。首先,本文在基于统计的特征选取方法中,选择TF-IDF、IG分别与贝叶斯结合,根据评价指标F-measure比较项目名称的分类结果,选择对信息增益进行进一步优化,提出了基于规则的特征选取方法:1.整个短语,2.删除整个短语中首个特征词前的词语,3.将所有词根据位置加权。其中,分类效果最好的是基于“位置加权规则”的信息增益方法,但这种方法得出的结果的准确率提高而召回率有所降低。接着,改进了主题模型LDA方法,将主题模型LDA的结果与信息增益的结果融合后,再进行分类结果的预测。通过具体的实验证实,将信息增益的结果与LDA的结果融合的方法得出的准确率比用基于位置加权的信息增益得出的准确率高,且召回率也有所提高,验证了此方法的有效性。结合招标项目短文本的实验结果,我们能够得出,此方法可以推广到相关中文短文本数据集的分类实践中。
其他文献
“扩大有序参与、推进信息公开、加强议事协商、强化权力监督”1是党的十八大对健全基层群众自治机制提出的要求。城市居民自治是基层群众自治机制的有机组成部分,如何扩大城
目的:本研究的目的是探讨肠息肉的中医证素分布规律,以期为中医治疗大肠息肉提供辩证依据。方法:收集300例符合研究标准的大肠息肉患者临床证候,根据朱文峰创建的证候量表提取证素。最后进行统计分析,总结证素的分布规律。结果:1.共收集大肠息肉患者300例,男性186例,女性114例,男女比例1.63:1。2.病位证素:有多到少依次为脾248例(82.69%)、大肠119例(39.61%)、胃37例(12
超高速集成电路硬件描述语言(Very-High-Speed Integrated Circuit Hardware Description Language,VHDL)是一种用于电路设计的高级计算机语言,其设计的灵活性以及强大的硬件
2007年以来,我国信托公司业务规模获得了飞速发展,目前已成为仅次于银行业的第二大金融子行业。截止2017年第二季度末,全国68家信托公司管理的信托资产规模已达到23.14万亿元
随着互联网技术的发展,各领域信息化建设普遍升级,但医疗卫生领域信息化程度始终处于相对落后的局面。区域医疗信息平台的作用在于统筹区域范围内医疗资源,为患者提供更好的
随着通信业务量的不断增加,人们对通信传输容量及速率的要求越来越高。为了提高系统的传输速率,可以应用光复用技术,实际的光复用系统中一般使用多个激光器作为光源。由于激
随着国内经济建设的持续发展,计算机和网络技术在印刷产业得到了广泛的应用,数字化和网络化正在成为制造业今后的生产技术。自动化印前工作流程和技术的逐步成熟,越来越多的
光学压敏涂料测压技术是风洞试验中表面压力测量的新手段.介绍了光学压敏涂料测压技术原理,光学压敏涂料的研制及其在风洞试验中的应用.试验表明:所研制的光学压力敏感涂料与
随着Internet和Web2.0技术的飞速发展,社会化标签系统的应用也越来越广泛,与传统的用户通过浏览器获取信息的方式有所不同,用户可以根据自己的喜好随意标注自己感兴趣的资源,
随着互联网技术的飞速发展,互联网的业务种类越来越多,同时面临的问题和挑战也越来越大,其中多媒体的流量冗余是较为突出的挑战之一。用户对于热点内容的访问往往呈现高并发