基于不同分词模式的文本分类研究

来源 :数学的实践与认识 | 被引量 : 0次 | 上传用户:oyyc4011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主要研究不同的分词模式对文本分类结果的影响,采用两种传统的文本表示方法:LDA和LSA,采用两种分类方法:支持向量机和逻辑回归,一共四组不同的实验来比较分析.实验结果表明相对于传统的分词方法来说,第二种搜索引擎式的分词方法通过拆分、添加组合词对分类结果更有效.具体来说,对两种分词采用LDA得到文本表示后,模式二的分类准确率最高95.38%,模式一为93.7%.在对两种分词采用LSA得到文本表示后,模式二的分类准确率最高为96.44%,模式一最高为95.2%.
其他文献
随着中国的改革开放和城镇化进程的推进,特别是―一带一路‖战略的实施,锚杆锚固结构在我国岩土锚固工程中得到空前广泛的应用。其发展速度之快、应用规模之大,应用量之多已
热舒适模型的建立需要人体生理学、生物传热学、环境心理学等多学科的系统知识。目前已建立的较为完善的人体热舒适模型均基于西方人的生理学及心理学的研究,而中国人和西方
据http://esto.nasa.gov/网站报道,由美国宇航局领导的一个研究小组研制的一种量子阱红外光电探测器现在已能在一个“颜色”或波长范围内看到不可见的红外光。这是迄今为止世界上
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
关于洛阳白马寺的几个问题徐金星位于汉魏洛阳故城西约1公里,今洛阳市老城东约12公里的白马寺,是佛教传入中原地区后所创建的第一座佛寺,是源于南亚次大陆古印度的佛教,在中华大地,周
<正> 几丁质又名壳多糖,是广泛存在于昆虫和甲壳类硬壳、真菌细胞璧及一些绿藻中的一种由N-乙酰-D-葡萄糖胺聚合而成的均一多糖。几丁质是天然聚合物巾仅次于纤维素的物质。
目的:探讨循证护理理论指导下临床护理路径护理模式在腹腔镜胆囊切除术患者围术期护理中的应用效果。方法&#177;选择普外科腹腔镜胆囊切除术患者共102例,按入院单双日分为实验