基于n-gram相邻字的中文文本特征提取算法

来源 :第一届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:dulcimerqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本特征提取是指从文本中提取有代表性的词作为特征,由于中文的特殊性,预先分词是中文文本的特征提取的关键步骤.本文在基于Apriori的中文特征提取算法上进行了改进,提出了一种以n-gram相邻字为分词线索的中文文本特征快速提取方法,使词典无关的中文分词和特征提取的速度大大提高.本文对新算法的正确性进行了证明,并通过试验验证了这种算法的性能和速度方面的优势.
其他文献
本文分析了宁波甬江独塔斜拉桥破裂的事故,包括影响宁波大桥的质量因素、破坏现象、事故发生的原因,并提出了处理意见.
本文以上海植物园展览温室屋顶铝合金网架工程为依托,对铝合金压杆进行了试验研究,然后在试验结果和数值计算的基础上得出了对称截面铝合金挤压型材压杆的稳定系数,并和欧洲建议、美国规范的稳定系数进行了比较.
通过应用新型骨架材料,提高轮胎胎圈钢丝的整体性能,改进轮胎趾口部位的强度,降低轮胎在使用过程中出现的趾口爆裂等质量问题,减少轮胎的早期损坏.
简要介绍了玻璃纤维帘线的制备工艺及提高其耐疲劳性能的方法。对玻璃纤维表面进行处理、在浸渍剂中加入其它橡胶胶乳、采用二次浸渍处理及改变帘线结构等措施均可提高玻璃纤维的耐疲劳性能。
详细介绍了镀锡青铜回火胎圈钢丝生产线的有关特点。包括镀前钢丝工艺(盘条预处理和中丝热处理后的表面处理、奥氏体化及铅淬火和拉丝工序)及化镀锡青铜生产线的工艺流程、主要技术参数和设备组成。所生产镀锡青铜回火胎圈钢丝性能优良,得到用户的广泛好评.
从外观形貌、综合机械性能和表面涂层三方面介绍了胎圈用钢丝的主要品种.论述了轮胎制造对胎圈用钢丝的主要技术性能要求。分析了胎圈用钢丝的发展趋势。指出胎圈用钢丝将向多品种、多规格、系列化方向发展;钢丝综合机械性能将向高强度、高韧性方向发展。
将高模量低收缩率的尺寸稳定型聚酯(DSP)帘线用于轿车子午线轮胎中,可简化轮胎的生产工艺,且轮胎的使用尺寸也能得到保证。DSP帘线的干热收缩率至关重要,要严格控制。
在文本分类系统中,传统的特征选择和特征加权方法充分利用了文档信息,而轻视或忽视了类信息.新的特征选择和加权方法以类信息作为调节因子,使均匀分布于单个类中的特征更具代表性,弥补了传统方法的不足.实验证明,基于新的特征选择和加权方法的四种常用分类器都表现出良好的性能.
网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?文章针对这些问题对实际网络日志进行了实证性的规模统计分析.研究了网络日志规模与用户数、Web页面数以及单位用户访问的Web页面数的关系,并研究了用户访问Web的动机.得出了一些有用的结论.这些结论为网络日志挖掘提供了一定的研究根据和基础.
本文从文本分类与信息过滤角度研究垃圾邮件过滤问题,介绍Winnow算法在垃圾邮件过滤中的应用,在PU1邮件语料和Ling-Spam语料上实验Winnow算法的性能,得到了较好的效果.实验表明,这种错误驱动的在线学习方法在垃圾邮件过滤上有较大的实用意义.