【摘 要】
:
文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点。文本分类旨在将大量文本划分到若干子类,使得各文本子类代表不同的概念主题。文章采用
【机 构】
:
同济大学软件工程专业,沈阳机床股份有限公司
论文部分内容阅读
文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点。文本分类旨在将大量文本划分到若干子类,使得各文本子类代表不同的概念主题。文章采用了一种基于随机森林的文本分类方法。该方法来源于基于决策树的机器学习,依据文本内容的分词结果进行机器学习,将文本中信息量高的词汇提取出来作为学习维度,可以准确地对文本进行分类。由于随机森林算法[1]具有高并发,快速收敛的优点,非常适合海量数据的处理。
其他文献
<正>我国古代家庭成员之间关系密切,"一人得道,鸡犬升天","一荣俱荣,一损俱损"。为了家族的命运,家长们十分重视子女的教育问题,教育子女被视为父母的天职。南北朝时期的颜之
英语委婉语是人们在社会交往中为得到理想的交际效果而创造的一种适当的表现形式。委婉语的使用,是追求语言文明的表现。文中将日常生活交际中常出现的委婉语分为四类:老年、
本文通过调查分析了大学生入党的“功利性”动机,认为不应简单地将为找一个好工作等“功利性”动机视为完全错误的,应看到其中的合理性。因此,我们工作中应在始终坚持“先从
本文通过对城市地下快速路的特点分析和对现有的"处方式"设计在城市地下交通隧道中应用的局限性和不合理性的总结,首先提出了在城市地下交通隧道使用性能化防火设计的构想。
<正>"请闭上眼睛想:一个老城,有山有水,全在天底下晒着阳光,暖和安适地睡着,只等春风来把它们唤醒,这是不是个理想的境界?"(老舍《济南的冬天》)老舍先生笔下的这块"宝地"就
提高政府扶持企业创新的效果需要针对企业创新能力提升过程中的企业创新需求而实施相应的扶持措施。企业通过整合内外部的创新性资源产生创新能力,而创新能力产生新的运营能
<正>二次革命前的中国社会政局,是辛亥革命前政局的延伸,但又有所不同.用一句话概言之,即:三种相互抗衡的势力构成两个阵线不甚分明的营垒.这种政局给二次革命打下了深深的烙
氯化消毒因其消毒效果好价格低廉,一直被广泛用于生活饮用水消毒。但近年研究发现在氯化消毒的过程中会产生各种消毒副产物,对人体有致畸,致癌,致突变作用,其中直肠癌,结肠癌
目的探讨电视胸腔镜手术在孤立性肺结节诊治中的价值。方法回顾性分析2011年1月至2013年1月大连医科大学附属第二医院205例孤立性肺结节行手术治疗的临床资料,其中男118例,女
资本资产定价模型(CAPM:CapitalAssetpricingModel)被称为投资界的重要定律、它在受到广泛的赞同的同时也受到极大的质疑。CAPM在中国的应用是国内理论界和投资界都很关注的