基于重复串的短文本聚类研究

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:wwfkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突出.对于此类信息的组织和分析挖掘在话题检测与跟踪,在线社区发现以及信息安全等方面有着十分重要的意义.文本聚类分析是组织文本的一种有效方法,在传统研究中被广泛应用于未知话题的自动发现并取得了不错的效果.本文分析了短文本这种特定语料的内在特性,提出一种新的基于重复串的特征提取算法,并将其应用于短文本的聚类.实验结果证明了该方法可行并且比传统方法更有效.
其他文献
磷肥工业排放的含氟废水,对环境的影响正日益引起人们的重视,含氟废水危害大,按照传统的石灰乳中和方法处理高含氟废水经过治理后很难.云南三环化工有限公司采用一步化学沉淀
本项研究表明,土壤脲酶活性在NAM的作用下明显下降.这一作用在25~30℃的温度条件下可持续45天以上.与对照(只施尿素)相比(设对照脲酶增长为100%),而NAM处理在最高时只增加50%~60%.
肥料包括有机肥料、元机肥料和生物肥料.传统农业主要靠有机肥料增加作物产量,现代农业主要靠无机肥料提高作物产量,生物肥料以无机、有机肥料为基质间接提高作物产量.生物有
本文简要的介绍了喷浆造粒复合肥工艺流程和生产中存在的几个问题,针对上述生产中出现的几个问题的具体工艺改造.
本文应用Wilson法设计叶片,采用点的坐标的几何变换理论求解叶片各截面在空间实际位置的三维坐标,基于三维几何建模理论。采用PROE的曲面造型技术对叶片进行整体表面造型,获
关系数据库上提供关键词基于文本和数字属性的精确查找发展迅速,但是还不能较好的处理模糊查找以满足用户的更高要求。针对关系数据库上的关键词信息检索系统基于数字属性的
基于图像的三维建模已成为当前计算机图形学领域研究的热点与难点。基于单幅图像几何信息的交互式建模方法针对至少具有两个灭点的单幅照片,通过人机交互的方式标出场景中物体
本文为移动WebServices提出基于JAVA的解决方案及其优化方案-基于上下文的移动WebServices,根据获得的客户端上下文信息处理SOAP消息.根据信息的新类型对上下文进行扩展.由We
通过语义分析可以理解自然语言语句,并进行深入的知识获取和推理,使计算机能够与人类无障碍的沟通.为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想.浅层语
本文提出一种在BBS环境下进行热门话题挖掘的算法.BBS以讨论为主的文体决定了同一话题的文章在词语向量上并不一定相似,单纯采用基于向量空间模型的聚类算法难以有效地完成话