【摘 要】
:
Blog(博客)作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,也使得Blog空间里的信息量成倍增长.利用话题检测技术将Blog文本信息按照所表达的话题进行归类
【机 构】
:
教育部-微软语言语音重点实验室,哈尔滨工业大学,150001
【出 处】
:
中国中文信息学会二十五周年学术会议
论文部分内容阅读
Blog(博客)作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,也使得Blog空间里的信息量成倍增长.利用话题检测技术将Blog文本信息按照所表达的话题进行归类和组织,可以使用户在这种动态变化的环境下查看自己感兴趣或需要的信息,使Blog信息更加有效、准确地为用户使用.本文根据Blog本身的特点,对向量空间模型的表示和相似度的计算进行了改进,提出了一种应用于Blog中的热门话题检测与排序方法,实验结果显示此方法取得了较好的结果.
其他文献
1974年3月,美国揭露了一桩科学上弄虛作假事件。当事人萨默林(W.Summerlin)曾宣称,黑鼠的皮肤移植片经体外培养后,可移植到白鼠身上而不发生免疫排斥反应,长期存活下来。他
语料库是计算语言学的基础资源,目前国内外许多单位都在积极地进行语言资源的加工建设,在汉语语料库建设方面也取得了一些重要研究成果.例如,1998年人民日报标注语料库、国家
王充是东汉初期杰出的唯物论思想家,他站在法家的立场上,对孔孟之道进行了猛烈批判,对儒家反动的自然观也展开了针锋相对的斗争。认真研究一下王充的唯物论自然观及其对唯心
本文介绍了电子信息产业工业炉窑的特点、能源消耗情况,然后指出了电子工业炉窑存在的主要问题,最后讨论了加快发展节能型炉窑,是经济社会发展的需要。
本文主要探讨基于一系列国际标准的西双版纳傣文"贝叶经"资源库的关键技术,如基于ISO/IEC10646的新、老傣文信息处理技术、基于Dublin Core和XML的电子编目、置标和发布技术
目的 系统评价去甲文拉法辛治疗重性抑郁障碍的疗效和安全性.方法 计算机检索Medline、Embase、CENTRAL、PsycNET、中国生物医学文献数据库、中国知网、维普、万方等数据库,
富氧燃烧不仅能节约燃料,提高产品质量和品位,减少窑炉侵蚀、延长窑炉寿命,而且能够大大降低粉尘和NOx的排放,减少环境污染.本文对其在玻璃窑炉上的应用进行了简单的介绍和探
从中国证券市场诞生以来,违规行为就层出不穷。有人甚至认为:中国证券业的发展史,就是一部违规史!警钟一次又一次响起,令人震耳欲聋,宣告中国证券立法已刻不容缓!如狼似虎的
匹杉醇为一新型蒽环类药物,已由欧盟批准单独用于治疗成人复发难治侵袭性B细胞非霍奇金淋巴瘤.Ⅲ期临床试验结果提示,作为复发难治侵袭性非霍奇金淋巴瘤的单一替换疗法,匹杉
本文首先介绍了朴素贝叶斯方法的基本原理,分析了决定基于贝叶斯的中文垃圾邮件过滤器的性能的几个因素,然后比较了几种基于该方法的过滤器,最后总结了制约中文垃圾邮件过滤