论文部分内容阅读
伴随着互联网大数据时代的来临,网络论坛数据呈爆炸式增长,这类数据具有社会性、随意性、分散性等特点,难以被直接使用。而论坛主题挖掘技术能从复杂的论坛数据中识别出用户集中讨论的文本内容,并从中提取主题,以达到提炼论坛主要论点的目的。对论坛主题挖掘进行了问题描述和任务框架梳理,并依照任务框架对现有技术进行了分类,基本类型为论坛文本预处理、主题挖掘算法和主题建模,详细阐述了以上三类论坛主题挖掘技术的基本特征和典型方法,进行了比较与总结,对论坛主题挖掘当前存在的问题及其发展趋势进行了分析与讨论。