论文部分内容阅读
【摘要】基于LSA技术(关键语义提取技术)是一种信息检索代数模型,用统计的方法对大量文本集进行分析,而短信销售系统也作为一种新型销售系统被越来越多的人接受,但运用LSA技术开发的销售系统却比较稀见,本文对LSA技术近年的发展和技术原理进行较为详细阐述,并对使用该技术的短信销售系统开发前景进行分析。
【关键词】LSA;语义提取;短信销售系统
0.引言
LSA是一种语义分析理论,早在1988年就最先在美国被提出并研究,其本质是潜在语义分析(Latent Semantic Analysis)通过奇异值分解(Singular Value Decomposition)分析文本集之间的关系,找出关键词及语义间映射规则的方法。在计算机中被广泛运用于检索领域,而短信销售系统也是目前比较流行的网络通讯销售方式,可采用单发或分组群发方式,而我们日常使用的手机就直接作为客户终端机。当然这类终端也包含日常使用的平板电脑或者掌上电脑。
1.技术分析和开发现状
基于LSA的短信销售类系统的开发重点和难点就是LSA的引擎开发和其预料上。由于LSA采用非负矩阵分解语义降维达对信息过滤和去噪,获得原始矩阵的降维近似逼近阵,将文档和词语的高维表示投影到低维的潜在语义空间中,使文档低维表示,揭示语义联系难点在于汉语千变万化,而系统接收是用的是实体与实体关系表示,这样信息越多,“关系“也越多,这也同时加大了关系库的建立周期和系统测试的时间。而在技术预料上,潜在语义分析(LSA)理论作为众多语义分析理论中的一种,其使用会受到系统中知识库本身的准确性影响。如系统事先预制的问题和答案准确性不够,则会对用户的使用造成影响,造成答案命中率降低、用户满意度降低的问题。解决此问题需要通过事先筛选知识库中关于销售产品的相关信息,并针对实际应用场景进行相同语义、不同表达方式的测试,以保证系统通过LSA算法得出的答案是最接近用户期望的回答,这也是自助方式的开发关键之一。
由于该技术开发具有难度,涉及大量维度,数学模型,关系等,加之对开发设备也有一定要求,如需要通讯设备,网络设备,及相关软件等必然加大开发周期。另外该系统也存在一定的市场风险,这也是该系统开发低于传统网络销售系统开发更新速度的一个重要原因,新产品由于性能、稳定性或消费者惯性等因素被市场接受存在一定被动性,目前该技术在国内研究主要在发展了10来年时间,对于中文文本的检索,分析直到建立语言关系,用一种或者几种数学降维方式来达到简化和表达文字关系的运用主要在几个方面:
BBS上的文本潜在语义提取分析,如四川大学刘昌钰发表的《基于潜在语义分析的BBS文档Bayes鉴别器》,国家自然科学基金资助(60073046)提出的自然语言理解技术和概率统计法,对中文BBS的语义提取做了详细的分析,属于较早的一类该技术运用分析论文和课题,而后,大连理工大学的宁键的《基于改进潜在语义分析的交叉语言检索》国家自然科学基金项目(60373095)同时该项目也是国家863高科技计划资助项目,也提出了使用潜在语义分析的改进技术。
2.短信销售系统现状
然而LSA在短信销售系统上开发也具备非常成熟的和广阔的前景。
目前在国内,使用手机这个普及率在中国达到52%的国家(2010年统计6.35亿)的工具作为自助工具比使用传统定制网页(网民普及率仅为4.3亿,占31.4%,2010统计)更具优势(两种方式人口差两亿多)的这样一个系统。其节约开发和管理成本以及普及率高使其具有很大的市场空间和效益优势,而其维护成本也远远低于网站维护成本。
而且这种方式几乎是目前最方便和易用的方式,除非更改目前使用的通讯工具,其发展方向会向语音过滤,图像识别定制等更方便方向发展。
3.结论
随着LSA技术的不断深入研究,现在已经在信息检索方面得到广泛应用,在应用领域的不断拓展的同时,该项技术也在信息过滤、跨语言检索、认知科学和数据挖掘中的信息理解、判断和预测等众多领域中有着广泛的应用。可以预见,LSA在短信销售系统信息检索方面的运用,可以說是非常适宜和前景光明的。
【参考文献】
[1]George Reese.程烨等译.Cloud Application Architectures[M].北京:电子工业出版社,2010.
[2]王鹏.云计算的关键技术与应用[M].北京:人民邮电出版社,2010.
[3]IBM websphere together second Edition 2008.
[4]张永奎,赵辄谦,白丽君等.基于互联网的中文问答系统.计算机工程,2007.
[5]崔桓,蔡东风,苗雪雷.基于网络的中文问答系统及信息抽取算法研究.中文信息学报,2006.
【关键词】LSA;语义提取;短信销售系统
0.引言
LSA是一种语义分析理论,早在1988年就最先在美国被提出并研究,其本质是潜在语义分析(Latent Semantic Analysis)通过奇异值分解(Singular Value Decomposition)分析文本集之间的关系,找出关键词及语义间映射规则的方法。在计算机中被广泛运用于检索领域,而短信销售系统也是目前比较流行的网络通讯销售方式,可采用单发或分组群发方式,而我们日常使用的手机就直接作为客户终端机。当然这类终端也包含日常使用的平板电脑或者掌上电脑。
1.技术分析和开发现状
基于LSA的短信销售类系统的开发重点和难点就是LSA的引擎开发和其预料上。由于LSA采用非负矩阵分解语义降维达对信息过滤和去噪,获得原始矩阵的降维近似逼近阵,将文档和词语的高维表示投影到低维的潜在语义空间中,使文档低维表示,揭示语义联系难点在于汉语千变万化,而系统接收是用的是实体与实体关系表示,这样信息越多,“关系“也越多,这也同时加大了关系库的建立周期和系统测试的时间。而在技术预料上,潜在语义分析(LSA)理论作为众多语义分析理论中的一种,其使用会受到系统中知识库本身的准确性影响。如系统事先预制的问题和答案准确性不够,则会对用户的使用造成影响,造成答案命中率降低、用户满意度降低的问题。解决此问题需要通过事先筛选知识库中关于销售产品的相关信息,并针对实际应用场景进行相同语义、不同表达方式的测试,以保证系统通过LSA算法得出的答案是最接近用户期望的回答,这也是自助方式的开发关键之一。
由于该技术开发具有难度,涉及大量维度,数学模型,关系等,加之对开发设备也有一定要求,如需要通讯设备,网络设备,及相关软件等必然加大开发周期。另外该系统也存在一定的市场风险,这也是该系统开发低于传统网络销售系统开发更新速度的一个重要原因,新产品由于性能、稳定性或消费者惯性等因素被市场接受存在一定被动性,目前该技术在国内研究主要在发展了10来年时间,对于中文文本的检索,分析直到建立语言关系,用一种或者几种数学降维方式来达到简化和表达文字关系的运用主要在几个方面:
BBS上的文本潜在语义提取分析,如四川大学刘昌钰发表的《基于潜在语义分析的BBS文档Bayes鉴别器》,国家自然科学基金资助(60073046)提出的自然语言理解技术和概率统计法,对中文BBS的语义提取做了详细的分析,属于较早的一类该技术运用分析论文和课题,而后,大连理工大学的宁键的《基于改进潜在语义分析的交叉语言检索》国家自然科学基金项目(60373095)同时该项目也是国家863高科技计划资助项目,也提出了使用潜在语义分析的改进技术。
2.短信销售系统现状
然而LSA在短信销售系统上开发也具备非常成熟的和广阔的前景。
目前在国内,使用手机这个普及率在中国达到52%的国家(2010年统计6.35亿)的工具作为自助工具比使用传统定制网页(网民普及率仅为4.3亿,占31.4%,2010统计)更具优势(两种方式人口差两亿多)的这样一个系统。其节约开发和管理成本以及普及率高使其具有很大的市场空间和效益优势,而其维护成本也远远低于网站维护成本。
而且这种方式几乎是目前最方便和易用的方式,除非更改目前使用的通讯工具,其发展方向会向语音过滤,图像识别定制等更方便方向发展。
3.结论
随着LSA技术的不断深入研究,现在已经在信息检索方面得到广泛应用,在应用领域的不断拓展的同时,该项技术也在信息过滤、跨语言检索、认知科学和数据挖掘中的信息理解、判断和预测等众多领域中有着广泛的应用。可以预见,LSA在短信销售系统信息检索方面的运用,可以說是非常适宜和前景光明的。
【参考文献】
[1]George Reese.程烨等译.Cloud Application Architectures[M].北京:电子工业出版社,2010.
[2]王鹏.云计算的关键技术与应用[M].北京:人民邮电出版社,2010.
[3]IBM websphere together second Edition 2008.
[4]张永奎,赵辄谦,白丽君等.基于互联网的中文问答系统.计算机工程,2007.
[5]崔桓,蔡东风,苗雪雷.基于网络的中文问答系统及信息抽取算法研究.中文信息学报,2006.