电子商务中数据挖掘技术的选择.doc
威海职业学院信息工程系,山东威海264200)摘要:从挖掘任务和可获得的数据方面讨论了电子商务中有关数据挖掘技术的选择问题,指出了各种数据挖掘技术适用的场合,可为进一步开发切实可用的数据挖掘系统提供依据关键词:数据挖掘;电子商务;关联分析;分类;聚集中图分类号F716文献标识码文章编号:(2004)随着网络技术和数据库技术的成熟,传统商务正向着电子商务全速挺进这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择空间,同时也为商家提供了深入了解客户需求信息和购物行为特征的机会。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是实现电子商务不可缺少的重要工具。同时,电子商务的发展促使商务公司收集大量的数据,并将其转换成有用的信息和知识,为公司创造更多潜在的利心技术经历了数十年的发展,如统计、近邻决策树、神经网络和规则等。今天,这些成熟的技术在电子商务中已进入实用阶段,并取得了良好的效果。但数据挖掘作为一个新兴领域,在实际应用当中仍存在许多尚未解决的问题其中最难以解决的问题是决定在什么时候采用哪种数据挖掘技术。
为了正确选择数据挖掘技术,本文结合数据挖掘技术在电子商务中的应用,从挖掘任务和数据信息进行分析,指出各种数据挖掘技术适用的场合电子商务数据挖掘,以便为开发切实可用的数据挖掘系统提供依据。111数据挖掘的概念数据挖掘是通过挖掘数据仓库中存储的大数据挖掘是一种新商业信息处理技术。其主要特点是,对商业数据中的大量业务数据进行抽取、转换、分析和模型处理,从中提取辅助商业决策的关键性数据利用功能强大的数据挖掘技术,可以使企业数据转化为有用的信息,帮助决策,从而在市场争中占有优势地位。112数据挖掘技术在电子商务中的应用由于数据挖掘技术能带来显著的经济效益它在电子商务中特别是金融业、零售业和电的应用也越来越广泛。在金融领域,管理者过对客户的偿还能力及信用的分析可对客户类并评出等级,从而减少放贷的盲目性,提高资的使用效率;可发现在偿还中起决定作用的因素制定相应的金融政策通过对数据的分析可发洗黑钱等犯罪活动。在零售业,数据挖掘技术有于识别顾客购买行为,发现顾客购买模式和趋势以改进服务质量,争取更好的顾客保持力和满,提高货物销量,设计更好的货物运输与分销数据挖掘的概念及其在电子商务中的应用供市话和长话服务演变为综合电信服务,如语音收稿日期:作者简介,讲师,硕士,主要研究方向为数据库。
综述技术的发展,电信市场正在迅速扩张,竞争更加激数据特征的输出有多种形式,包括饼图、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量是非常必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,尽早发现盗用并及时采取措施、多维数据立方体和包括交叉表在内的多维表。数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般特征比较。例如,将上一年销售量增加10%的软件产品与同一时期销售量至少下降30%的产品进行比较。用于数据区分的方法与用于数据特征化的方法类似。总之,进行概念描述挖掘时一般采用面向数据库的方法还可以采用机器学习方法中的基于范例学习技术。器学习方法相比,面向数据库的概念描述可在大型数据库和数据仓库中保持有效性和可伸缩性。聚集发现聚集是把整个数据库分成不同的群组,群与群之间差别尽可能大,而同一个群内的数据尽量相似。聚集在电子商务上的典型应用是帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征此外,聚集分析可以作为其他算法征和分类等)的预处理步骤。与分类不同电子商务数据挖掘,在开始聚集之前往往不知道要把数据分成几组也不知道怎么分(依照哪几个变量分)因此,在聚集之后要有一个对业务很熟悉的人来解释分群的意义。
很多情况下,一次聚集得到的分群对业务可能并不好,这时需要删除或增加变量以影响分群的方,经过几次反复之后才能得到一个理想的结果。聚集方法主要有统计方法和神经网络方法,其中自组织神经网络方法和K2均值法是比较常用的聚集算法。关联规则发现关联分析是寻找在同一个事件中出现的不同项的相关性。比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,如对股票涨跌的分析。现以市场货篮为例分析关联规90%的人同时也买了牛奶”(面包黄油牛奶)用于规则发现的对象主要是事务型数据库,分析的是售货数以下数学模型用来描述关联规选择数据挖掘技术的重要依据数据挖掘的技术很多,主要包括统计方法器学习方法、神经网络方法和数据库方法。统计方法可分为回归分析、判别分析、聚类分析、探索性分析等。机器学习方法可分为归纳学习方法(决策、规则归纳)、基于范例学习方法和遗传算法等。神经网络方法可分为前向神经网络自组织神经网络等。数据库方法主要是多维数据分析或OL还有面向属性的归纳方法。由于每一种数据挖掘技术都有其特点和实现的步骤,对数据的形式有具体的要求,并且与具体问题密切相关,因此,适当选择并成功应用数据挖掘技术以达到预期的目标是一件很复杂的事本文主要从数据挖掘任务和可获得的数据方面来讨论对数据挖掘技术的选择。
211不同的挖掘任务使用不同的数据挖掘技术数据挖掘的任务是从数据中发现模式根据挖掘任务,数据挖掘可分为概念描述、聚集发现关联规则发现、分类发现、回归发现和序列模式发在选择使用某种数据挖掘技术之前,首先要将待解决的商业问题转化成正确的数据挖掘任,然后根据挖掘任务来选择使用某一种或几种挖掘技术。概念描述概念描述是描述式数据挖掘的最基本形式它以简洁的形式描述给定的任务相关数据集,提供数据的一般特性。概念描述由特征化和比较组成。数据特征化是目标类数据的一则的发现问题上的支持度/support可信度说明蕴涵的强度,而支持度说明规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”()关联规则发现任务的本质是要在数据库中发现强关联规则。利用这些关联规则可以了解客户的行为,这对于改进零售业等商业活动的决策很有帮助。如可以帮助改进商品的摆放(把顾客经常同时买的商品摆放在一起)帮助如何规划市场(互相搭配进货)在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法PRIOHP等算法。分类发现分类要解决的问题是为一个事件或对象归类。
设有一个数据库和一组具有不同特征的类别标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。 分类分析就是通过分析示例数 据库中的数据 ,为每个类别做出准确的描述或建 立分析模型或挖掘出分类规则 ,然后用这个分类 规则对其他数据库中的记录进行分类。 在电子商 ,分类分析可以预测客户响应程度,如哪些客 户最倾向于对电子邮件推销做出回应 ,哪些客户 可能会换他的手机服务商 ;也可进行商店定位 分出成功商店、一般商店和失败商店并得出各自 具有的属性 ,然后选择包含位置属性的地理数据 ,分析每一预期的商店位置属性,以确定预期的 商店定位属于哪一类 ,只有那些符合成功类要求 的商店位置才作为商店定位的候选 用于分类分析的技术有很多 ,典型的方法有统计法的贝叶斯 分类 、机器学习的判定树归纳分类 、神经网络的后 向传播分类等 最近,数据挖掘技术也将关联规则 用于分类问题。 另外 ,还有一些其他分类方法 k2最临近分类、MB 、遗传算法、粗糙集和模糊 集方法。 但目前尚未发现有哪一种方法对所有的 数据类型都是最优的 ,不同的方法适用于不同的 数据类型。 实验研究表明发发库商务信息网,许多算法的准确性非常 相似 ,其差别是统计不明显 ,训练时间可能显著不 一般地,与大部分判定树方法相比 ,大部分神 经网络和涉及样条的统计分类的计算量较大。
回归发现回归是通过具有已知值的变 量来预测其他变量的值。 回归与分类类似 ,差别 ,前者的预测值是连续的,后者则是离散的。 最简单的情况下 ,回归采用的是象线性回归这 的标准统计技术。 但是大多数现实问题是不能 简单的线性回归来预测的 如商品销售量、股票 、产品合格率、利润大小等很难找到简单有效 方法来预测 ,因为要描述这些事件的变化所需 变量以上百计 ,且这些变量往往都是非线性的。 此人们又发明了许多新的方法试图解决这个电子商务中数据挖掘技术的选择.doc,如逻辑回归、决策树 、神经网络等。 一般同一 模型既可用于回归也可用于分类 树算法,既可用于建立分类树 ,也可建立回归树 神经网络也一样。 序列模式发现序列模式分析和关联 析类似 ,其目的也是为了挖掘数据之间的联系 序列模式分析的侧重点在于分析数据间的前后列关系。 它能发现数据库中形如“在某一段时 而后购买商品 出现的频率较高之类的信息。 序列模式分析描述的问题是 ,在给 交易序列数据库中 ,每个序列是按照交易时间 列的一组交易集 ,挖掘序列函数作用在这个交 序列数据库上 ,返回该数据库中出现的高频序列
【114黄页(http://info.114ren.com)本文来源于互联网转载,如侵犯您的权益或不适传播,请邮件通知我们删除】