书城管理客户关系管理理论与实务
7384800000016

第16章 CRM中的数据分析与应用(1)

6.1 CRM中的客户数据来源

课前导读

企业客户关系管理的实施离不开数据的支持,对优质数据分析和应用可以提高企业决策的质量和速度。其中,数据挖掘和数据仓库是数据分析的高级技术工具,数据仓库构建标准格式的数据源,数据挖掘从大量数据中寻找隐藏的信息,如趋势、特征及相关性的过程,也就是从数据中挖掘信息或知识。具体到客户关系管理中,企业通过数据挖掘和数据仓库技术,可以与客户建立起紧密的关系,从而更好地把握客户需求。同时,在CRM中有效利用数据挖掘,可以为企业高层决策者提供准确的客户分类、忠诚度、盈利能力、潜在用户等有用信息,指导他们制定最优的企业营销策略。另外,CRM的数据与相应数据技术的支持为商业智能的发展提供了广阔的前景。

教学目标

·掌握客户数据的收集方法

·了解客户数据收集过程中对客户隐私的管理问题

·掌握数据仓库和数据挖掘的有关含义

·掌握多维数据仓库的相关概念

·掌握数据挖掘技术对CRM的商业贡献

·掌握CRM中实施数据挖掘的步骤

·了解决策支持及商业智能的相关模型

美国第一大零售商Wal-mart公司对大量新生的三口之家周末家庭采购记录进行的数据分析发现,啤酒和尿布的购买时间和购买主体有着惊人的相仿性。众所周知,啤酒是成年男子的杯中物,尿布则是婴儿的必需品,喝啤酒的人是不带尿布的,带尿布的人也不可能喝啤酒,两者看似难以发生商业联系。客户资料的细化分析揭穿了其中的秘密:原来,美国大量的年轻母亲在周末都喜欢放松一下身心,孩子的尿布在周末需要大量补充,购买尿布的差事自然就落到孩子父亲的肩上,而这些年轻的爸爸在超级市场选好尿布之余,总是要顺带给自己拎上几罐啤酒。

每一个独到的商业发现都有其对应的市场价值。这家美国公司随即采取了行动,将原本分散在两层的啤酒和尿布集中到了一起摆放,使那些周末才出现在超市里的年轻父亲节约了采购时间。与此同时,该公司主动向这些年轻的三口之家提供了包括啤酒和尿布在内的周末送货上门服务。该百货零售公司的销售额同比上涨了30%多。

这个例子给客户关系管理带来了启示:数据是CRM成功运用的基础,科学的分析数据往往会带来不可预测的商机。企业通过对数据进行初级处理,完成基本业务过程,对数据进行高级处理(如数据挖掘)提供企业决策,促进销售,保持稳定的消费群体。其中客户数据是整个企业数据库的灵魂,本章主要探讨客户数据及其在客户关系管理中的应用。

客户数据是CRM系统的灵魂,对数据的处理和分析是CRM的主要任务和功能。

客户数据的来源主要有两个方面,第一个来源是企业内部经营中获得的客户数据,这部分数据是最重要、最真实的,同时也是企业投入成本最多的数据资料。这些数据获得的方式是电话销售、客户面谈、销售记录、促销、市场调查等,这些资料的获得需要较长的时间,需要花费较大的精力和资金,因此,这部分资料的管理和开发,是企业至关重要的部分。

CRM的内部信息主要包括生产信息、销售信息和技术信息。这些内部信息可以反映企业目前客户业务运作的基本状况,是企业分析内部条件的依据。

第二个来源主要是通过外部获得的客户数据,比如,从行业协会获得的调查数据、政府机构的调查结果、专业调查公司的数据等,这些数据中的客户大多数是潜在的客户,同时由于资料来源的真实性,获得者是无法在购买前完全获知的,因此,许多数据是不真实的,需要做抽样调查,从而提高数据的有效性。

CRM的外部信息主要包括市场需求信息、竞争对手信息、宏观环境信息等。这些外部信息为企业各部门特别是营销部门提供了客户相关信息,在经营决策时作为分析企业外部条件的依据。

6.1.1 内部来源

客户数据的内部来源主要是来自企业内部已经登记的客户信息、客户销售记录、与客户服务接触过程中收集的信息及开展电子商务获取的Web使用信息。另外,很多企业也有意识地组织一些活动来采集客户信息,比如经常采用的有奖登记活动,以各种方式对自愿登记的客户进行奖励,要求参加者填写他们的姓名、电话和地址等信息,这样的一些活动能够在短时间内收集到较大量的客户信息。

这些收集客户资料的方法还包括有奖登记卡和折扣券、会员俱乐部、通过赠送礼品取得信息等。

6.1.2 外部来源

外部信息主要指在企业以外产生但与企业密切相关的各种信息。企业可以通过以下渠道获得这些信息。

(1)数据公司。数据公司专门收集、整合和分析各类客户的数据和客户属性。专门从事这一领域的数据公司往往与政府及拥有大量数据的相关行业和机构有着良好而密切的合作关系。一般情况下,这类公司都可以为直复营销行业提供成千上万的客户数据列表。直复营销(Direct Marketing)是指利用一种或多种广告媒介在任何场所引起可测量的反应或者交易,并将该活动存入数据库的一套可测量的营销系统。在北京、上海、广州、深圳等国内大中城市,这类公司发展非常迅速,已经开始成为数据营销领域的重要角色。

(2)目录营销与直复营销组织。目录营销是指运用目录作为传播信息载体,并通过直邮渠道向目标市场成员发布,从而获得对方直接反应的营销活动。

从事目录营销和直复营销的组织直接给消费者打电话或邮寄产品目录。只要有合适的价格或目的安排,许多这样的公司都愿意分享他们的数据列表。

(3)零售商。一些大型的零售公司也会有丰富的客户会员数据可以获取。

(4)信用卡公司。信用卡公司保存有大量的客户交易历史记录,这类数据的质量非常高。

(5)信用调查公司。在国外有专门从事客户信用调查的公司,而且这类公司一般愿意出售这些客户的数据。

(6)专业调查公司。在消费品行业、服务行业及其他一些行业中,有许多专注于产品调查的公司。这些公司通过长期的积累和合作,通常积累了大量的客户数据。

(7)消费者研究公司。这类组织往往分析并构建复杂的客户消费行为特征,这类数据可以通过购买获取。

(8)相关服务行业。可以通过与相关行业有大量客户数据的公司进行合作或交换的方式获取客户数据。这类行业包括通信公司、航空公司、金融机构、旅行社和寻呼公司等。

(9)杂志和报纸。一些全国性或区域性的杂志和报纸媒体也保有大量的客户订阅信息和调查信息。

(10)政府机构。官方人口普查数据,结合政府资助的调查和消费者研究信息都有助于丰富客户数据列表。政府的行政机关和研究机构往往也有大量的客户数据,如公安户政部门的户政数据、税务机关的纳税信息、社保部门的社会保险信息等。

6.1.3 客户数据的隐私与保护

不管客户数据来自内部还是外部,客户的隐私问题永远是企业应考虑的重要问题,也是客户最为关心的问题。而且随着CRM系统功能的更加强大,这个问题变得更加重要。在一些发达国家,由于一些贸易商、保险公司和政府机构等建立了个人数据的强大数据仓库,所以民众对隐私问题更为关注。如果消费者认为企业对他们的隐私保护得不够,企业的损失将是难以估计的,可以采取以下保护措施。

1.在企业层面保证客户信息的安全性

客户数据可以根据重要性程度分为不同的等级,因此,如果允许各级部门的人员都可以平等地访问企业的统一数据库是危险的。从企业层面而言,必须有一套用户身份、操作权限、业务范围的验证、授权、安全审计策略和系统。应该采取恰当的物理、电子和管理方面的措施以维护和保障客户信息,防止未经授权的访问或泄密,保护数据的准确性,并确保信息的正确使用;在收集和传送敏感数据时,考虑使用加密技术。

2.尊重客户的隐私权

随着企业实施CRM或电子商务的深度和广度的扩展,现在已经出现了诸如对客户数据收集过度、滥用客户数据等侵犯客户个人隐私权的现象。这样,企业必须重新考虑自己的数据收集及使用策略,时时注意不能侵犯到消费者的个人隐私权。

企业在实施CRM的数据挖掘时,必须遵守并使用P3P(Platform for Privacy Preferences,是万维网联盟公布的一项隐私保护推荐标准,旨在为网上冲浪的Internet用户提供隐私保护)标准,在法律允许的范围下,确定收集信息的范围,提供客户访问、查看和更新个人信息的机制,采取合理的措施验证身份,限制不安全的访问;在客户信息的使用时,事前充分告知客户,尊重客户的自主权,使客户能够选择是否接受市场推广或市场调查;企业还有义务保护这些客户信息免遭滥用,未经法律要求和许可或未经客户事先知晓不会把客户信息出售或出租给他人,或与第三方分享客户信息。

比如,当客户接受到针对私人生活中的事件(如孩子的出生时间)或者信息(如治疗客户所患疾病的新药物)的促销行为时,他们会感到担心,不知道自己的隐私外泄程度。因此,当客户数据被用来进行市场定位或评估时,客户对于企业了解他们在做些什么,并且评估他们对促销活动的反应并不太在意。然而,如果他们认为在这些信息的基础上,企业采取了进一步的行动(如修正营销策略)或进行市场目标定位,他们就会不放心了。这可能引起客户的反对和抵制。

3.尽量使用汇总数据

尽管使用的客户数据是匿名的,但它们仍然描述了一个客户的具体信息,因此某些人仍然可能被辨认出来——即使没有姓名、地址或者身份证号中这类明确的标识符。例如,如果知道一个人邮政编码以及他的年龄、地址,那么很快就可以确定他到底是谁了。

要想更好地保护客户的隐私,一个办法是只对汇总数据进行挖掘。例如,根据客户的年龄和性别来划分目标客户群,并考察对这些客户群进行市场促销活动的效果。这时,需要分析的数据是在年龄和性别的不同组合下,客户群对促销活动的响应率和他们的购买量。年龄和性别大约有120种组合(以划分60种不同的年龄来算)。对一个含有100万条记录的客户数据库来说,这意味着平均8000多个客户的购买行为将被合并成一条记录。这样分割的结果是客户的汇总数据仍然可以用来进行数据分析,结果用于市场定位或其他战略方针,同时,个人信息得到了最大程度的保护。

6.2 CRM数据库的构建

6.2.1 数据库简介

数据库技术是进行数据分析的基础,没有数据库技术,也就没有数据挖掘、数据仓库等高级数据分析工具的应用。我们先对数据库技术作一个简单的介绍。

数据库(Database)是按一定的数据模型组织、描述和存储的,有组织、可共享的数据集合,是构成数据库系统的重要部分。数据库技术是在文件系统基础上发展起来的计算机数据管理技术,它有效地解决了数据的独立性问题,实现了数据的统一管理,达到了数据共享的目的。而数据库系统指引进数据库技术后的计算机系统,它实质上是由有组织、动态存储的有密切联系的数据集合,及对其进行统一管理的计算机软件和配件资源所组成的系统。数据库系统将有关部门中反映客观事物的大量信息进行记录、分类整理等定量、规范化处理,并以记录为单位存储于数据库中。在数据库系统的统一作用下,用户通过应用程序向数据库发出查询、统计、打印等命令,以得到满足不同层次需要的各种信息。

数据库系统由硬件系统、数据库、数据库管理系统应用程序和用户组成。

数据库管理系统(DBMS)是指帮助用户建立、使用和管理数据库的软件系统,它由一系列软件系统组成,是数据库系统的最核心部分,一般由数据描述语言(DDL)、数据操作语言(DML)、结构化查询语言(SQL)、向导程序(Wizards)、其他管理和控制程序五部分组成,它具有数据的独立性、共享性、可修改性和扩充性、统一管理和控制、安全保密性等特点。

6.2.2 CRM数据库的特点与构建原则

1.特点

在CRM应用中,数据处理主要集中于客户数据库,与其他类型的数据库相比,客户数据库具有以下一些特点。

(1)动态的、整合的客户数据管理

所谓动态,是数据库能够实时地提供客户的基本资料和历史交易行为等信息,并在客户每次交易完成后,能够自动补充新的信息。所谓整合性,是指客户数据库与企业其他资源的整合,如一线服务人员的终端根据职能、权限的不同,可实施信息查询和更新功能,如客户数据库与公司其他媒体(邮件、电话、互联网)的交互使用等。这些要求是进行客户关系管理的前提条件,在技术实现上已经十分成熟。

(2)有效的客户关系结构

实施忠诚客户管理的企业需要制定一套合理的建立和保持客户关系结构。简单地说,企业要像建立雇员的提升计划一样,建立一套把新客户提升为老客户的计划和方法。例如,零售企业通常采用点数(Points)或购买量决定客户的提升程度。Time-it Lube(特惠润滑油公司)吸引客户的一个格式是提供客户优惠卡——只要客户1年内光顾3次以上,第3次就可以享受比正常价24.95美元低3美元的优惠,第4次可以享受低5美元的优惠。结果,90%的客户成为回头客。这个计划看上去会提高成本,降低收益,但由于生意主要来自老客户和慕名而来的新客户,企业不需要花大本钱做广告。而给老客户寄发提醒通知、提供优惠卡等,比通过广告来吸引新客户花费少得多,因此,这种结构实际上是划算的。

这种格式化结构建立了一套吸引客户多次消费和提高购买量的计划。它不仅是给予客户享受特殊待遇和服务的依据,也有效地吸引客户为获得较高级别的待遇和服务而反复购买。

(3)完善的忠诚客户识别系统

及时识别忠诚客户是十分重要的,在每次客户交易时,给予老客户区别于一般客户的服务,会使老客户保持满意,加强他们的忠诚度。客户数据库的一个重要作用是在客户发生交易行为时,能及时地识别客户的特殊身份,从而给予相应的产品和服务。例如,现在多数航空公司都实行的里程积累计划。对于航空公司的常客,基于数据库的识别系统在旅客购票时及时检查客户已经积累的里程,从而根据客户的级别主动地给予客户等级提升,或给予免费机票等忠诚客户应该享受的服务。

(4)即时的购买行为参考系统

企业运用客户数据库,可以使每一个服务人员在为客户提供产品和服务的时候,清楚客户的偏好和习惯购买行为,从而提供更具针对性的基于数据库支持的客户流失警示系统。企业通过对客户历史交易行为的观察和分析,赋予客户数据库警示客户异常购买行为的功能。如一位常客的购买周期或购买量出现显著变化时,都是潜在的客户流失迹象。客户数据库通过自动监视客户的交易资料,对客户的潜在流失迹象做出警示。例如,特惠润滑油公司的客户数据库在客户超过113天(这个数字已经过该公司多次验证,是客户平均的换油时间)没有再次使用他们的产品或服务,便会自动打出一份提醒通知。

(5)个性化服务

运用客户数据库,可以提供高质量的个性化服务。例如,现在的读者俱乐部都在进行定制寄送,他们会根据会员最后一次的选择和购买记录,以及他们最近一次与会员交流获得的有关个人生活信息,向会员推荐不同的书籍,读书俱乐部永远都不会把同一套备选书籍放在所有会员面前。这样做使客户感到公司理解他们,知道他们喜欢什么,并且知道他们在什么时候对什么感兴趣。这种个性化的服务对培养客户忠诚无疑是非常有益的。

2.构建客户数据库的原则

客户数据库是使用和挖掘客户信息的核心,它的建立是一切数据分析的基础,在建立时应遵循以下几条原则。

(1)适当超前。计算机技术发展日新月异,数据库的设计必须具有一定的前瞻性,不但要满足当前的应用要求,还要考虑未来的业务发展,同时必须有利于扩展或增加应用系统的处理功能。按照可预见未来所需的信息量,尽可能多地考虑预期客户购买产品的情况和购买后的反应。

(2)设计的弹性。一方面,深入研究客户数据库的组成部分,数据类型等,使构建的数据库能够比较详尽地存储客户信息,另一方面,在完善的同时还应保留一定的弹性,以满足未来变化的需要。

(3)灵活应用。建立数据库,特别是建立一个完善的数据库并不是一朝一夕就能完成的事情,对企业来说,不需要因谋求建立一个详细完备的数据库而推迟建成时间,可先建成一个小而实用的数据库,在管理客户数据库中获得经验,并对其评价,不断改进。

(4)必要的参与和讨论。构建客户数据库时,让尽可能多的部门和人员参与。一方面使信息采集科学完备,另一方面让数据库的使用者充分了解设计者的思想。同时在数据库设计完成后,数据小组应与相关人员进行讨论,通过讨论来熟悉数据库,从而对设计中存在的问题进行控制或从中获取数据库设计的必要信息。

6.2.3 客户数据库的更新和保养

数据分析的结果价值高低,取决于数据库内容的质量好坏,如何衡量其质量好坏,主要通过以下一些指标表现。

·数据的准确性。数据来源是否可靠,数据内容是否准确无误。

·数据的时效性。数据是否为最新的。

·数据的详细性。数据对目标客户的说明是否足够清楚。

数据分析是一个不断发展的过程,若数据库资料没有及时更新,对企业而言就等于失去了利用价值。为保证客户数据库信息的有效性和正确性,管理人员平时应及时更新以下信息。

·各种客户交易资料。

·客户反馈信息。

·从其他可靠信息渠道获得的实时资料。

除了要不断补充更新信息、定期删除陈旧过时的信息之外,还要对数据库本身进行维护。

·对现有表格进行增补、更改和删除。

·如果数据库表格经常被替换,需保留一份以前的文件记录。

·根据数据库满足现实工作需要的程度及时作相应的调整改进:如不满足程度小,可对客户模型稍作修改;如不满足程度大,可对客户模型作大的改进;如不满足程度十分严重,对整个数据库的设计就要重新开始了。

总之,数据库建设时必须坚持质和量并重,才能提供在深度、广度上均符合要求的客户数据库。

6.3 CRM数据仓库

企业在管理中常常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;银行想了解存款的用户希望投资什么样的基金;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助……对于此类问题,如果利用现有信息管理系统中的数据分析工具是无法给出答案的。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够获得更高层次的数据分析功能。为此,数据仓库应运而生。

6.3.1 数据仓库理论基础

1.数据仓库定义

数据仓库概念始于20世纪80年代中期,首次出现是在号称“数据仓库之父”William H.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理和维护等方面的深刻认识和不断完善,在总结、丰富和集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。根据该定义,数据仓库具备以下4个关键特征。

(1)面向主题(subject-oriented)。数据仓库通常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。因此,数据仓库排除了对于决策无用的数据,而提供了特定主题的简明视图。

(2)集成(integrated)。数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库和一般文件等。

(3)时变(time-variant)。数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据。

(4)不可修改(nonvolatile)。数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此,其数据相对稳定,极少或根本不更新。

综上所述,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需的信息。数据仓库也常常被看作一种体系结构,通过将一种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告和决策制定。

2.数据仓库的类型

根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW)、操作数据存储(Operational Data Store——ODS)和数据集市(Data Market)。

(1)企业数据仓库(EDW)

一个企业数据仓库为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。

(2)操作数据存储(Operational Data Store——ODS)

ODS是用于支持企业日常的全局应用的数据集合。ODS解决的是“日常”性问题,因而具有引入数据是可变的、数据是当前或近期的两个特点。ODS是面向全局应用,使得ODS中的数据需要面向主题来组织,并且应当是实时集成的。

ODS中的数据按照主题来组织,在企业级上要求保持一致,因此进入ODS的数据必须经过清洗和整理,达到集成和一致性的目的。这也是ODS与原有的数据库系统的区别。

ODS只存放当前和近期数据。同数据库类似,ODS中的数据可以进行增加、删除和更新等操作,而数据仓库中的数据具有稳定性,只增不删,因此ODS与数据仓库也是不同的。

随着ODS的引入,原来的DB(Data Base)-DW(Data Warehouse)是两层体系结构逐步转化成DB-ODS-DW三层体系结构。ODS作为一个中间层,一方面它包含企业全局一致的、细节的、当前的或近期的数据,可以进行全局联机操作型处理;另一方面它又是一种面向主题、集成的数据环境,且数据量较小,适合于辅助企业完成日常决策的数据分析处理。

(3)数据集市

数据集市是数据仓库的一种具体化。它可以包含轻度累计、历史的部门数据,适合特定企业中某个部门的需要。几组数据集市可以组成一个EDW。

随着数据仓库发展的需求,软件工具升级相当快,新产品也层出不穷,为了便于追踪其技术发展和更好地选择相关的工具,数据仓库的构造者应该广泛地收集这方面的文件和数据,以便做出最佳的选择。

3.数据仓库的相关概念

要了解数据仓库,还需要了解数据仓库中的相关概念。

(1)数据的抽取

数据选取的过程称为数据抽取。数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

(2)数据的存储和管理

数据存储是指数据存放的组织形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。

(3)数据的展现

数据展现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。在数据展现方面主要的方式有查询、报表、可视化、统计和挖掘。

(4)元数据

元数据是关于数据的数据。正因为有了元数据,使数据仓库的利用可以更有效。它不仅指定了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息。而且整个数据仓库的运行都是基于元数据的,如修改跟踪数据、抽取调整数据以及同步捕获历史数据等。

(5)数据粒度

粒度是数据仓库中的重要概念。它是对数据仓库中的数据的综合程度高低的一个度量。数据粒度的概括程度不仅影响数据仓库中数据量的多少,而且也决定了数据仓库所能回答的问题种类和详细程度。一般来说,粒度越小,综合程度越低,则回答问题的能力就越强,回答的种类就越多。

在数据仓库中,多重粒度是必不可少的。由于数据仓库是用于决策分析的,因此,其绝大多数的联机分析都是基于一定程度的综合数据之上的,而只有极少的查询涉及细节。将不同粒度的数据加以区分,并选用不同的存储方式对提高系统的性能非常有利。

(6)数据分割

数据分割是指将数据分散到各自的物理单元中去以使能够分别独立处理,以提高数据处理的效率。在进行实际的分析处理时,往往根据数据的某种相关性来进行分割。例如,根据时间段的数据分割,根据地区范围的数据分割,根据商品类型的分割。数据经过分割后的数据单元称为数据分片,数据分片内的数据相对独立,处理起来更快,同时也更容易索引、重组和恢复。

6.3.2 CRM中的数据仓库

CRM系统是以最新的技术为手段,运用先进的管理思想,通过业务流程与组织的深度变革,帮助企业最终实现以客户为中心的管理模式。数据仓库技术可以说是CRM系统中的中心环节,从某种意义上来讲甚至是CRM系统的基础。在CRM中引入客户信息数据仓库,实现了来自企业内部和外部的多种不同来源的相关客户信息的集成和统一。

1.CRM数据仓库的作用

在开放的商业环境下,商家的客户范围越来越庞大,商家拥有的客户数据也越来越多,商家更关心的是如何利用这些数据。数据仓库的应用解决了这个问题。数据仓库是客户关系管理中的一项重要技术。在客户关系管理中,数据仓库主要有以下几方面作用。

(1)保留客户

目前,公司都面临着客户流失问题,保留客户也就成了市场竞争的一个重要内容。在客户中,并不是所有的客户都有保留价值。因此,要通过数据仓库中的数据,分析出最具价值的客户,并针对这些客户制定相应的保留客户政策。

(2)降低管理成本

对于企业来说,管理大量的客户数据也是一项工作量庞大的工作,数据仓库的应用使数据的统一、规范管理成为可能,同时提供了快速、准确的查询工具。这可以大大降低企业的管理成本。

(3)分析利润的增长

数据仓库不但记录当前数据,还记录了大量的历史数据。可以通过历史趋势发现产品销售与客户关系管理的关系以及利润增长同客户关系管理的关系。分析利润增长的最终目的还是促进利润增长。

(4)增强竞争优势

数据仓库的应用使得企业有更快的市场适应能力。企业通过历史数据分析市场变化趋势,特别是客户需求的变化趋势,可以及时改变产品性能以适应客户需要,这就抢占了先机,巩固并增强了企业的竞争优势。

2.基于数据仓库的CRM模型

由于CRM系统本身存在的需求以及数据仓库技术所能发挥的重要作用,越来越多的CRM提供商将这一技术融合到CRM系统中去的基于数据仓库技术的CRM模型具有决策支持能力,结合了数据仓库、OLAP、数据挖掘、模型库、知识库、方法库等技术。

3.数据仓库技术在CRM模型实施中的应用

数据仓库技术在CRM模型实施中的应用可以简单地归纳为4个阶段:评估阶段、计划阶段、执行阶段和反馈调整阶段。

评估阶段就是综合运用企业内部运行数据和外部市场数据等各种信息来源,开发出一个针对某种特定客户行为的CRM框架。在这个阶段中,由于数据仓库技术是一个面向主题的、集成的、稳定的,反映时间变化的数据集合,采用数据仓库技术可以对已有的数据和从其他渠道获得信息进行转换和综合处理,汲取相关的有价值信息,分析并预测特定目标客户的行为特征,帮助决策层调整宏观的CRM框架,为下一步实施做好准备。

计划阶段的主要问题是如何制定营销战略,来最好地达到客户要求。

执行阶段涉及具体的客户信息数据仓库的构建以及客户信息数据仓库中客户数据模型的设计,是整个过程中极为关键的一步。企业在其以往的经营过程中积累了大量的客户数据,并且每时每刻还在纳入大量的相关信息,如何管理和利用这些海量的数据成为这个阶段的一个首要问题。设计一个适合企业的客户数据模型可以帮助企业有效地管理客户信息数据,得到企业不同层次客户的准确清晰的描述。根据客户数据模型,管理人员可以把目前以及将来的具体企业客户按照具体的客户指标归入相关类型,注入数据仓库内,形成一个以客户信息为主题的客户信息数据仓库。

反馈调整阶段是在CRM模型投入到实际运行以后,所必需的维护调整工作。在企业的运行过程中,其内部情况和外部环境都会随着时间发生变化。为了使CRM系统始终处于最优状态,就需要管理人员能够根据客户信息数据仓库的综合信息以及各种分析工具提供的分析结果及时调整CRM模型,使其适应不断变化的环境,发挥最佳的作用。

4.数据仓库应用的效益分析

数据仓库的设计开发是一个复杂的过程,它需要投入大量的时间和巨额资金,同时还要承担很大的风险。那么在数据仓库应用之后,如何分析它的应用效益呢。

(1)数据仓库的成本

·初始成本。数据仓库的初始成本包括如下部分:硬件设备;包含所需功能和特征的信息处理软件工具;元数据目录或构造它的成本;用于管理查询环境初始语义层的估计成本;访问和安全性控制设置;数据访问驱动器,或中间件的购买;中间件的初始安装费用,用户和管理员培训;初始启动和检验;预定义报表和查询生成等。

·后继成本。是指许可证、服务商的维修费、启动及维护系统运行的花费,主要有软件更新、升级和中间件维修费;网络通信费;信息技术的利用和支持;信息专家的利用和支持;性能管理和调度,多层分区的调整,以及创建并维护索引;通过中间件进行数据访问时,为维护而需要增加的复杂性和花费;支持商业用户的咨询机构等。

(2)数据仓库的价值和效益

数据仓库的价值和效益可以从以下几个方面来分析。

·成本/效率决策支持

数据仓库可从产品系统中下载报表和即席查询。商业用户不再需要信息技术专家的支持。当提供集成的、简洁的、一致的数据时,便于增设报表,提高查询质量和可靠性。

·重组织应用系统

数据仓库技术使得企业的实际业务系统能够进行重新组织,以提高效率。在某些环境下,将产品系统和数据仓库分开,可清除产品生命周期中的无用历史数据,并改进企业系统结构,提高产品数据质量,增强产品系统的生命力。

·商业活动工程

数据仓库可评价商业和组织的竞争力。外部数据集成提供了评价和分析竞争力的依据。使用数据仓库有助于业务经理了解企业的商业特性,分析利益增长点,改变商业竞争策略。

·客户服务的提高

数据仓库中记录了详细的客户信息,通过对客户资料的分析,可以针对不同的用户提供更恰当的服务。同时达到保留客户增加利润的目的。因此,是否为客户提供了更好的服务也是数据仓库实施效果好坏的评价标准。特别是对于销售型企业,客户服务质量的提高是建设数据仓库的一个最基本的目标。

6.3.3 多维数据库与联机分析处理(OLAP)

多维数据库(Multi Dimensional Database——MDD)体现的是数据间多对多的关系。而在关系数据库中,只能反映数据间一对多的关系。采用多维数据库存储数据,不但可以节约大量空间,也能更好地反映数据间的关系。

联机分析处理(OLAP)是一种用于组织大型商务数据库和支持商务智能的技术。OLAP数据库分为一个或多个多维数据集,每个多维数据集都由多维数据集管理员组织和设计,以适应用户检索和分析数据的方式,从而更易于创建和使用所需的数据透视表和数据透视图。

1.多维数据库的基本概念

在多维数据库中,有维、维的层次、维成员、多维数据集、数据单元、多维数据集的度量值等基本概念。

(1)维

维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着时间推移而产生的变化情况,这是从时间的角度来观察产品的销售,所以时间就是一个维度(时间维)。企业也时常关心自己的产品在不同地区的销售分布情况,这是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维)。

(2)维的层次

人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的层次。一个维往往具有多个层次,例如描述时间维时,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年就是时间维的层次。同样,城市、地区、国家等构成了地理维的多个层次。

(3)维成员

维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的维成员是在不同维层次的取值组合。例如,我们考虑时间维具有日期、月份、年这三个层次,分别在三个层次上各取一个值,就得到了时间维的一个维成员,即“某年某月某日”。

(4)多维数据集

多维数据集是决策支持的支柱,也是OLAP的核心,有时也称为立方体或超立方体。OLAP展现在用户面前的是一幅幅多维视图。多维数据集可以用一个多维数组来表示,例如,经典的时间、地理位置和产品的多维数据集可以表示为:(时间,地理位置,产品,销售数据)。可以看出,在多维数据集中可用(维1,维2,维n,观察变量)的方式进行表达。对于三维数据集可用的可视化方式表达得更清楚,但在多维结构中并不是要观察维度结构,而是观察由维结构所描述的观察变量。也就是说,要在这三维结构上再添加销售数据,这就得到了一个由三维所对应的销售数据。实际上也就是一个四维结构,当然这种四维结构很难用可视化的方式表达清楚。我们可以用一个四维表的方式来显示那些超三维的多维数据集。

(5)数据单元

多维数据集的取值称为数据单元。当在多维数据集的每个维都选中一个维成员以后,这些维成员的组合就唯一确定了一个观察变量的值。数据单元也就可以表示为:(维1维成员,维2维成员,维3维成员,维4维成员,观察变量值)。例如,在产品、时间和销售地区维度上分别选取了“产品A”、“2005年”和“中国”,就唯一确定了观察变量“产品销售值”的一个值(1 000),这样该数据单元可表示为:(产品A,2005年,中国,1 000)。

(6)多维数据集的度量值

在多维数据集中有一组度量值,这些值是基于多维数据集中事实表的一列或多列,这些值应该是数字。度量值是多维数据集的核心值,是最终用户在数据仓库应用中所需要查看的数据。这些数据一般是销售量、成本和费用等。

2.联机分析处理(OLAP)

1993年,有“关系数据库之父”之称的E.F.Codd首次提出了OLAP(On-Line Analytical Processing)的概念。OLAP是专门用于支持复杂的决策分析,支持信息管理和业务管理人员决策活动的一种决策分析工具。它可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并以直观的、容易理解的形式将查询结果提供给决策人员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。

其中包含以下5个关键特征:

·多维。这是OLAP的基本特征,可以提供对数据的多角度综合查询、统计和分析。

·快速。必须以相当固定的速度向用户提交信息,大多数查询应当在5秒或更短时间内提交给用户。

·分析。可以执行由应用程序开发人员预定义或由用户特别定义的对数据的查询和统计分析操作。

·共享。必须满足在大量用户间实现共享秘密数据所必需的安全性需求。

·信息。可以透明地访问应用程序所必需的、相关的所有数据和信息,而不受它所在的物理位置的限制。

与联机分析处理相对的概念是联机事务处理(On-Line Transaction Processing——OLTP),它是传统的关系型数据库的核心应用,主要执行基本的插入、删除等联机事务和查询处理,其基本任务就是及时、安全地将当前事务所产生的记录保存下来。在大多数情况下,OLTP涵盖了一个组织的大部分日常操作。例如,在一个银行交易管理系统中,每天的大量操作都限于增加新账号、删除旧账号、更改账号中的金额数据、查询各户账号余额等,这些都是OLTP负责实现的功能。

3.多维数据模型上的OLAP操作

OLAP技术的核心是多维分析。OLAP的多维分析是指对多维数据集中的数据用切片、切块、旋转、钻取和卷取等分析方式分析数据,使用户从多个角度、多个侧面去观察数据仓库中的数据。这样才能深入地了解数据仓库中数据所蕴涵在后面的信息,才能使用户深入地挖掘隐藏在数据背后的商业模式。

(1)切片

在多维分析过程中,如果要对多维数据集的某个维选定一维成员,这种选择操作,就可以称为切片(Slice)。也就是说如果有(维1,维2,……维I,……维n,观察变量)多维数据集,对维I选定了某个维成员,那(维1,维2,……维I成员,……维n,观察变量)就是多维数据集(维l,维2,……维i,……维n,观察变量)在维i上的一个切片。这种切片的数量完全取决于维i上的成员个数,如果维数越多,可以做的切片越多。很显然,这个切片,不一定是我们想象中的一个二维的“平面”切片。切片的维数取决于原来多维数据集的维数。只有在多维数据集是三维的情况下,才能获得一个二维的“平面”切片。

在切片的概念中,有两个重要的概念必须掌握:一个是多维数据集的切片数量多少是由所选定的那个维的维成员数量的多寡所决定的,另一个是进行切片操作的目的是使人们能够更好地了解多维数据集,通过切片的操作可以降低多维数据集的维度,使人们能将注意力集中在较少的维度上进行观察。

表示了一个数据切片动作。在数据立方体上,在地点维上取一个特定取值,得到一个在地点维上的切片。

(2)数据切块

与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操作可以称为切块(Dice)。即在(维1,维2,维i,……维k,……维n,观察变量)多维数据集上,对维i,……维k,选定了维成员,那(维l,维2,……维i成员,……维k成员,……维n,观察变量)就是多维数据集(维1,维2,维i,……维k,……维n,观察变量)在维i,……维k上的一个切块。很显然,当i=k时,切块操作就退化成切片操作。实际上,切块操作也可以看成进行多次切片操作以后,将每次切片操作所得到的切片重叠在一起而形成的。

(3)数据钻取和聚集

数据钻取也叫数据下钻,是由概括的数据到详细的数据的过程。数据钻取对应于维的层次,它是由维的高层次展开到低层次的一个动作。比如,由“年”数据下钻到“季度”数据,这无疑会增加数据细节和数据量,得到更详细的数据。

数据聚集又叫数据上卷,它是数据钻取的逆过程。数据聚集是将详细的数据聚集为较概括的数据,它是一个综合数据的动作。

图的左侧存放的是1998年各地区的销售值。当从时间维的季度层察看时,得到1998年各个季度中各地区的销售数据,则执行的操作为钻取。反之,则执行的操作就是聚集。

(4)数据旋转

数据旋转即变换维度的位置,也就是转动数据的视角,给用户提供一个从不同的角度观察数据的方法。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去,就是把的横向维由时间变为地区,纵向维由地区变为时间所形成的旋转结果。

4.多维数据仓库中度量的建模

多维数据仓库的创建和维护所使用的技术与传统数据仓库有显著的不同。传统数据仓库在处理多维数据方面存在着较大的局限性,需对其进行结构和功能上的扩展,才能较好地用在多维决策分析方面。

设计和建立数据库是成功地创建数据仓库的一个关键步骤,这一步涉及的数据来自多种数据源并且要把它们合并成一个单独的逻辑模型。不像OLTP系统那样以高度的正规化形式存储数据,数据仓库中存储的数据以一种非正规化的形式存储数据以便提高查询的性能。数据仓库常常使用星形模式和雪花形模式来存储数据,作为OLAP工具管理的基础,以便尽可能快地响应复杂查询。相比之下,星状结构更为简洁,便于OLAP工作,并易于浏览,较雪花结构更适合于多维数据仓库的建模。下面就两种存储模式分别说明数据仓库中度量的建模。

(1)星形模式

星形模式是最流行的实现数据仓库的设计结构。星形模式通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来执行典型的决策支持查询。一旦创建了事实表,那么可以使用OLAP工具预先计算常用的访问信息。

星形模式是一种关系型数据库结构,在该模式的中间是事实表,周围是次要的表,数据在事实表中维护,维度数据在维度表中维护。每一个维度表通过一个关键字直接与事实表关联。维度是组织数据仓库数据的分类信息,例如时间、地理位置、组织等。维度用于父层和子层这类分层结构。例如,地理位置维度可以包含国家、城市等数据。因此,在该维度表中,维度由所有的国家和所有的城市组成。为了支持这种分层结构,在维度表中需要包括每一个成员与更高层次上维度的关系。维度关键字是用于查询中心事实表数据的唯一标识符。维度关键字就像主键一样,把一个维度表与事实表中的一行链接起来。这种结构很容易构造复杂的查询语句,并且支持决策支持系统中向下挖掘式的分析。事实表包含了描述商业特定事件的数据。例如,银行业务或者产品销售。事实表还包含了任何数据合计,例如每一个地区每月的销售情况。一般地,事实表中的数据是不允许修改的,新数据只是简单地增加进去。维度表包含了用于参考存储在事实表中数据的数据,例如,产品描述、客户姓名和地址、供应商信息等。把特征信息和特定的事件分开,可以通过减少在事实表中扫描的数据量提高查询性能。维度表不包含与事实表同样多的数据,维度数据可以改变。

通过降低需要从磁盘读取数据的数据量,星形模式设计有助于提高查询性能。查询语句分析比较小的维度表中的数据来获取维度关键字以便在中心的事实表中索引,可以降低扫描的数据行。

以下从工业企业销售管理数据仓库和保险业务多维数据仓库的需要分析一下星状模型的构建模式。

·以销售机会作为一个主题,可以同其他几个维表组成一个星状的关系结构,表中粗略表示出各维之间的联系。

星形数据关系模型中的事实表包含了所有纬度表的外键(Foreign Key),这些外键指向各纬度表的首键(primary Key)。利用星链接(Star Join)星形数据关系模型可以大大提高查询速度,主要原因如下。

(a)在事实表中每个纬度都有深度索引。

(b)查询先在体积小得多的维度上过滤很大的事实表,从而首先获得较小的相关数据集。

这相对于单纯从一个很大的数据表中利用单个SQL语句查询来说显然要有效得多。

·以保险公司业务为主题来考虑维的构建,数据仓库中定义4个维:时间维、部门维、保险种类维、地理维。其中时间维、部门维和保险种类维属于非空间维,地理维属于空间维。事实表中包括4个度量:保费、保额、赔款和地理指针。其中,保费、保额和赔款是数值型度量;地理指针为一个空间度量,代表指向地图上相应区域的空间指针集合。

(2)雪花模式

雪花模式是星形模式的一种扩展形式。在这种模式中,维度表存储了正规化的数据,这种结构通过减少磁盘读的数量而提高查询性能。维度表分解成与事实表直接关联的主维度表和与主维度表关联的次维度表,次维度表与事实表间接关联。雪花模式的结构。

在一般的多维数据仓库中,利用雪花模式的建模并不是很多。

6.4 CRM数据挖掘

数据挖掘是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术。它是从大量的、随机的数据中筛选出隐含的、可信的、新颖的、有效的信息的高级处理过程。

数据挖掘是面向事实的。在数据挖掘中,数据分为训练数据、测试数据和应用数据三大部分。而这三部分的比例依据经验来确定(如1:1:8)。数据挖掘力图在训练数据中发现事实,并以测试数据作为检验和修正理论的依据,最后把知识应用于数据中。数据挖掘的关键性思路为实事求是。“实事”即“数据”,“求”就是去发现、去挖掘、去探索,“是”即数据中隐藏的规律。

6.4.1 数据挖掘的含义

由于观点和背景的不同,各种研究机构对数据挖掘有着不同的定义。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括四层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解和可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

何为知识?从广义上理解,数据、信息也是知识的表现形式,但人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

数据挖掘作为知识发现的过程,分为三个主要阶段:数据准备、数据挖掘、结果评价和表达。知识的发现可以描述为这三个阶段的反复过程。

6.4.2 CRM中数据挖掘的分析技术

在CRM中,需要借助大量的知识和方法,把表面的、无序的信息整合,揭示出潜在的关联性和规律,从而用于指导决策。比较典型的数据挖掘方法有关联分析、序列模式分析、分类分析、聚类分析等。它们可以应用到以客户为中心的企业决策分析和管理的各个不同领域和阶段。