[摘要] 随着国内加息周期的到来,商业银行过于依赖利差与公司业务的利润增长模式将难以为继。本文在商业银行人民币个人理财业务不断发展的基础上,探讨了客户群与人民币个人理财产品(服务)之间的最优匹配规则与其算法设计,提出了一个基于商业银行客户服务挖掘的研究模式及其相关算法,为商业银行客户服务管理提供了一种新的思路。
[关键词] 服务匹配;人民币理财;客户服务挖掘
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 024
[中图分类号]F830.33 [文献标识码]A [文章编号]1673 - 0194(2011)14- 0038- 05
1 引言
从2010年末到2011年初,央行连续三次的加息与提高银行存款准备金率,标志着2011年的信贷紧缩周期正式开始。另外据北京银联信投资顾问有限公司2009年的统计数据显示,信贷业务和公司业务占据银行总体收入90%以上,因此银行的利润空间进一步缩小[1]。同时,银行的人民币个人理财产品存在同质化严重与供过于求的状况[2]。本文认为,银行可以通过提升人民币理财产品的客户服务水平,使其成为银行新的利润增长点,最终为银行提供一种新的客户服务管理思路。
随着原有国有商业银行的股份制改造和大量新兴商业银行的崛起,客户服务管理已成为商业银行经营管理的核心环节之一。例如,上海浦东发展银行南京分行荣获“2010年度金融服务最佳银行”殊荣。它以“新思维 心服务”为宗旨,建立了以服务树品牌的理念。但是人民币个人理财产品在客户服务领域依然存在较多的困难。目前在银行内部,客户服务管理的水平参差不齐,客户服务管理信息化水平有限,且现有的商业银行分级授权经营模式存在资源缺乏共享性的问题[3]。同时,“20/80”定律在银行客户管理中普遍存在,20%的优质客户可以给银行带来超过80%的利润,且这些优质客户具有较强的动摇性。这一点在同质化严重的人民币个人理财业务方面体现得尤为明显。
本文以商业银行人民币个人理财业务为基础,建立一个基于客户行为分析的客户群与服务之间的最优匹配规则模型与求解算法,在银行客户服务管理信息系统中建立一个从客户群到服务之间的桥梁,同时为人民币个人理财产品的市场营销提供一种全新的思路,具体表现在银行所推荐的理财产品能比较合适客户当前的需求,进而提升理财产品的销售业绩,为银行业过于依赖利差收入和公司业务收入问题提供解决方法。
2文献综述
2.1 银行客户服务挖掘现状
目前,在银行客户服务管理方面,普遍基于客户自然属性来实现客户划分,并在此基础上进行数据挖掘方面的研究;亦有部分研究是以客户忠诚度为标准实现客户群划分[4],以此为基础,主要研究客户群与产品(服务)之间的匹配关系。但是这种研究存在一个比较现实的问题,即某一个客户个体的具体行为可能与其自然属性所对应的行为不一致[5]。经过多次实地调研发现,大部分银行在实际运用中存在不同的局限性。例如,在客户群与银行各类产品服务的匹配上,匹配方法更多是从管理者的主观认识出发,数据挖掘程度有限。同时,基于客户自然属性划分的客户群相对固定,在客户的个性化服务方面较依赖支行客户经理的经验与知识储备。在客户个性化服务领域,招商银行的水平在国内相对领先,尤其是它率先提出私人银行的理念与应用[6],但其个性化服务依然是以客户经理的经验为主,辅以数据挖掘技术。
2.2 最优服务匹配在其他领域应用现状
最优服务匹配相关算法研究在国内其他产业领域的应用水平在逐步提高。杨胜超、张瑞军通过运用基于二分图的Kuhn-Munkres算法,以学生的题目预选、自命题、未定题等多种情况增加学生对题目的整体满意度,完成题目与学生的智能匹配[7]。吕巍利用K-means方法对中国移动市场顾客行为细分进行了研究,为顾客细分提出了一种比较适用的分析方法[8]。张红梅、夏南强通过分析零售业应用数据挖掘的背景,给出了数据挖掘在零售业中的典型应用,并总结了实施数据挖掘项目的基本流程[9]。各领域对于最优服务匹配规则的应用与发展是参差不齐的,而适用性与精确性的限制导致最优服务匹配规则在银行业中的应用一直处于尝试阶段,银行业现阶段距离理想化的客户服务挖掘依然有很长的路要走。基于此,本文试图为客户服务挖掘在银行领域的应用做一些尝试与探讨,特别是为基于客户服务挖掘的客户个性化服务做先导性研究与尝试。
3基于客户行为的客户群划分和客户特征因子的提取
3.1 客户行为指标体系与客户信息库
客户行为指标体系是基于客户行为分析而确定的,用来描述客户行为特征的一系列指标。在客户行为指标体系中,有两类指标:一类指标是客户的自然属性,例如客户的姓名、年龄、职业等;另一类则是客户行为特征属性。在基于客户行为分析的指标体系中,客户行为特征属性是最主要的,而客户的自然属性较为次要。对于客户行为的特征属性,一般是从客户的交易行为中分析统计得到,例如客户的资产金额(本行)和风险偏好等。客户指标体系建立的基础是客户的自然属性与行为特征属性的影响权重。只有确定了影响权重才能实现建立客户指标体系,因为客户指标体系并不是两类属性的简单合并,而是从两者中抽取某些权重比较大的作为指标体系的一部分。权重的确定是依据银行的具体要求,要求越细致,权重选取下限越低。
客户信息库则是一个基于客户行为指标体系而建立的数据库,用于存储客户的自然信息与行为信息。在建立数据库时,必须按照关系规范化理论来实现。
3.2 服务指标体系与标准服务库
服务指标体系是用来描述服务或产品特征的一系列指标。服务指标体系中的各项指标应从每种服务的自身属性中分析得出。由于服务是相对固定的,因此服务指标体系主要是基于服务的自然属性。由于银行的客户服务是以客户为中心的,因此服务指标体系的建立亦应以客户的需要为中心,即基于客户行为指标体系。否则,在后续模型建立中将无法实现客户与服务的匹配。在客户行为指标体系与服务指标体系的对应关系上,主要是在客户行为与产品特征方面。例如与客户行为指标体系的“风险偏好”对应的是服务指标体系的“风险程度”。
标准服务库是存储服务特征集的数据库。因此,标准服务库必须遵循数据关系规范化理论的要求。在建立时,依据银行产品的物理特性、服务指南和所属行业规则,演化出该类产品所有可能的元服务项目,建立元服务项目集。依据服务指标体系对元服务项目集进行演化,得到标准服务库。
3.3 基于云模型的软划分方法
基于云模型的软划分方法,对指标化后的客户信息与标准服务信息中的属性值进行定性化处理。基于云模型的软划分方法最早由王虎于2009年提出[10]。与软划分方法相对应的是硬划分方法。硬划分方法,即人为地定义划分标准,因此缺乏必要的模糊性。而软划分方法则将推理过程中的模糊性与随机性结合起来,可以使得划分更加合理,转换更加自然。
在完成了客户信息库与标准服务库的建立后,大量的数据通过各种手段的演化进入这两个数据库中。由于在客户群划分方法中需要对两个数据库中的定量数据进行定性化分析,因此通过前文所述的基于云模型的软划分方法来对库中各属性进行定性描述。
调用逆向云算法,对客户信息库中的各类定量数据,例如客户年龄,进行求解,得出期望、熵、超熵,即(Ex, En, Hn)。基于(Ex, En, Hn),调用正向云算法确定各属性的合理定性划分上下限。基于已划分的上下限,对数据进行定性化描述。依据定性数据的特点,对其进行离散数值描述。
3.4 基于K-means算法的客户群聚类
目前已有大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和应用。本文利用K-means算法对人民币个人理财用户行为进行聚类分析。基于K-means算法的客户群聚类如图1所示。
在K-means算法中,K值的确定可以依据两个数据不相似性阈值ε来进行求解。当ε的值为零时,每个数据点均作为初始中心,因此总能找出一个满足条件的ε值 。确定ε的取值后,就可以确定聚类的数目和初始点的选取[11]。对于K值的确定与初始点的选取算法如下。
建立客户集P{x1,x2,…,xn}并设定度量两个数据不相似性阈值ε。从数据集P中取出一个点x1作为第一个类的中心:k=1,yk=x1。依据此,执行下列代码,得到k个初始聚类中心Q{y1,y2,…,yk}。
for i = 2 to N
{
d(xi,ym) = min1≤j≤kd((xi,yj);
if d d(xi,ym)> ε then
{
k = k + 1;
yk = xi;
}
else
{
i = i + 1;
}
}
在完成K值和聚类中心的确定后, 为客户指标体系中各个指标(除主键外)建立空间向量模型,将每个客户的信息向量化,计算每一个客户指标向量到K个初始凝聚客户指标向量的空间距离,将每个客户指标向量和最近的凝聚客户指标向量分到一组,形成K个初始客户群;计算这K个初始客户群的重心(或均值),作为新的凝聚点,重新计算每一个客户指标向量到初始客户群重心的空间距离,将每个客户指标向量和最近的客户群重心分为一组,形成K个二次客户群。重复进行步骤2和步骤3,直至每个新客户群的重心与上一个客户群重心之差收敛与零,即客户群重心没有明显转移为止,则完成客户群聚类,否则重新确定客户群重心,再求空间距离。
3.5 基于关联规则的Apriori算法实现客户群共性特征因子和客户个性特征因子的提取
Apriori算法是发现关联规则领域的经典算法,在本文中应用于客户群共性特征因子和客户个性特征因子的提取。Apriori算法将发现关联规则的过程分为两个部分。首先通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;再利用频繁项集构造出满足用户最小信任度的规则。计算方法如下。
为找客户群的频繁项集Lk,通过Lk-1与自己连接产生候选k-项集的集合,将候选项集的集合记作Gk。设l1和l2是lk-1中的项集。记号li[j]表示li的第j项。假定客户群中的各个指标按字典次序排序,执行连接Lk-1。其中如果客户群中的前(k-2)个指标相同,则Lk-1的元素l1和l2是可连接的。算式表达即式(1)。
(l1[1]=l2[1])∧(l1[2]=l2[2])∧…∧(l1[k-2]=l2[k-2])∧(l1[k-1]=l2[k-1]) (1)
所以,连接l1和l2产生的结果项集是l1[1]l2[2]…l1[k-1]=l2[k-1],其中l1[1]l2[2]…l1[k-1]=l2[k-1]保证不产生重复。
Ck是Lk的超集,可以理解成Lk的扩充,但所有的频繁k-项集均包含在Ck中。通过扫描数据库,计算Ck中项集的支持度,并与最小支持度进行比较,确定Lk。在确定Lk后,Lk中的频繁项即客户群的共性特征因子,其与客户群特征因子的差集即客户个性特征因子。
4 最优匹配规则模型与修正方法
4.1基于二分图的Kuhn-Munkres算法实现最优匹配模型
Kuhn-Munkres算法是Kuhn和Munkres分别于1955年和1957年独立提出来。Kuhn-Munkres算法是求解二分图最优匹配的经典算法。首先,先对二分图进行定义。
定义1 如果图G=(V,E)的顶点集合V可分为两个集合X,Y,且满足X∪Y=V,X∩Y=?准,则G称为二分图[12]。
其中,图G的边集用E(G)表示,点集用V(G)表示。由于在二分图中边集E(G)中存在多条边,这些边是点集V(G)中的某两个点之间的关系,且每条边均有其自身的权重。在此,可以通过运算求解出其中最优的匹配关系。下面是最优匹配的定义。
定义2有二分图G=(X,Y,E),其中|X|=|Y|=匹配数,E中每条边 (Xi,Yj)有权Wij≥0,若能找到一个匹配M(|M|=匹配数),满足所有匹配的边权和最大(或最小),则称M为G的一个最优匹配。基于二分图的Kuhn-Munkres算法示意图如图2所示。
由于Kuhn-Munkres算法可以实现对二分图中最优匹配的求解(其中m=n),因此,可以将它运用到解决银行中客户群与服务之间的最优匹配问题。下面是利用Kuhn-Munkres算法实现客户群与服务间最优匹配的计算方法[13]。
Gm,n=(Om,In,E)为一个二分图,Om表示客户群的集合,Ln是标准服务的集合,E是两者边的集合。其中,Om=(o1,o2,…,om),In=(i1,i2,…,in),E=(e11,e12,…,emn),Si,j(oi,ij)是任意边的相似度,即eij=Sij(oi,ij)。eij=Sij(oi,ij)即某个客户群与某个产品之间的相似度,即两者的空间距离的相似度表示值。
步骤1:给出初始标号,l(oi)=,maxSij(oi,ij),l(ij)=0,其中i,j=1,2,…,t;t=max(n,m);
步骤2:利用Hungarian算法求解边集Ei={(oi,ij)|l(oi)+l(ij)=sij(oi,ij)},Gi=(Om,In,Ei))及Gi中的完备匹配M;
步骤3:若M是Gi中的完备匹配,则M即是G的最优匹配,计算结束,否则进行下一步;
步骤4:在Om中找M的非饱和点o0,令以A←{o0},B←?准,A,B是2个集合;
步骤5:若PGi(A)=B,则转步骤9,否则进行下一步,其中PGi(A)?哿In,是与A中结点邻接的结点集合;
步骤6:找一结点i∈PGi(A)-B;
步骤7:若i是M饱和点,则找出i的配对点z,令A←A∪{z},B←B∪{i}转步骤5,否则进行下一步;
步骤8:存在一条从o0到i的可增广路径R,令M←M?茌E(R),转步骤3;
步骤9:按式(2)计算α值:
修改标号,根据公式(3),用l′求Ei,及Gi;
l′(v)=l(v)-α,v∈A,l(v)+α,v∈B,l(v),其他。(3)
步骤10:l←l′,Gl←Gi,转步骤6。
通过Kuhn-Munkres算法可以实现对客户群与产品之间的整体最优匹配效果,尽可能实现客户群的最优匹配,为银行的客户群与产品之间建立一个准确的、能为银行带来更多利润的映射关系。通过智能化算法更可以提升匹配效率,降低成本。
4.2 客户个性特征因子与亚元服务项目集匹配修正方法
基于客户群与服务的最优匹配建立的亚元服务项目集,可以尝试利用客户个性特征因子对其进行个性化修正,实现对客户个体的个性化服务匹配。本文尝试基于逆向选择的遗传算法来实现对亚元服务项目集的修正。遗传算法的基本思路是对种群的不断进化,实现对种群中个体的“优胜劣汰”,最终得到有最大适应度的个体作为最终种群。逆向选择则是在完成若干轮种群进化后,选取“被淘汰”的个体组成待处理集。然后对待处理集中的个体与其他种群进行匹配分析,测试其适应度。若其适应度符合不被“淘汰”的要求则建立这些个体与新的种群间的映射关系。修正方法如下。
用某客户群内的客户个性特征因子来计算该客户在该客户群中的适应度。在客户群进化过程中,采用排序选择方法,将适应度低的客户个体排除出该客户群。在客户群进化时不进行交叉和变异。经过若干轮的进化,将排除出原客户群的客户与其他客户群进行匹配并测试其适应度。若适应度良好则建立该客户与其他客户群所对应服务的映射关系。若无法找到适应度良好的客户群,则进行人工分析处理。
目前逆向选择遗传算法仍处于机制与模型研究阶段,本文未提出与之相适应的具体算法模型。
5基于人民币个人理财产品的实证研究
5.1 数据来源与数据统计分析
实证研究数据来自国内Z银行某支行从2009年7月1日至2009年12月31日的人民币个人理财业务交易数据和同时期的人民币个人理财产品信息。其中包含客户210人,分两批进行实证分析。下文中以第一批数据为例,部分数据如表1、表2所示。为了方便描述,客户与产品名称均已编号。
对交易记录进行整理,将产品名称与产品信息进行关联,再依据关系规范化理论处理数据表,令其符合规范化理论格式。然后对数据进行分类汇总,将零散的交易数据汇总成交易统计数据。
5.2 指标体系与数据库建立
建立客户行为指标体系和服务指标体系。客户行为指标体系中有客户编号、性别、年龄、风险偏好、持有时间和购买能力。服务指标体系中有产品名称、风险级别、投资期限和投资水平。客户指标体系中的风险偏好,通过对客户购买各类产品的历史数据,分析出其习惯性风险偏好;持有时间,即客户发生买与卖两次交易行为的时间差;购买能力,通过对客户在半年时间内的交易行为进行统计,以客户的平均交易额来评价。服务指标体系中的风险级别由银行风险评级系统获取;投资期限从产品信息中获取;投资水平由初始投资额与追加投资递增百分比加权确定。建立标准服务库与客户信息库,并利用基于云模型的软划分方法,对数值属性进行区间划分。结果如表3、表4所示。
根据K-Means算法建模计算得到的客户细分模型数据,我们对该聚类模型中的参数进行特征分析,最后得到14个客户群。如表5所示。
在得到客户群后,还要对数据进行挖掘,找出每个客户群中的共性特征因子和个性特征因子。根据Apriori算法在银行客户群分析中的应用研究,挖掘出客户群中客户群共性特征因子与客户个性特征因子,为客户选择不同的服务提供参考依据。结果如表6所示。
挖掘出客户群共性因子后,进行元服务项目集与客户群的共性特征因子的最优匹配。通过基于二分图的Kuhn-Munkres算法来求解该问题。将客户群共性因子与服务进行匹配测试,基于一个客户群对应多个可能的产品,选择其中相似度最大的作为最有匹配。
在使用Kuhn-Munkres算法时有一个条件,集合X的项点个数必须等于集合Y的项点个数(m=n),也即客户群与服务的数量需一致。由于两者之间无法保证一定相等,因此,可以增加一些空节点,与其相关的相似度也预先赋为0,实现m=n。在实证分析过程中,一共进行了两次测试。第一次测试基于第一批数据,第二次测试基于第二批数据。相关匹配结果如表7、表8所示。
在这次匹配分析中,最优匹配和最大匹配刚好相等,但是不能证明最优匹配与最大匹配一定能同时达到。如果出现两个匹配结果差距较大,则最优匹配结果不可取。同时,并非每个客户群都能实现最优匹配,例如分类号为8的客户群的平均相似度只有0.496,因此这类匹配不可取,需要进行人工分析。
6结束语
为提高银行客户服务管理水平,达到银行服务产品与客户的最优匹配,本文以商业银行人民币个人理财产品为研究基础,尝试将云模型、K-means算法、Apriori算法、Kuhn-Munkres算法等一系列数据处理规则与算法应用到银行理财产品与客户的服务匹配中,并得出以下结论:一是运用数据挖掘中的K-means聚类算法,并基于客户行为分析划分了客户群,为银行大规模定制服务提供了算法基础,从而锁定高端客户;二是提取客户群的共性因子与客户本体的个性因子,利用二分图的Kuhn-Munkres算法实现了客户群的共性因子与服务的一一映射关系;三是将最优服务匹配相关算法移植到银行业个人理财产品领域,实现了研究方法的创新。
主要参考文献
[1]钱秋君,刘飞. 加息通道打开银行谋个贷转型[N]. 华夏时报, 2011-02-14(007).
[2]黄竞仪. 2010年中国银行业直面五大困局[N]. 北京商报, 2010-01-11(9).
[3]朱子云. 商业银行如何破解矩阵困局[J]. 科技智囊, 2004(7): 54-56.
[4]张铭洋. 基于Apriori算法银行客户分类系统的设计与实现[D]. 大连: 大连理工大学, 2008.
[5]Wang Hu, Yu Li.Study of Service Mining Mechanism Based on Customer Behavior Analysis[C]. The Eighth Wuhan International Conference on E-Business,2009.
[6]杨胜超,张瑞军. 基于二分图最优匹配算法的毕业论文选题系统[J]. 计算机系统应用,2008,17(7): 14-17.
[7]吕巍,蒋波,陈洁. 基于K-means算法的中国移动市场顾客行为细分策略研究[J].管理学报,2005,2(1): 80-84.
[8]张红梅,夏南强. 数据挖掘技术在零售业中的应用[J]. 经济师, 2006 (1): 48-49.
[9]王虎,毛文婷. 基于云模型的电信客户行为关联规则研究[J]. 武汉理工大学学报:信息与管理工程版,2009,31(5):769-772.
[10]冷明伟, 陈晓云, 颜清. 一种基于影响因子的快速K-均值算法[J]. 计算机应用, 2007, 27(12): 3042-3044.
[11]屈婉玲, 耿素云, 张立昂. 离散数学[M]. 北京: 高等教育出版社, 2008.
[12]肖位枢. 图论及其算法[M]. 北京: 航空工业出版社, 1993:134-142.
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文