数据挖掘论文的参考文献4篇（范文推荐）

时间：2023-06-28 16:00:02 来源：网友投稿

数据挖掘论文的参考文献[1]刘莹。基于数据挖掘的商品销售预测分析[J].科技通报。2014（07）[2]姜晓娟，郭一娜。基于改进聚类的电信客户流失预测分析[下面是小编为大家整理的数据挖掘论文的参考文献4篇,供大家参考。

数据挖掘论文的参考文献4篇

数据挖掘论文的参考文献篇1

[1]刘莹。基于数据挖掘的商品销售预测分析[J].科技通报。2014（07）

[2]姜晓娟，郭一娜。基于改进聚类的电信客户流失预测分析[J].太原理工大学学报。2014（04）

[3]李欣海。随机森林模型在分类与回归分析中的应用[J].应用昆虫学报。2013（04）

[4]朱志勇，徐长梅，刘志兵，胡晨刚。基于贝叶斯网络的客户流失分析研究[J].计算机工程与科学。2013（03）

[5]翟健宏，李伟，葛瑞海，杨茹。基于聚类与贝叶斯分类器的网络节点分组算法及评价模型[J].电信科学。2013（02）

[6]王曼，施念，花琳琳，杨永利。成组删除法和多重填补法对随机缺失的二分类变量资料处理效果的比较[J].郑州大学学报（医学版）.2012（05）

[7]黄杰晟，曹永锋。挖掘类改进决策树[J].现代计算机（专业版）.2010（01）

[8]李净，张范，张智江。数据挖掘技术与电信客户分析[J].信息通信技术。2009（05）

[9]武晓岩，李康。基因表达数据判别分析的随机森林方法[J].中国卫生统计。2006（06）

[10]张璐。论信息与企业竞争力[J].现代情报。2003（01）

[11]杨毅超。基于Web数据挖掘的作物商务平台分析与研究[D].湖南农业大学2008

[12]徐进华。基于灰色系统理论的数据挖掘及其模型研究[D].北京交通大学2009

[13]俞驰。基于网络数据挖掘的客户获取系统研究[D].西安电子科技大学2009

[14]冯军。数据挖掘在自动外呼系统中的应用[D].北京邮电大学2009

[15]于宝华。基于数据挖掘的高考数据分析[D].天津大学2009

[16]王仁彦。数据挖掘与网站运营管理[D].华东师范大学2010

[17]彭智军。数据挖掘的若干新方法及其在我国证券市场中应用[D].重庆大学2005

[18]涂继亮。基于数据挖掘的智能客户关系管理系统研究[D].哈尔滨理工大学2005

[19]贾治国。数据挖掘在高考填报志愿上的应用[D].内蒙古大学2005

[20]马飞。基于数据挖掘的航运市场预测系统设计及研究[D].大连海事大学2006

[21]周霞。基于云计算的太阳风大数据挖掘分类算法的研究[D].成都理工大学2014

[22]阮伟玲。面向生鲜农产品溯源的基层数据库建设[D].成都理工大学2015

[23]明慧。复合材料加工工艺数据库构建及数据集成[D].大连理工大学2014

[24]陈鹏程。齿轮数控加工工艺数据库开发与数据挖掘研究[D].合肥工业大学2014

[25]岳雪。基于海量数据挖掘关联测度工具的设计[D].西安财经学院2014

[26]丁翔飞。基于组合变量与重叠区域的SVM—RFE方法研究[D].大连理工大学2014

[27]刘士佳。基于MapReduce框架的频繁项集挖掘算法研究[D].哈尔滨理工大学2015

[28]张晓东。全序模块模式下范式分解问题研究[D].哈尔滨理工大学2015

[29]尚丹丹。基于虚拟机的Hadoop分布式聚类挖掘方法研究与应用[D].哈尔滨理工大学2015

[30]王化楠。一种新的混合遗传的基因聚类方法[D].大连理工大学2014

拓展阅读

什么是大数据？

“大数据”到底有多大？根据研究机构统计，仅在2011年，全球数据增量就达到了1.8ZB(即1.8万亿GB)，相当于全世界每个人产生200GB以上的数据。这种增长趋势仍在加速，据保守预计，接下来几年中，数据将始终保持每年50%的增长速度。

纵观人类历史，每一次划时代的变革都是以新工具的出现和应用为标志的。蒸汽机把人们从农业时代带入了工业时代，计算机和互联网把人们从工业时代带入了信息时代，而如今大数据时代已经到来，它源自信息时代，又是信息时代全方位的深化应用与延伸。大数据时代的生产原材料是数据，生产工具则是大数据技术，是对信息时代所产生的海量数据的挖掘和分析，从而快速地获取有价值信息的技术和应用。

概括来讲，大数据有三个特征，可总结归纳为“3V”，即量(Volume)、类(Variety)、时(Velocity)。量，数据容量大，现在数据单位已经跃升至ZB级别。类，数据种类多，主要来自业务系统，例如社交网络、电子商务和物联网应用。时，处理速度快，时效性要求高，从传统的事务性数据到实时或准实时数据。

什么是数据挖掘？

数据挖掘，又称为知识发现(Knowledge Discovery)，是通过分析每个数据，从大量数据中寻找其规律的技术。知识发现过程通常由数据准备、规律寻找和规律表示3个阶段组成。数据准备是从数据中心存储的数据中选取所需数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含规律找出来；规律表示则是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。

“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题。目前，大多数事物型数据库仅实现了数据录入、查询和统计等较低层次的功能，无法发现数据中存在的有用信息，更无法进一步通过数据分析发现更高的价值。如果能够对这些数据进行分析，探寻其数据模式及特征，进而发现某个客户、群体或组织的兴趣和行为规律，专业人员就可以预测到未来可能发生的变化趋势。这样的数据挖掘过程，将极大拓展企业核心竞争力。例如，在网上购物时遇到的提示“浏览了该商品的人还浏览了如下商品”，就是在对大量的购买者“行为轨迹”数据进行记录和挖掘分析的基础上，捕捉总结购买者共性习惯行为，并针对性地利用每一次购买机会而推出的销售策略。

数据挖掘在供电企业的应用前景

随着社会的进步和信息通信技术的发展，信息系统在各行业、各领域快速拓展。这些系统采集、处理、积累的数据越来越多，数据量增速越来越快，以至用“海量、爆炸性增长”等词汇已无法形容数据的增长速度。

2011年5月，全球知名咨询公司麦肯锡全球研究院发布了一份题为《大数据：创新、竞争和生产力的。下一个新领域》的报告。报告中指出，数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素；而人们对于大数据的运用预示着新一波生产率增长和消费者盈余浪潮的到来。2012年3月29日，美国政府在白宫网站上发布了《大数据研究和发展倡议》，表示将投资2亿美元启动“大数据研究和发展计划”，增强从大数据中分析萃取信息的能力。

在电力行业，坚强智能电网的迅速发展使信息通信技术正以前所未有的广度、深度与电网生产、企业管理快速融合，信息通信系统已经成为智能电网的“中枢神经”，支撑新一代电网生产和管理发展。目前，国家电网公司已初步建成了国内领先、国际一流的信息集成平台。随着三地集中式数据中心的陆续投运，一级部署业务应用范围的拓展，结构化和非结构化数据中心的上线运行，电网业务数据从总量和种类上都已初具规模。随着后续智能电表的逐步普及，电网业务数据将从时效性层面进一步丰富和拓展。大数据的“量类时”特性，已在海量、实时的电网业务数据中进一步凸显，电力大数据分析迫在眉睫。

当前，电网业务数据大致分为三类：一是电力企业生产数据，如发电量、电压稳定性等方面的数据；二是电力企业运营数据，如交易电价、售电量、用电客户等方面的数据；三是电力企业管理数据，如ERP、一体化平台、协同办公等方面的数据。如能充分利用这些基于电网实际的数据，对其进行深入分析，便可以提供大量的高附加值服务。这些增值服务将有利于电网安全检测与控制(包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测)，客户用电行为分析与客户细分，电力企业精细化运营管理等等，实现更科学的需求侧管理。

例如，在电力营销环节，针对“大营销”体系建设，以客户和市场为导向，省级集中的95598客户服务、计量检定配送业务属地化管理的营销管理体系和24小时面向客户的营销服务系统，可通过数据分析改善服务模式，提高营销能力和服务质量；以分析型数据为基础，优化现有营销组织模式，科学配置计量、收费和服务资源，构建营销稽查数据监控分析模型；建立各种针对营销的系统性算法模型库，发现数据中存在的隐藏关系，为各级决策者提供多维的、直观的、全面的、深入的分析预测性数据，进而主动把握市场动态，采取适当的营销策略，获得更大的企业效益，更好地服务于社会和经济发展。此外，还可以考虑在电力生产环节，利用数据挖掘技术，在线计算输送功率极限，并考虑电压等因素对功率极限的影响，从而合理设置系统输出功率，有效平衡系统的安全性和经济性。

公司具备非常好的从数据运维角度实现更大程度信息、知识发现的条件和基础，完全可以立足数据运维服务，创造数据增值价值，提供并衍生多种服务。以数据中心为纽带，新型数据运维的成果将有可能作为一种新的消费形态与交付方式，给客户带来全新的使用体验，打破传统业务系统间各自为阵的局面，进一步推动电网生产和企业管理，从数据运维角度对企业生产经营、管理以及坚强智能电网建设提供更有力、更长远、更深入的支撑。

数据挖掘专业就业方向

1.数据挖掘主要是做算法还是做应用？分别都要求什么？

这个问题太笼统，基本上算法和应用是两个人来做的，可能是数据挖掘职位。做算法的比较少，也比较高级。

其实所谓做算法大多数时候都不是设计新的算法(这个可以写论文了)，更多的是技术选型，特征工程抽取，最多是实现一些已经有论文但是还没有开源模块的算法等，还是要求扎实的算法和数据结构功底，以及丰富的分布式计算的知识的，以及不错的英文阅读和写作能力。但即使是这样也是百里挑一的，很难找到。

绝大读书数据挖掘岗位都是做应用，数据清洗，用现成的库建模，如果你自己不往算法或者架构方面继续提升，和其他的开发岗位的性质基本没什么不同，只要会编程都是很容易入门的。

2.北上广以外的普通公司用的多吗？待遇如何？

实际情况不太清楚，由于数据挖掘和大数据这个概念太火了，肯定到处都有人招聘响应的岗位，但是二线城市可能仅仅是停留在概念上，很多实际的工作并没有接触到足够大的数据，都是生搬硬套框架(从我面试的人的工作经验上看即使是在北上广深这种情况也比较多见)。

只是在北上广深，可能接触到大数据的机会多一些。而且做数据挖掘现在热点的技术比如Python，Spark，Scala，R这些技术除了在一线城市之外基本上没有足够的市场(因为会的人太少了，二线城市的公司找不到掌握这些技术的人，不招也没人学)。

所以我推测二线城市最多的还是用JAVA+Hadoop，或者用JAVA写一些Spark程序。北上广深和二线城市程序员比待遇是欺负人，就不讨论了。

3.和前端后端程序员比有什么区别？有什么优缺点？

和传统的前后端程序员相比，最主要的去别就是对编程水平的要求。从我招聘的情况来看，做数据挖掘的人编程水平要求可以降低一个档次，甚至都不用掌握面向对象。

但是要求技术全面，编程、SQL，Linux，正则表达式，Hadoop，Spark，爬虫，机器学习模型等技术都要掌握一些。前后端可能是要求精深，数据挖掘更强调广博，有架构能力更好。

4.目前在学习机器学习，如果想找数据挖掘方面的工作应该学习哪些内容？

打基础是最重要的，学习一门数据挖掘常用的语言，比如Python，Scala，R;学习足够的Linux经验，能够通过awk，grep等Linux命令快速的处理文本文件。掌握SQL，MySQL或者PostgreSQL都是比较常用的关系型数据库，搞数据的别跟我说不会用数据库。

补充的一些技能，比如NoSQL的使用，Elasticsearch的使用，分词(jieba等模块的使用)，算法的数据结构的知识。

5.hadoop,hive之类的需要学习吗？

我觉得应当学习，首先Hadoop和Hive很简单(如果你用AWS的话你可以开一台EMR，上面直接就有Hadoop和Hive，可以直接从使用学起)。

我觉得如果不折腾安装和部署，还有Linux和MySQL的经验，只要半天到一天就能熟悉Hadoop和Hive的使用(当然你得有Linux和MySQL的基础，如果没有就先老老实实的学Linux和MySQL，这两个都可以在自己的PC上安装，自己折腾)。

Spark对很多人来说才是需要学习的，如果你有JAVA经验大可以从JAVA入门。如果没有那么还是建议从Scala入门，但是实际上如果没有JAVA经验，Scala入门也会有一定难度，但是可以慢慢补。

所以总的来说Spark才足够难，以至于需要学习。

最后的最后我有一些建议。第一要对自己有一个系统的认知，自己的编程水平够么，SQL会用么，Linux会用么，能流畅的看英文文档么？

如果上面任何一个问题的答案是No，我都不建议直接转行或者申请高级的数据挖掘职位(因为你很难找到一个正经的数据挖掘岗位，顶多是一些打擦边球的岗位，无论是实际干的工作还是未来的成长可能对你的帮助都不大)。

无论你现在是学生还是已经再做一些前段后端、运维之类的工作你都有足够的时间补齐这些基础知识。

补齐了这些知识之后，第一件事就是了解大数据生态，Hadoop生态圈，Spark生态圈，机器学习，深度学习(后两者需要高等数学和线性代数基础，如果你的大学专业学这些不要混)。

数据挖掘论文的参考文献篇2

随着互联网技术的迅速发展，尤其移动互联网的爆发性发展，越来越多的公司凭借其备受欢迎的系统和APP如雨后春笋般发展起来，如滴滴打车、共享单车等。海量数据自此不再是Google等大公司的专利，越来越多的中小型企业也可以拥有海量数据。如何从浩如烟海的数据中挖掘出令人感兴趣和有用的知识，成为越来越多的公司急需解决的问题。因此，他们对数据挖掘分析师求贤若渴。在这一社会需求下，培养出优秀的数据挖掘分析师，是各个高校目前急需完成的一项任务。

一、教学现状反思

目前，各大高等院校本科阶段争相开设数据挖掘课程。然而，该课程是一门相对较新的交叉学科，涵盖了概率统计、机器学习、数据库等学科的知识内容，难度较大。因此，大部分高校一般将此课程开设在研究生阶段，在本科生中开设此课程的学校相对较少。另外，不同的学校将其归入不同的专业中，如计算机专业、信息管理专业、统计学、医学等。可以说，这一课程基本上处于探索的过程中。我院灾害信息系于20xx年在信息管理与信息系统本科学生中首次开设了该课程。通过开设此课程，学生能够掌握数据挖掘的基本原理和各种挖掘算法等，掌握数据分析和处理、高级数据库编程等技能，达到数据聚类、分类、关联分析的目的。然而，通过前期教学过程，我们发现教学效果不理想，存在很多问题。

1、数据内驱力差

以往数据挖掘课程重点讲授数据挖掘算法，对数据源的获取和处理极少获取。目前各大教材都在使用一些公共数据资源，这些数据资源有些已经非常陈旧了，比如20世纪80年代的加州房价数据。这些数据脱离现实，分析这些数据，学生没有任何兴趣和学习动力，也就无法发现价值。

2、过于强调学习数据挖掘理论及算法的学习

大量具有难度的数据挖掘算法的学习，使学生丧失了学习兴趣，学完即忘，不知所用。

3、忽视对数据预处理过程的学习

以往所使用的公共数据源或软件自带数据源，数据量小，需要的预处理工作比较少；这部分内容基本只安排一次理论课、一次实验课。而实际通过爬虫获取的数据源数据量大；这部分工作量比较大，需要占到整个数据挖掘工作量的一半以上。因此，一次理论课和一次实验课是无法让学生掌握数据预处理技能的。

4、算法编程实现难度较大

要求学生学习一门新的编程语言，如R语言、Python语言，对本科非计算机专业的学生来说难度是非常大的，尤其是课时安排只有48课时。

5、数据挖掘分析及应用技能较差

学生能够理解课堂案例，但在实际应用中，无法完成整个数据分析流程。

二、数据挖掘课程改革

该课程的教学对象是信息管理与信息系统专业本科大四学生。因此，培养实际应用人才，使其完成整个实际数据挖掘分析流程是教师的教学目的。笔者对智联招聘、中华英才网、51job等几个大型招聘网站的几百个数据挖掘分析师相关职位进行分析，主要分析了相關职位的工作内容、职位要求以及需求企业。数据分析师主要利用数据挖掘工具对运营数据等多种数据源进行预处理、建模、挖掘、分析及优化。该职位是受业务驱动的，特点是将现有数据与业务相结合，最大程度地变现数据价值。该职位对计算机编程等相关技术不作要求，但是需要有深厚的数据挖掘理论基础，熟练使用主流的数据挖掘（或统计分析）工具。基于此，教师可以采取以下策略进行教学改革。

1、加强对业务数据的理解

数据挖掘分析师是受业务驱动的，所以要理解实际业务，明确本次数据挖掘要解决什么问题。教师可以构建案例库，包括教师案例库、学生讨论案例库。教师案例库由教师构建，可用于课堂讲授。学生案例库由学生分组构建，并安排讨论课，由学生讲述、讨论并提交报告。

2、加强对数据的获取

对学生感兴趣的数据源进行挖掘，这样才能更好地帮助学生理解吸收知识。因此，可以教授学生爬虫技术，编写爬虫程序，使其自主获取感兴趣的数据。

3、加强对数据的预处理工作

在数据挖掘之前使用数据预处理技术，能够显著提高数据挖掘模式的质量，降低实际挖掘所需要的时间，应将其作为整门课程的重点进行学习。增加理论课程和实验课时，使学生掌握数据清理、数据集成、数据变换、数据归纳等数据预处理技术，并能够应对各种复杂数据源，最终利用爬虫程序获取的各种数据源进行预处理工作。

4、强化数据挖掘分析

教师可以选择SPSS Modeler这款所见即所得的数据挖掘软件作为配套实验平台。该软件具有必需的数据预处理工具及预设的挖掘算法，学生可以把注意力放在要挖掘的数据及相关需求上，设定挖掘的主题，然后通过鼠标的点击拖拉即可完成相关主题的数据挖掘过程。学生最终可对自己获取并已处理过的数据进行挖掘分析。

5、加强教师外出培训学习

数据挖掘技术以及大数据技术是近来比较新颖而且发展迅速的技术。教师长期身处三尺讲台之上，远离了新技术，脱离了实际。因此，需派遣教师到知名高校学习数据挖掘教学技术，到培训机构进行系统学习，到企业进行实战学习。

基于以上分析，形成了新的数据挖掘理论课程内容和实践课程内容，安排如表1和表2所示。共安排48学时，其中理论课24学时，实验课24学时。理论课重点讲授数据的获取、数据的理解、数据的预处理以及常用挖掘算法。实验课重点学习基于SPSS modeler的数据挖掘，对理论课的内容进行实践。整个学习以工程项目为载体，该工程贯穿整个学习过程。学生通过爬虫程序获取自己感兴趣的数据源，根据课程进度，逐步完成后续数据的理解，再进行预处理，建模分析，评估整个过程。在课程结束时，完成整个项目，并提交报告。

三、结论

在数字时代，越来越多的企业急需数据挖掘分析人才。教师应以培养实际应用人才为目的，充分培养学生对数据挖掘的学习兴趣，以工程项目为载体，贯穿整个课程周期。在教学中，打牢数据获取、理解预处理这一基石，加强建模挖掘分析，弱化对晦涩算法的编程学习，使学生真正掌握数据挖掘技术，满足社会需求。

参考文献：

[1]李海林。大数据环境下的数据挖掘课程教学探索[J]。计算机时代，20xx（2）：54-55.

[2]宋威，李晋宏。项目驱动的数据挖掘教学模式探讨[J]。中国电力教育，20xx（27）：116-177.

[3]徐琴。应用型本科数据挖掘技术课程教学探讨与实践[J]。电脑知识与技术，20xx，12（8）：148-149.

[4]李姗姗，李忠。就业需求驱动下的本科院校数据挖掘课程内容体系探讨[J]。计算机时代，20xx（2）：60-61.

数据挖掘论文的参考文献篇3

1理论研究

1.1客户关系管理

客户关系管理的目标是依靠高效优质的服务吸引客户，同时通过对业务流程的全面优化和管理，控制企业运行成本。客户关系管理是一种管理理念，将企业客户视作企业发展最重要的企业资源，采用企业服务优化等手段来管理客户关系。客户关系管理并不是单纯的信息技术或者管理技术，而是一种企业生物战略，通过对企业客户的分段充足，强化客户满意的行为，优化企业可盈利性，将客户处理工作上升到企业级别，不同部门负责与客户进行交互，但是整个企业都需要向客户负责，在信息技术的支持下实现企业和客户连接环节的自动化管理。

1.2客户细分

客户细分由美国学者温德尔史密斯在20世纪50年代提出，认为客户细分是根据客户属性将客户分成集合。现代营销学中的客户细分是按照客户特征和共性将客户群分为不同等级或者子群体，寻找相同要素，对不同类别客户心理与需求急性研究和评估，从而指导进行企业服务资源的分配，是企业获得客户价值的一种理论与方法。因此我们注意到，客户细分其实是一个分类问题，但是却有着显著的特点。

1.2.1客户细分是动态的企业不断发展变化，用户数据不断积累，市场因素的变化，都会造成客户细分的变化。所以客户细分工作需要根据客户情况的变化进行动态调整，

减少错误分类，提高多次细分中至少有一次是正确分类的可能性。

1.2.2受众多因素影响

随着时间的推移，客户行为和心理会发生变化，所以不同时间的数据会反映出不同的规律，客户细分方法需要在变化过程中准确掌握客户行为的规律性。

1.2.3客户细分有不同的分类标准

一般分类问题强调准确性，客户关系管理则强调有用性，讲求在特定限制条件下实现特定目标。

1.3数据挖掘

数据挖掘就是从大型数据库数据中提取有价值的、隐含的、事前未知的潜在有用信息。数据挖掘技术不断发展，挖掘对象不再是单一数据库，已经逐渐发展到文件系统、数据集合以及数据仓库的挖掘分析。

2客户细分的数据挖掘

2.1逻辑模型

客户数据中有着若干离散客户属性和连续客户属性，每个客户属性为一个维度，客户作为空间点，全部客户都能够形成多为空间，作为客户的属性空间，假设A={A1，A2,…Am}是一组客户属性，属性可以是连续的，也可以离散型，这些属性就形成了客户m维属性空间。同时设g是一个描述客户属性的一个指标，f(g)是符合该指标的客户集合，即为概率外延，则任一确定时刻都是n个互不相交集合。在客户价值概念维度上，可分为“有价值客户”“潜在价值客户”“无价值客户”三种类型，定义RB如下：(1)显然RB是一个等价关系，经RB可分类属性空间为若干等价类，每个等价类都是一个概念类，建立客户细分，就是客户属性空间和概念空间映射关系的建立过程。

2.2客户细分数据挖掘实施

通过数据库已知概念类客户数据进行样本学习和数据挖掘，进行客户属性空间与概念空间映射的自动归纳。首先确定一组概念类已知客户集合。首先确定一个映射：p：C→L，使，如果，则。，求p(c)确定所属概念类。数据部分有客户数据存储和概念维数据构成，客户数据存储有企业全部内在属性、外在属性以及行为属性等数据，方法则主要有关联规则分析、深井网络分类、决策树、实例学习等数据挖掘方法，通过对客户数据存储数据学习算法来建立客户数据和概念维之间的映射关系。

2.3客户细分数据分析

建立客户动态行为描述模型，满足客户行为非确定性和非一致性要求，客户中心的管理体制下，客户细分影响企业战术和战略级别决策的生成，所以数据挖掘要能够弥补传统数据分析方法在可靠性方面的缺陷。

2.3.1客户外在属性

外在属性有客户地理分布、客户组织归属情况和客户产品拥有情况等。客户的组织归属是客户社会组织类型，客户产品拥有情况是客户是否拥有或者拥有哪些与其他企业或者其他企业相关产品。

2.3.2内在属性

内在属性有人口因素和心理因素等，人口因素是消费者市场细分的重要变量。相比其他变量，人口因素更加容易测量。心理因素则主要有客户爱好、性格、信用情况以及价值取向等因素。

2.3.3消费行为

消费行为属性则重点关注客户购买前对产品的了解情况，是客户细分中最客观和重要的因素。

2.4数据挖掘算法

2.4.1聚类算法

按照客户价值标记聚类结果，通过分类功能，建立客户特征模型，准确描述高价值客户的一些特有特征，使得企业在之后的市场活动中能够迅速发现并抓住类似的高价值客户，全面提高客户的整体价值水平。通常都采用中心算法进行客户的聚类分析，分析涉及的字段主要有客户的基本信息以及与客户相关业务信息，企业采用中心算法，按照企业自身的行业性质以及商务环境，选择不同的聚类分析策略，有主属性聚类分析和全属性聚类分析两类。主属性聚类分析是企业根据在企业标度变量中选择主要弧形作为聚类分析变量。通常区间标度变量选用的度量单位会对聚类分析结果产生很大影响，选择的度量单位越小，就会获得越大的可能值域，对聚类结果的影响也就越大。

2.4.2客户分析预测

行业竞争愈加激烈，新客户的获得成本越来越高，在保持原有工作价值的同时，客户的流失也受到了企业的重视。为了控制客户流失，就需要对流失客户的数据进行认真分析，找寻流失客户的根本原因，防止客户的持续流失。数据挖掘聚类功能同样能够利用在客户流失数据分析工作中，建立基于流失客户数据样本库的分类函数以及分类模式，通过模型分析客户流失因素，能够获得一个最有可能流失的客户群体，同时编制一个有针对性的挽留方案。之后对数据进行分析并利用各种数据挖掘技术和方法在多个可供选择的模型中找出最佳模型。初始阶段，模型的拟合程度可能不理想，但是随着模型的不断更换和优化，最终就有可能找出合适的模型进行数据描述并挖掘出流失数据规律。通常模拟模型都通过数据分析专业和业务专家协作完成，采用决策树、贝叶斯网络、神经网络等流失分析模型，实现客户行为的预测分析。

3结语

从工业营销中的客户细分观点出发，在数据挖掘、客户关系管理等理论基础上，采用统计学、运筹学和数据挖掘技术，对客户细分的数据挖掘方法进行了研究，建立了基于决策树的客户细分模型，是一种效率很高的管理工具。

作者:区嘉良吕淑仪单位:中国石化广东石油分公司

数据挖掘论文的参考文献篇4

随着互联网技术的快速发展，学术研究环境较以前更加开放，对传统的科技出版业提出了开放性、互动性和快速性的要求；因此，以信息技术为基础的现代数字化出版方式对传统的科技出版业产生着深刻的影响。为了顺应这一趋势，不少科技期刊都进行了数字化建设，构建了符合自身情况、基于互联网B /S 结构的稿件处理系统。

以中华医学会杂志社为代表的部分科技期刊出版集团均开发使用了发行系统、广告登记系统、在线销售系统以及站。这些系统虽然积累了大量的原始用户业务数据；但从工作系统来看，由于数据本身只属于编辑部的业务数据，因此一旦相关业务工作进行完毕，将很少再对这些数据进行分析使用。

随着目前人工智能和机器学习技术的发展，研究人员发现利用最新的数据挖掘方法可以对原始用户业务数据进行有效分析和学习，找出其中数据背后隐含的内在规律。这些有价值的规律和宝贵的经验将对后续科技期刊经营等工作提供巨大的帮助。

姚伟欣等指出，从STM 期刊出版平台的技术发展来看，利用数据存取、数据管理、关联数据分析、海量数据分析等数据挖掘技术将为科技期刊的出版和发行提供有力的帮助。通过使用数据挖掘（ data mining）等各种数据处理技术，人们可以很方便地从大量不完全且含有噪声或相对模糊的实际数据中，提取隐藏在其中有价值的信息，从而对后续科技期刊出版工作起到重要的知识发现和决策支持的作用。

1 数据挖掘在科技期刊中应用的现状

传统的数据库对数据的处理功能包括增、删、改、查等。这些技术均无法发现数据内在的关联和规则，更无法根据现有数据对未来发展的趋势进行预测。现有数据挖掘的任务可以分为对数据模型进行分类或预测、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系发现、异常或例外点检测以及趋势发现等，但目前国内科技期刊行业利用数据挖掘方法进行大规模数据处理仍处在起步阶段。张品纯等对中国科协所属的科技期刊出版单位的现状进行分析后发现，中国科协科技期刊出版单位多为单刊独立经营，单位的规模较小、实力较弱，多数出版单位不具备市场主体地位。这样就导致国内大部分科技期刊既没有能力进行数据挖掘，也没有相应的数据资源准备。以数据挖掘技术应用于期刊网站为例，为了进行深入的数据分析，期刊经营人员需要找到稿件与读者之间、读者群体之间隐藏的内在联系。目前，数据挖掘的基本步骤为: 1) 明确数据挖掘的对象与目标；2) 确定数据源； 3) 建立数据模型； 4) 建立数据仓库； 5)数据挖掘分析； 6) 对象与目标的数据应用和反馈。

2 期刊数据的资源整合

编辑部从稿件系统、发行系统、广告系统、站等各个系统中将相关数据进行清洗、转换和整理，然后加载到数据仓库中。进一步，根据业务应用的范围和紧密度，建立相关数据集市。期刊数据资源的整合过程从数据体系上可分为数据采集层、数据存储处理层和数据展现层。

要获得能够适合企业内部多部门均可使用、挖掘和分析的数据，可以从业务的关联性分析数据的准确性、一致性、有效性和数据的内在关联性。

3 期刊数据的信息挖掘

信息挖掘为了从不同种类和形式的业务进行抽取、变换、集成数据，最后将其存储到数据仓库，并要对数据的质量进行维护和管理。数据挖掘可以有效地识别读者的阅读行为，发现读者的阅读模式和趋势，对网站改进服务质量、取得更好的用户黏稠度和满意度、提高科技期刊经营能力有着重要的意义。作为一个分析推荐系统，我们将所分析的统计结果存储于服务器中，在用户或决策者需要查询时，只需输入要找寻的用户信息，系统将从数据库中抽取其个人信息，并处理返回到上网时间分布、兴趣点所在、适配业务及他对于哪些业务是有价值客户，甚至包括他在什么时段对哪类信息更感兴趣等。只有这些信息才是我们的使用对象所看重和需要的。

网站结构挖掘是挖掘网站中潜在的链接结构模式。通过分析一个网页的链接、链接数量以及链接对象，建立网站自身的链接结构模式。在此过程中，如果发现某一页面被较多链接所指向，则说明该页面信息是有价值的，值得期刊工作人员做更深层次的挖掘。网站结构挖掘在具体应用时采用的结构和技术各不相同；但主要过程均包括预处理、模式发现和模式分析3 部分。为了反映读者兴趣取向，就需要对数据库中的数据按用户进行抽样分析，得到兴趣点的统计结果，而个人的兴趣分析也可基于此思路进行。下面以《中华医学杂志》为例做一介绍。

预处理预处理是网站结构挖掘最关键的一个环节，其处理得到的数据质量直接关系到使用数据挖掘和模式分析方法进行分析的结果。预处理步骤包括数据清洗、用户识别、会话识别、路径补充和事件识别。以《中华医学杂志》网站www. nmjc. net. cn 的日志分析为例。首先给出一条已有的Log，其内容为“20xx-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +（ Windows + NT + 6. 1; + WOW64 ） + AppleWebKit /537. 36 + （ KHTML，+ like + Gecko） + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。从Log 的内容，工作人员可以得到相关信息，如用户IP、用户访问页面事件、用户访问的页面、用户请求的方法、返回HTTP 状态以及用户浏览的上一页面等内容。

由于服务器同时部署了多个编辑部网站，这就要求工作人员必须对得到的访问www. nmjc. net. cn 日志，去除由爬虫软件产生的记录。这些记录一般都会在日志结尾包含“Spider”的字样。同时，还需要去除不是由GET 请求产生的日志以及请求资源不是页面类型的日志。最后，工作人员还需要去除访问错误的请求，可以根据日志中请求的状态进行判断。一般认为，请求状态在（ 200， 300）范围内是访问正确的日志，其他如403、400 和500 等都是访问错误的日志。用户识别可以根据用户的IP 地址和用户的系统信息来完成。只有在IP 地址和系统信息都完全一致的情况下，才识别为一个用户。会话识别是利用面向时间的探索法，根据超时技术来识别一个用户的多次会话。如果用户在一段时间内没有任何操作，则认为会话结束。用户在规定时间后重新访问，则被认为不属于此次会话，而是下次会话的开始。

利用WebLogExplore 分析日志、用户和网页信息在获得了有效的日志数据后，工作人员可以利用一些有效数据挖掘算法进行模式发现。目前，主要的数据挖掘方法有统计分析、关联规则、分类、聚类以及序列模式等技术。本文主要讨论利用Apriori 算法来发现科技期刊日志数据中的关联规则。本质上数据挖掘不是用来验证某个假定的模式的正确性，而是在数据库中自己寻找模型，本质是一个归纳的过程。支持度（ Support）的公式定义为: Support （ A≥B） = P（ A ∪B）。支持度可以用于度量事件A 与B 同时出现的概率。如果事件A 与B 同时出现的概率较小，说明事件A 与B 的关系不大；如果事件A 与B 同时出现非常频繁，则说明事件A 与B 总是相关的。置信度（ Confidence）的公式定义为: Confidence（ A≥B） = P（ A | B）。置信度揭示了事件A 出现时，事件B 是否也会出现或有多大概率出现。如果置信度为100%，则事件A 必然会导致事件B 出现。置信度太低，说明事件A 的出现与事件B 是否出现关系不大。

对所有的科技期刊日志数据进行预处理后，利用WebLogExplore 软件可得到日志汇总表。表中存储了所有用户访问网站页面的详细信息，工作人员可将其导入数据库中。以查看到所选择用户访问期刊页面的详细信息。

同样，在WebLogExplore 软件中选择感兴趣的页面，可以查看所有用户访问该页面的统计信息，如该页面的访问用户数量等。工作人员可以对用户访问排名较高的页面进行进一步的模式分析。

步骤1: 将图2 日志信息汇总表中的数据导入数据库中，建立日志总表。

步骤2: 在数据库中建立一个新表命名为tj。

步骤3: 通过查询程序得到日志总表中每一个用户访问的页面，同时做distinct 处理。

步骤4: 将查询得到的用户访问页面记录进行判断。如果用户访问过排名前20 位的某个页面，则在数据库中写入true，否则写入false。依次循环判断写入数据库中。

步骤5: 统计每个访问排名靠前页面的支持度，设置一维项目集的最小阀值（ 10%）。

步骤6: 统计大于一维阀值的页面，写入数组，并对数组内部页面进行两两组合，统计每个组合2 个页面值均为true 时的二维项目集的支持度。

步骤7: 设置二维项目集支持度的阀值，依次统计三维项目集支持度和置信度（ A≥B），即当A 页面为true 时，统计B 页面为true 的数量，除以A 为true 的数量。设置相应的置信度阀值，找到访问排名靠前页面之间较强的关联规则。

4 数据挖掘技术应用的意义

1) 对频繁访问的用户，可以使用用户识别技术分析此用户的历史访问记录，得到他经常访问的页面。当该用户再次登录系统时，可以对其进行个性化提示或推荐。这样，既方便用户使用，也可将系统做得更加友好。很多OA 期刊网站，不具备历史浏览记录的功能；但浏览记录对用户来讲其实十分重要，隐含了用户对文章的筛选过程，所以对用户经常访问的页面需要进行优化展示，不能仅仅提供链接地址，需要将文章题名、作者、关键词等信息以列表的方式予以显示。

2) 由数据挖掘技术而产生的频繁项目集的分析，可以对网站的结构进行改进。支持度很高的页面，说明该页面的用户访问量大。为了方便用户以及吸引更多的读者，可以将这些页面放置在更容易被访问的位置，科技期刊的网站内容一般以年、卷、期的形式展示。用户如果想查看某一篇影响因子很高的文章，也必须通过年卷期的方式来查看，非常不方便而且页面友好性不高。通过数据挖掘的分析，编辑部可以把经常被访问或者高影响因子的文章放在首页展示。

3) 对由数据挖掘技术产生的频繁项目集的分析，可以发现用户的关注热点。若某些页面或项目被用户频繁访问，则可以用这些数据对用户进行分析。一般来说科技期刊的读者，每个人的专业和研究方向都是不同的，编辑部可以通过数据挖掘技术来判断读者的研究方向和感兴趣的热点，对每一个用户进行有针对性的内容推送和消息发送。

4) 网站管理者可以根据在不同时间内频繁项目集的变化情况对科技期刊网站进行有针对性的调整，比如加入更多关于该热点的主题资源。目前大多数科技期刊网站首页的内容，均为编辑部工作人员后台添加、置顶、高亮来吸引用户的；通过数据挖掘技术，完全可以摈弃这种展示方式。编辑部网站的用户访问哪些页面频繁，系统便会自动将这些页面的文章推向首页，不需要编辑部的人工干预，整个网站实现自动化运行。

5 后记

本文重点讨论了数据挖掘技术与科技期刊网站页面之间的关系。其实我们还可以从很多方面进行数据挖掘，比如可以对网站的用户和内容进行数据挖掘，通过分析可以为后期的期刊经营做好铺垫。

有一点很重要，没有一种数据挖掘的分析方法可以应付所有的需求。对于某一种问题，数据本身的特性会影响你的选择，需要用到许多不同的数据挖掘方法以及技术从数据中找到最佳的模型。

在目前深化文化体制改革，推动社会主义文化大发展、大繁荣的政治形势下，利用数据挖掘技术从中进行提取、分析和应用，能有效地帮助企业了解客户、改进系统、制订合理的市场策略、提高企业的销售水平和利润。通过利用数据挖掘技术准确定位优质客户，向客户提供更精确、更有价值的个性化服务。这将成为未来科技期刊经营十分重要的突破点和增长点。