1 数据挖掘概述 1.1数据挖掘概念 对数据挖掘概念的理解,主要分为广义的理解和狭义的理解。广义的理解认为数据挖掘是一个知识发现的过程,称为数据
1 数据挖掘概述
1.1数据挖掘概念
对数据挖掘概念的理解,主要分为广义的理解和狭义的理解。广义的理解认为数据挖掘是一个知识发现的过程,称为数据库中的知识发现(也就是我们熟称的KDD),它是从海量的,缺失的,又噪声污染的、模糊的和随机的数据中,抽取人们一开始不知道但是又具有可信的、潜伏在深层的有价值的信息和知识的过程。数据挖掘的广义理解包含几层含义:其一,数据源的数据要是海量的,又噪声的;其二,数据挖掘所挖掘的模式需要是易于理解的且发掘的知识要是用户所感兴趣的;其三,数据挖掘发现的知识并不是通用的,有一定的专用性,其发现的知识是具有一定条件所约束的,只针对特定的领域。而狭义的理解则认为,数据挖掘就只是一个利用各种分析工具在海量数据之中找到规律,其工作量相当于KDD中的一个步骤而已。
1.2数据挖掘国内外使用现状
(1)国际现状。KDD这个概念首次提出是在1989年8月的一次会议上,第11届国际联合人工智能学术会议。从第一次提出到现在,KDD国际研讨会议已经开展过17次了,会议规模也是一直在扩大。数据挖掘的主要探索方面有:知识发现和数据仓库系统的结合,数据仓库和Web数据库系统的结合,前者意图在将数据仓库系统中的数据转化为知识以利于决策管理,后者的结合,主要是想利用网页中的巨大的资源。世界上研究数据挖掘比较出名的大学有卡内基梅隆大学、斯坦福大学等等。
(2)国内现状。同国外比较,国内对数据挖掘的探索起步比较晚,并没有形成一个整体的力量。就目前来说,虽说我国对数据挖掘的研究起步比较晚,但是国内互联网市场还是比较发达的,国内大量的科研单位和高等院校都会争相开展KDD的基础理论和其应用的研究。国内数据挖掘做的不错的组织有清华大学、中科院计算技术研究所等 。
2 数据挖掘主要应用领域
信息化时代的到来,数据的更新越来越快,数据量积累越来越多,各领域各行业都开始积极开始使用DM(数据挖掘技术)对大数据进行采集,挖掘,分析以辅助自己的管理决策活动,数据挖掘被广泛应用于企业管理、科学研究、电子商务、金融管理、医药化工和政府管理等领域。在大数据环境下,社会不同领域面对的数据都更加复杂,如何摸索到一个有效的方法使得管理决策活动更加科学,企业能够与客户的相处有更多沟通和理解,提高自身的盈利能力,政府能够最大程度的解决好公众所关注的问题,医疗行业能够对病人制定出更精准有效的治疗方案,金融领域能够提高金融质量、优化金融资源,物流行业能够实现最优的物流路线。数据挖掘技术能辅助决策,优化管理决策方案,降低决策错误的风险,提高决策的科学性。
(1)在电信行业,现如今很多电信相关企业都已经自己建起了不同规模大小的数据仓库系统,可以通过我们的数据挖掘技术将仓库中的数据信息进行有效提取,从而达到辅助优化企业决策的效果。例如,对象呼叫时间等具有多维性的电信数据,利用数据挖掘的多维分析等技术,便可以了解数据通信状况 , 发现最佳客户及流失客户等,提高企业的业绩[15]。
(2)在银行业,数据挖掘这项技术似乎早就受到了广泛关注。很多银行都建立了一个全新的部门通过数据挖掘来帮助银行进行风险评估和预测之类的工作。例如美国一家著名的银行就充分运用好了这个技术,通过数据挖掘,分析出客户的消费规律、需求趋势,对客户的未来行为可能性进行预测,从而使银行在竞争中抢占了先机。
(3)烟草行业的国内竞争日趋激烈,企业的经营模式必须从以产品为中心,以销售为中心转变为以客户为中心的模式,产品的研发、生产、销售以客户需求为导向。因此数据挖掘技术成为提高烟草企业信息管理水平,转型为以客户为中心模式的有效工具。具体实施如下,运用数据挖掘技术深入分析市场、客户和产品,从信息中提取出知识;同时建立各种主题的数据仓库,以便深入探讨生产、供应、仓储、运输配送、销售全过程的成本分析、资源配置、质量分析,对于提高企业管理水平、决策水平也是十分有益的[20]。接下来我们将重点研究数据挖掘在金融领域、政府管理和物流行业决策中的应用和意义分析。