SQL Server 2005 Data Mining简介
简介
企业均在尝试分析其数据时都面临若干问题。通常,并不缺乏数据。事实上,很多企业感觉到他们被数据淹没了;他们没有办法完全利用所有的数据,将其变成信息。为了处理这方面的问题,开发了数据仓库技术,以让企业从异构的数据源获取大量数据,并将其变成实用信息。
恰当实现的数据仓库是具有惊人强大功能的解决方案。公司可以对信息进行分析,并将其加以利用,以进行明智的决策。通过使用数据仓库,可以为您提供以下问题的答案:
•哪些产品最受 15-20 岁的女性欢迎?
•特定消费者的订单前置时间和按时交付的百分比与所有消费者的平均值相比如何?
•病房花在每个病人身上的成本和时间是多少?
•在签约阶段停滞时间超过十天的项目所占的百分比为多少?
•如果某个特定的实验室在某类特定的药品上投入了较多的资金,临床试验结果是否显示病人健康状况好于其他实验室?
除了这些通常可通过使用分析应用程序得出答案的问题之外,数据仓库还支持各种数据交付格式。分析应用程序设计为供分析人员使用,分析人员会对数据进行细分,研究较低级别的细节。报告应用程序会创建书面报告或联机报告,这些报告供功能要求略低的用户使用,提供静态内容,或提供有限的深入挖掘功能。对于业务决策者而言,计分卡是非常强大的功能,可以提供公司关键性能指标的概况,使决策者知道其身处何处。
尽管数据仓库强大而适用,但其自身有一个局限:它实质上反映的是过去的情况。由于数据仓库经常在夜间或按周加载和处理,因此其表示一个时间快照。实时或近似实时的数据仓库可能实现,且会变得更常见,在最佳的情况下,其数据将仍然表示当前数据和历史数据。业务决策者和分析人员需要研究此数据,为了发现因果关系,数据仓库需要进行一定量的分析。
不是让人提出假设,然后据此去找相关数据,而是让数据仓库确定关系、预测未来时间、发现劣质数据,并允许采用以前从来不可能的方式对数据进行分析,这是不是更为有帮助呢?这可以通过使用数据挖掘而实现。通过使用数据挖掘,可以得出诸如以下这样的问题的答案:
•客户将购买什么产品?哪些产品将一起销售?
•公司如何预测哪些消费者可能会流失?
•市场状况如何,将会如何发展?
•企业如何对其网站使用模式进行最佳的分析?
•组织如何确定营销活动是否成功?
•企业如何防止劣质数据进入系统?
•什么是分析非结构化数据(如无格式文本)的最好技术?
Microsoft 在 Microsoft® SQL Server™ 2005 中引入了大量新的数据挖掘功能,允许企业给出这些问题和其他问题的答案。本文将详细讨论数据挖掘可以解决的各种问题,并介绍 SQL Server 2005 处理这些问题的方式。本文中包括对典型数据挖掘问题的概述,并对 SQL Server 2005 中可用于解决这些问题的工具和模型进行了介绍。
数据挖掘的承诺
数据挖掘承诺将使企业决策者和分析人员更为轻松。除了仅预测未来性能外,数据挖掘将帮助标识数据中可能会被忽略的关系,根据各种环境计算特定产品售出的几率或特定消费者可能到别处进行购买的几率,诸如此类。
Microsoft 数据挖掘工具不仅仅提供传统数据挖掘功能。以前的数据挖掘功能对数据进行分析,寻找各个元素间以前未知的关系,是典型的“运行后即完成”过程。换句话说,公司运行数据挖掘工具,然后就查看结果。Microsoft 数据挖掘工具不仅仅是完成特定作业的工具,它们还将执行其相关工作,并立即反过来将结果应用到过程中。这意味着数据挖掘模型可能根据特定的标准对消费者进行分组,而分析人员随后就能立即根据这些新的客户分组情况细分数据。
将数据挖掘模型的结果立即提供到分析过程的这个能力表示组织现在可以立即确定如何最佳地对数据进行分析。目前,大部分组织都按照地域对消费者进行划分,仅包括有限的类似于人口统计的信息,如收入或教育程度等。数据挖掘可能会认为特定的消费者划分方式比任何地理界定更为有意义,例如,喜欢经典音乐和玩拖拉机游戏的高收入人群可能更喜欢特定的产品,而不会受其教育程度或地域的影响。一旦建立这个消费群后,就可以在分析阶段使用其对数据进行分析。使用不甚明显的分组方式分析数据是数据挖掘的最大好处之一。
可以使用数据挖掘模型的输出对数据进行分析,这是一个非常强大的功能,但也可以在集成阶段使用这些数据。换句话说,在组织将来自整个企业的数据进行合并的过程中,数据挖掘可以根据其他数据确定数据是否有意义。可以在商业智能项目集成期间发现不规则数据,而这意味着所得到的数据仓库更为清楚,对其进行分析将会更加准确和有意义。
数据收集应用程序进一步扩展了数据挖掘,可以应用用于在数据源消除劣质数据的规则。这意味着在数据输入时,将根据现有数据总体对其进行检查,以确定其可靠性。可以拒绝可靠性低于一定级别的数据。因此,如果某个 Web 窗体接受用户信息,而用户输入的出生日期为 2/7/ 1197,则将在其源处拒绝该数据。不过,除了简单的日期之外,输入还可以查找出生日期、教育程度、职业和收入的组合,以确定其可靠程度,并决定接受数据还是将其拒绝。
因此,数据挖掘远不只是一个运行一次然后进行分析的简单过程,它已成为了商业智能 (BI) 应用程序、数据集成、数据分析和报告的整个开发生命周期中不可或缺的部分。
SQL Server 2005 Data Mining
简介
Microsoft SQL Server 2005 Data Mining 平台引入了大量的功能,既能采用传统方式处理数据挖掘,也能采取新的方式进行数据挖掘工作。就传统方式而言,数据挖掘可以根据输入来预测未来的结果,或者尝试发现以前未识别但类似的组中的数据或簇数据间的关系。
Microsoft 数据挖掘工具与传统数据挖掘应用程序有很大的不同。首先,它们支持组织中数据的整个开发生命周期(Microsoft 将其称为集成、分析和报告)。此功能使得数据挖掘结果不再仅限于供少数专门的分析人员使用,而将其向整个组织开放了。其次,SQL Server 2005 Data Mining 是开发智能应用程序的平台,而并非一个独立应用程序。由于可以方便地从外部访问数据挖掘模型,因而可以构建智能化的自定义应用程序。而且,该模型具有可扩展性,因此第三方可以添加自定义算法以支持特定的挖掘需求。最后,Microsoft 数据挖
-
相关文章
2秒记住本站域名
玩过泡泡龙吗?Readygo?Go! 再加上.Com.Cn的后缀,那就是大名小顶的ReadyGo.com.cn
