加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

BI入门经典

发布时间:2021-01-01 18:14:24 所属栏目:大数据 来源:网络整理
导读:【前言】 ?????昨天论坛的SQL Server大版新增了一个BI板块,大家讨论得热火朝天,由于此前因为客户环境的问题,一直在使用sql 2000,没怎么关注这一块的东西,最近刚好要做购物篮的分析,所以到网上搜集了一些资料。为了跟大家保持“步调一致”,也写点或转
副标题[/!--empirenews.page--]

【前言】

?????昨天论坛的SQL Server大版新增了一个BI板块,大家讨论得热火朝天,由于此前因为客户环境的问题,一直在使用sql 2000,没怎么关注这一块的东西,最近刚好要做购物篮的分析,所以到网上搜集了一些资料。为了跟大家保持“步调一致”,也写点或转点东西出来,和大家一起学习和分享。

????这是很好的BI入门资料,对于还不知道BI是什么,为什么要搞BI,以及BI能做什么的朋友来说,应该还是比较有帮助的。很可惜的时候文章中的图片找不到了(文中涉及到参考图片的那部分请忽略),到网上找了一下也没找到,如果有收藏到这部分图片的朋友或看到有这部分图片的朋友,欢迎共享一下。

【转贴内容】

(1)老板,你要这么多数据做什么? ????
??? 假如你是一个商品零售公司的老板。
??? 你的公司很先进,已经实现了业务信息化,每一笔销售单据都保存在数据库中,日积月累,已经保存了十余年的销售数据,上亿条销售记录。
??? 这时如果我问你:“反正三年前的数据留着也白白占地方,耗费存储成本,索性把它们全删掉吧,这样不用买硬盘就能容纳新数据,如何?”
??? 你会从容的接受我这个建议吗?
??? 那么老板,你要这么多数据做什么?
??? 是的,和我一样,你也已经隐约认识到数据的价值,这就是我们割舍不下历史数据的原因,就像任何一个现代化企业,甚至就像任何一个传统的票号,如百年老店般虔诚地保存着古老的数据,因为我们有直觉,我们的直觉告诉我们:这些数据有用!
??? 但这仅仅是一种直觉,到底该怎样把这些占据大量存储空间的数据的价值挖掘出来,让这些数据从成本的消耗者变成利润的促进者?
??? 这中间似乎缺少了某些环节。
(2) Business Intelligence - 连接数据与决策者??? ?
??? BI(BusinessIntelligence) 是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的是为企业决策者提供决策支持。
??? 让我们振臂高呼三遍:决策支持,决策支持,决策支持!
??? BI 是一个工厂:
??????? >> BI 的原材料是海量的数据;
??????? >> BI 的产品是由数据加工而来的信息和知识;
??????? >> BI 将这些产品推送给企业决策者;
??????? >> 企业决策者利用 BI 工厂的产品做出正确的决策,促进企业的发展;
??? 这就是 Business Intelligence,即商业智能——连接数据与决策者,变数据为价值。
??? BI 应用的两大类别是信息类应用 和 知识类应用,其特征如下表所示:

?

(3) BI 初级应用模式概览——数据查询(Querying)????
??? 数据查询是最简单的 BI 应用,属于 MIS 系统遗产,虽然出身比较老土,但是目前仍然是决策者获取信息的最直接的方法。
??? 如今,数据查询界面已经彻底摆脱了传统 SQL 命令行,大量的下拉菜单、输入框、列表框等元素甚至是鼠标拖拽界面将后台干苦力的 SQL 语句包装成一个妖艳无比的数据获取系统,而本质仍然没有离开数据查询的几大要素:
?? >> 查什么
?? >> 从哪儿查
?? >> 过滤条件
?? >> 展示方法
??? 目前国外比较流行的数据查询应用已经完全释放了数据查询的灵活性,如右图所示的是 Cognos ReportNet 的数据查询界面 Query Studio,允许用户通过纯浏览器界面,以鼠标拖拽操作定义数据查询要素,并以报表和图表等多种方式展现数据。

(4) BI 初级应用模式概览——报表(Reporting)???
??? 报表是国内最热衷的 BI 应用之一,这与报表在我国企事业单位中的历史地位是分不开的。我国的报表以其格式诡异、数据集中、规则古怪等特征著称于世,曾经让无数国外报表工具和 BI 工具捶胸顿足。
??? 报表的两大要素是数据和格式,如果没有格式,则报表应用几乎等同于数据查询应用。可以说,报表就是将查询出来的数据按照指定的格式展现。
??? 报表应用包含了报表展现和报表制作两大模块。报表展现就是让决策者看到报表,并允许决策者通过条件定义来选择报表数据,例如选择报表年度、部门、机构等等;报表制作面向报表的开发人员,其格式定义灵活性、数据映射灵活性、计算方法的丰富程度等均影响了 BI 报表应用的质量。
??? 需要澄清一下的是,Microsoft Excel 不算是一个 BI 报表工具,因为 Excel 没有连接数据源的能力,充其量是一个 Spread Sheet。但是 Excel 强大的格式功能让报表制作人员竟折腰,乃至到后来,几乎所有 BI 厂商都提供了面向 Microsoft Excel 的插件,通过插件,Excel 可以连接到 BI 的数据源上,摇身一变为 BI 报表工具,丑小鸭变天鹅。


5) BI 高级应用模式概览——在线分析(OnLine AnalyticalProcessing,OLAP)?????
??? OLAP ,即联机分析处理,是 BI 带来的一种全新的数据观察方式,是 BI 的核心技术之一。
??? 我们知道,数据在数据库中是以数据表来存储的,比如某商店的销售数据存储在如下所示的一张数据表中:

决策者希望知道的往往是分布、占比、趋势之类的宏观信息,比如下列问题:

?????? >> 北京地区的销售数量虽时间的变化趋势?

?????? >> 哪种产品在 2005 年销售比 2004 年销售增幅最大?

?????? >> 2004 年各产品销售额的比例分布?……

???面对这种需求,必须用 SQL 语句进行大量的 SUM 操作,每得出一个问题的结果,就需要 SQL SUM。面对上面的 7 条记录,我们可以很容易的得出结果,但是当我们面对百万级甚至亿级的记录条数时,例如移动公司通话数据,每次 SQL SUM 都需要消耗大量的时间来计算,决策者经常是在第一天提出分析需求,等到第二天才能拿到计算结果,这种分析方式是“脱机分析”,效率很低。

???为了提高数据分析效率,OLAP 技术彻底打破以记录为单位的数据浏览方式,而将数据分离为“维度(Dimension)”和“度量(Measure)”:

?????? >>维度是观察数据的角度,例如上面示例中的“销售时间”、“销售地点”、“产品”;

?????? >> 度量是具体考察的数量值,例如上例中的“销售数量”和“销售金额”;

???这样一来,我们就可以将上面这张平版的数据列表转换为一个拥有三个维度的数据立方体( Cube ):

而探查数据的过程,就是在这个立方体中确定一个点,然后观察这个点的度量值:

当然,数据立方体并不局限于三个维度,这里采用三个维度来说明问题,只是因为通过图形可以表现出来的极限就是三个维度。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读