加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

什么是数据科学?将数据转化为价值

发布时间:2019-07-13 01:32:20 所属栏目:教程 来源:Thor Olavsrud
导读:数据科学是一种将业务数据转换为资产的方法,可帮助组织提高收入、降低成本、抓住商机、改善客户体验等。 数据科学定义 数据科学是一种使用从统计分析到机器学习的方法从结构化和非结构化数据中收集洞察力的方法。对于大多数组织而言,数据科学被用于将数
副标题[/!--empirenews.page--]

数据科学是一种将业务数据转换为资产的方法,可帮助组织提高收入、降低成本、抓住商机、改善客户体验等。

什么是数据科学?将数据转化为价值

数据科学定义

数据科学是一种使用从统计分析到机器学习的方法从结构化和非结构化数据中收集洞察力的方法。对于大多数组织而言,数据科学被用于将数据转化为价值,其形式是改善收入,降低成本,提高业务灵活性,改善客户体验,开发新产品等。

RiskIQ公司首席数据科学家Adam Hunt说,“如果愿意,企业可以获取的数据量是巨大的,但是如果没有做任何事情,把它变成有趣的东西,它有什么用呢?数据科学是关于提供这些数据的目的。”

数据科学与分析

虽然数据分析是紧密相关的,但它是数据科学的一个组成部分,用于了解组织的数据是什么样子的。数据科学利用分析的输出来解决问题。

Hunt说,“数据科学正在得出推动数据向前发展的结论。如果不是采用数据解决问题,如果只是在做调查,那就是分析。如果真的要用结果来解释某些事情,就要从分析到科学。数据科学与实际解决问题的关系比观察、检查、绘制数据更大。”

对于Looker公司首席数据科学家Hillary Green-Lerman来说,数据分析和数据科学之间的区别在于时间尺度。她表示,数据分析描述了当前的现实状况。数据科学使用该数据来预测或了解未来。

Green-Lerman说,“许多人认为数据分析师只是初级数据科学家;有人希望在他们长大后成为数据科学家。有时这是真的,但实际上我发现一个非常优秀的分析师拥有与数据科学家不同的技能。”

数据科学与大数据

数据科学和大数据通常是一致的,但数据科学可以用来从各种规模的数据中提取价值,无论是结构化的、非结构化的还是半结构化的。当然,在许多情况下,大数据对数据科学家很有用,因为企业拥有的数据越多,在给定模型中可以包含的参数就越多。

Hunt说,“有了大数据,企业就不必受制于小数据的维数限制。大数据在某些方面确实有帮助,但更多并不总是更好。如果把股票市场放在合适的位置,它就不会起作用。”

数据科学的商业价值

数据科学的商业价值取决于组织需求。数据科学可以帮助组织构建工具来预测硬件故障,允许组织执行维护,并防止意外停机。它可以帮助预测超市货架上的内容,或者根据产品的属性预测产品的流行程度。

MapR科技公司首席应用架构师Ted Dunning说,“数据科学团队可以拥有的最大价值在于他们与业务团队融为一体。几乎按照定义,寻求新奇的人员,真正创新的人员,将会发现价值或泄漏的价值,而不是人们所预期的。通常他们会让业务人员带来惊喜。价值并不是人们最初认为的那样。”

数据科学团队

数据科学通常是一门团队科学。数据科学家是大多数数据科学团队的前瞻性核心,但从数据转向分析,然后将分析转化为生产价值需要一系列技能和角色。例如,数据分析师应该在将数据呈现给团队,并在维护数据模型之前对其进行调查。数据工程师必须构建数据管道以丰富数据集,并使数据可供公司其他人使用。

eBates公司分析副总裁Mark Stange-Tregear警告不要寻求数据科学“独角兽”,也就是将非线性思维与高级数学和统计知识以及编码能力相结合的人员。

Stange-Tregear解释说,“我不认为数据工程是关键的数据科学家特征,我希望有人真正添加其他内容。如果我可以让某人建立模型,能够评估统计数据,并将该模型的好处传达给业务部门,那么我就可以雇佣足够成熟的数据工程师来采用该模型并实现它。”

数据科学的嵌入式方法

一些组织选择将数据科学家与其他功能混合在一起。例如,Mapr公司的Dunning建议遵循数据操作方法,将数据科学家嵌入到具有业务线职责的DevOps团队中。这些数据运营团队往往是跨职能的和技能的,如运营、软件工程、架构和产品管理,并且可以从头到尾协调数据、工具、代码和环境。数据运营团队倾向于将分析管道视为类似于生产线。

Dunning说,“孤立的数据科学团队可能希望部署最复杂的模型,嵌入式数据科学家将寻找可维护的廉价胜利。他们对于选择的解决方案是务实的。”

数据科学目标和可交付成果

数据科学的目标是构建从数据中提取以业务为中心的见解的方法。这需要理解价值和信息在企业中是如何流动的,并能够利用这种理解来识别业务机会。虽然这可能涉及一次性项目,但更典型的是,数据科学团队寻求识别关键数据资产,这些资产可以转化为数据管道,为可维护工具和解决方案提供支持。例如,银行使用的信用卡欺诈监控解决方案,或用于优化风电场中风力发电机布置的工具。

逐渐地,传达团队所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt说,“确保他们将结果传达给公司的其他人是非常重要的,当数据科学团队长时间陷入困境时,它开始陷入困境。产品经理认为工作是理所当然的,除非我们一直在谈论和关注它。”

数据科学过程和方法

生产工程团队在Sprint周期中工作,并且有计划的时间表。Hunt表示,数据科学团队通常很难做到这一点,因为可以提前花很多时间来确定一个项目是否可行。

Hunt说,“很多时候,第一周甚至第一个月都是研究、收集、清理数据。我们能回答这个问题吗?我们能有效地做到吗?我们花费了大量的时间进行设计和调查,远远超过了标准工程团队的表现。”

对于Hunt来说,数据科学应该遵循科学方法,尽管他指出并非总是如此,甚至不可行。

Hunt说,“企业试图从数据中提取一些洞察力。为了反复和自信地做到这一点,必须使用科学方法准确地证明其假设。但我不认为许多数据科学家真正使用任何科学。”

Hunt说,真正的科学需要时间。企业花费时间确认其假设,然后花费很多时间试图反驳自己。

Hunt说,“通过数据科学,企业需要深入研究数据来验证这些假设。我们试图回答的很多问题都是短暂的。例如,在安全方面试图找到解决威胁的办法。”

他表示,因此,数据科学通常意味着采用“足够好”的答案,而不是最佳答案。然而,危险是结果可能成为确认偏见或过度拟合的牺牲品。

他说,“如果这不是真正的科学,也就是说企业用科学的方法来证实一个假设,那么所做的就是向一些算法采用数据来证实自己的假设。”

数据科学工具

数据科学团队使用各种工具,包括SQL、Python、R、Java以及Hive、oozie和TensorFlow等开源项目。这些工具用于各种与数据相关的任务,从提取和清理数据到通过统计方法或机器学习对数据进行算法分析。

通过统计方法或机器学习进行算法分析。

“企业需要良好的可视化工具。在这一点上,编程工具Python是最受欢迎的。企业需要能够构建有趣模型的工具。”MapR公司Dunning说。

Dunning说,当MapR公司调查其客户数据团队时,团队使用的最少数量的建模工具是5个,而且甚至没有进入可视化工具。

“事情变得越来越多,因为人们更加怀疑。这种其他建模技术会产生更好的模型吗?”Dunning说。

数据科学家的薪酬

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读