加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

14个QA,讲述python与数据科学的“暧昧情事”

发布时间:2019-05-06 01:12:32 所属栏目:建站 来源:读芯术
导读:Python最近火了,大红大紫那种。PYPL(编程语言受欢迎程度) 四月官方榜单宣布,Python荣获NO.1,竟然连朋友圈里的文科生都开始转发Python课程打卡的链接了这是怎样一个令全民疯狂的语言? 作为编程界的头牌名媛,Python平易近人的态度和精明婉约的灵动深得各

以下是如何将列表编入NumPy数组的方法:

以下是如何在NumPy中进行数组乘法和计算点积的方法:

以下是如何在NumPy中进行矩阵乘法:

5. Python中的统计分析

Scipy包中包含专门用于统计的模块(包的代码的子部分)。

你可以使用'from scipy import stats'命令将其导入(在程序中使其功能可用)到你的笔记本中。该软件包包含计算数据统计测量、执行统计测试、计算相关性、汇总数据和研究各种概率分布所需的一切。

以下是使用Scipy快速访问数组的汇总统计信息(最小值,最大值,均值,方差,偏斜和峰度)的方法:

6. Python中的数据操作

数据科学家必须花费大量的时间来清理和整理数据。幸运的是,Pandas软件包可以帮助我们用代码而不是手工来完成这项工作。

使用Pandas执行的最常见任务是从CSV文件和数据库中读取数据。

它还具有强大的语法,可以将不同的数据集组合在一起(数据集在Pandas中称为DataFrame)并执行数据操作。

使用.head方法查看DataFrame的前几行:

使用方括号选择一列:

通过组合其他列来创建新列:

7. 在Python中使用数据库

为了使用pandas read_sql方法,必须提前建立与数据库的连接。

连接数据库最安全的方法是使用Python的SQLAlchemy包。

SQL本身就是一种语言,并且连接到数据库的方式取决于你正在使用的数据库。

8. Python中的数据工程

有时我们倾向于在数据作为Pandas DataFrame形式到达我们的项目之前,对其进行一些计算。

如果你正在使用数据库或从Web上抓取数据(并将其存储在某处),那么移动数据并对其进行转换的过程称为ETL(提取,转换,加载)。

你从一个地方提取数据,对其进行一些转换(通过添加数据来总结数据,查找均值,更改数据类型等),然后将其加载到可以访问的位置。

有一个非常酷的工具叫做Airflow,它非常善于帮助管理ETL工作流程。更好的是,它是用Python编写的,由Airbnb开发。

9. Python中的大数据工程

有时ETL过程可能非常慢。如果你有数十亿行数据(或者如果它们是一种奇怪的数据类型,如文本),可以使用许多不同的计算机分别进行处理转换,并在最后一秒将所有数据整合到一起。

这种架构模式称为MapReduce,它很受Hadoop的欢迎。

如今,很多人使用Spark来做这种数据转换/检索工作,并且有一个Spark的Python接口叫做PySpark。

MapReduce架构和Spark都是非常复杂的工具,这里我不详细介绍。只要知道它们的存在,如果你发现自己正在处理非常缓慢的ETL过程,PySpark可能会有所帮助。

10. Python中的进一步统计

我们已经知道可以使用Scipy的统计模块运行统计测试、计算描述性统计、p值以及偏斜和峰度等事情,但Python还能做些什么呢?

你应该知道的一个特殊包是Lifelines包。

使用Lifelines包,你可以从称为生存分析的统计子字段计算各种函数。

生存分析有很多应用。我们可以用它来预测客户流失(当客户取消订阅时)以及零售商店何时可能会被盗窃。

这些与包的创造者想象它将被用于完全不同(生存分析传统上是医学统计工具)的领域。但这只是展示了构建数据科学问题的不同方式!

11. Python中的机器学习

这是一个重要的主题,机器学习正在风靡世界,是数据科学家工作的重要组成部分。

简而言之,机器学习是一组允许计算机将输入数据映射到输出数据的技术。有一些情况并非如此,但它们属于少数,以这种方式考虑ML通常很有帮助。

Python有两个非常好的机器学习包。

(1) Scikit-Learn

在使用Python进行机器学习的时候都会花大部分时间用于使用Scikit-Learn包(有时缩写为sklearn)。

这个包实现了一大堆机器学习算法,并通过一致的语法公开它们。这使得数据科学家很容易充分利用每种算法。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读