加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一文看懂怎么用Python做数据分析

发布时间:2019-06-26 21:22:53 所属栏目:教程 来源:程序员ACE
导读:常遇到两类朋友。一类是会爬虫但不知道如何进一步做数据分析的,一类是平常用 Excel 做分析但不太会用 Python 分析的。如果和你很像,那下面这篇系统长文会很适合你,建议先收藏。 Excel 是数据分析中最常用的工具,本文通过 Python 与 excel 的功能对比介

Excel 中通过选中单元格并查看开始菜单中的数值类型来判断数据的格式。Python 中使用 dtypes 函数来返回数据格式。

一文看懂怎么用 Python 做数据分析

Dtypes 是一个查看数据格式的函数,可以一次性查看数据表中所有数据的格式,也可以指定一列来单独查看。

  1. #查看数据表各列格式 
  2. df.dtypes 
  3.   
  4. id                   int64 
  5. date        datetime64[ns] 
  6. city                object 
  7. category            object 
  8. age                  int64 
  9. price              float64 
  10. dtype: object 
  11. #查看单列格式 
  12. df['B'].dtype 
  13.   
  14. dtype('int64') 

查看空值

Excel 中查看空值的方法是使用“定位条件”功能对数据表中的空值进行定位。“定位条件”在“开始”目录下的“查找和选择”目录中。

一文看懂怎么用 Python 做数据分析

Isnull 是 Python 中检验空值的函数,返回的结果是逻辑值,包含空值返回 True,不包含则返回 False。可以对整个数据表进行检查,也可以单独对某一列进行空值检查。

  1. #检查数据空值 
  2. df.isnull() 
一文看懂怎么用 Python 做数据分析
  1. #检查特定列空值 
  2. df['price'].isnull() 
  3.   
  4. 0    False 
  5. 1     True 
  6. 2    False 
  7. 3    False 
  8. 4     True 
  9. 5    False 
  10. Name: price, dtype: bool 

查看唯一值

Excel 中查看唯一值的方法是使用“条件格式”对唯一值进行颜色标记。Python 中使用 unique 函数查看唯一值。

一文看懂怎么用 Python 做数据分析

Unique 是查看唯一值的函数,只能对数据表中的特定列进行检查。下面是代码,返回的结果是该列中的唯一值。类似与 Excel 中删除重复项后的结果。

  1. #查看city列中的唯一值 
  2. df['city'].unique() 
  3.   
  4. array(['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '], dtype=object) 

查看数据表数值

Python 中的 Values 函数用来查看数据表中的数值。以数组的形式返回,不包含表头信息。

  1. #查看数据表的值 
  2. df.values 
  3.   
  4. array([[1001, Timestamp('2013-01-02 00:00:00'), 'Beijing ', '100-A', 23, 
  5.         1200.0], 
  6.        [1002, Timestamp('2013-01-03 00:00:00'), 'SH', '100-B', 44, nan], 
  7.        [1003, Timestamp('2013-01-04 00:00:00'), ' guangzhou ', '110-A', 54, 
  8.         2133.0], 
  9.        [1004, Timestamp('2013-01-05 00:00:00'), 'Shenzhen', '110-C', 32, 
  10.         5433.0], 
  11.        [1005, Timestamp('2013-01-06 00:00:00'), 'shanghai', '210-A', 34, 
  12.         nan], 
  13.        [1006, Timestamp('2013-01-07 00:00:00'), 'BEIJING ', '130-F', 32, 
  14.         4432.0]], dtype=object) 

查看列名称

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读