加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

官方调研重磅发布,Pandas或将重构?

发布时间:2019-10-27 18:25:47 所属栏目:教程 来源:呆鸟
导读:为指引 Pandas 未来开发方向,Pandas 官方团队于 2019 年夏搞了一次调研,这次调研历时 15 天,共有 1250 条反馈数据。问卷数据保存在 data 文件夹的 2019.csv.zip 文件里。 这里又学一招,原来 pandas 可以直接从压缩文件里读取数据文件,原文用的是 .gz

Pandas 增加新扩展类型的速度较慢。类别型(Categorical)是最常用的,此外,可空整数(Nullable Integer)与带时区的 Datetime 也很常用。

  1. sns.countplot(y='您常用的扩展数据类型是什么?',  
  2.               data=split_and_explode(df['您常用的扩展数据类型是什么?']),  
  3.               color='k').set(title="您常用的扩展数据类型是什么?",  
  4.                              ylabel="")  
  5. sns.despine(); 

官方调研重磅发布,Pandas或将重构?

我们还提出了一些问题,用以了解用户最想要的功能。

  1. sns.countplot(y='您现在最想看到的改进是什么?',  
  2.               data=df,  
  3.               color='k').set(title="您现在最想看到的改进是什么?",  
  4.                              ylabel="")  
  5. sns.despine() 

官方调研重磅发布,Pandas或将重构?

  1. common = (df[df.columns[df.columns.str.startswith("迫切想要的功能")]]  
  2.           .rename(columns=lambda x: x.lstrip("迫切想要的功能  [").rstrip(r"]")))  
  3. counts = (  
  4.     common.apply(pd.value_counts)  
  5.     .T.stack().reset_index()  
  6.     .rename(columns={'level_0': '问题', 'level_1': "重要程度", 0: "关注数量"})  
  7. )  
  8. order = ["无关紧要", "还算有用", '至关重要']  
  9. g = (  
  10.     sns.FacetGrid(counts, col="问题", col_wrap=2,  
  11.                   aspect=1.5, sharex=False, height=3)  
  12.     .map(sns.barplot, "重要程度", "关注数量", orderorder=order)  

官方调研重磅发布,Pandas或将重构?

一眼就能看出来,优化大规模数据集的处理能力是大家最想要的,从此图还能观测出:

  1.  Pandas 文档应该加大力度推广处理大规模数据集的支持库,如 Dask, vaex、 modin。
  2.  从对原生字符串数据类型与更少的内部复制需求来看,优化内存效率也是要值得一做的事情。

紧接其后的优化需求是整数缺失值,这个功能其实已经在 Pandas 0.24 时已经推出了,但还不是默认方式,与其它 pandas API 的兼容性也有待优化。

与 NumPy 相比,pandas 略显激进。在即将推出 1.0 版里,我们将废弃很多功能,并对很多 API 进行翻天覆地的改变,好在大部分人都能接受这样的改变。

  1. df['Pandas 能满足您的需求吗'].value_counts(normalize=True).apply(pct_format)  
  1. 是    94.89%  
  2. 否     5.11%  
  3. Name: Pandas 能满足您的需求吗, dtype: object 

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读