网易首页 > 网易号 > 正文 申请入驻

区区几行Python代码,就能实现全面自动探索性数据分析!

0
分享至

来源丨数据STUDIO

探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA Python包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的Python包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。

  1. DTale

  2. Pandas-profiling

  3. sweetviz

  4. autoviz

  5. dataprep

  6. KLib

  7. dabl

  8. speedML

  9. datatile

  10. edaviz

    1、D-Tale

D-Tale使用Flask作为后端、React前端并且可以与ipython notebook和终端无缝集成。D-Tale可以支持Pandas的DataFrame, Series, MultiIndex, DatetimeIndex和RangeIndex。

import dtale
import pandas as pd
dtale.show(pd.read_csv("titanic.csv"))

D-Tale库用一行代码就可以生成一个报告,其中包含数据集、相关性、图表和热图的总体总结,并突出显示缺失的值等。D-Tale还可以为报告中的每个图表进行分析,上面截图中我们可以看到图表是可以进行交互操作的。

2、Pandas-Profiling

Pandas-Profiling可以生成Pandas DataFrame的概要报告。panda-profiling扩展了pandas DataFrame df.profile_report(),并且在大型数据集上工作得非常好,它可以在几秒钟内创建报告。

#Install the below libaries before importing
import pandas as pd
from pandas_profiling import ProfileReport

#EDA using pandas-profiling
profile = ProfileReport(pd.read_csv('titanic.csv'), explorative=True)

#Saving results to a HTML file
profile.to_file("output.html")


3、Sweetviz

Sweetviz是一个开源的Python库,只需要两行Python代码就可以生成漂亮的可视化图,将EDA(探索性数据分析)作为一个HTML应用程序启动。Sweetviz包是围绕快速可视化目标值和比较数据集构建的。

import pandas as pd
import sweetviz as sv

#EDA using Autoviz
sweet_report = sv.analyze(pd.read_csv("titanic.csv"))

#Saving results to HTML file
sweet_report.show_html('sweet_report.html')

Sweetviz库生成的报告包含数据集、相关性、分类和数字特征关联等的总体总结。

Autoviz包可以用一行代码自动可视化任何大小的数据集,并自动生成HTML、bokeh等报告。用户可以与AutoViz包生成的HTML报告进行交互。

import pandas as pd
from autoviz.AutoViz_Class import AutoViz_Class

#EDA using Autoviz
autoviz = AutoViz_Class().AutoViz('train.csv')


5、Dataprep

Dataprep是一个用于分析、准备和处理数据的开源Python包。DataPrep构建在Pandas和Dask DataFrame之上,可以很容易地与其他Python库集成。

DataPrep的运行速度这10个包中最快的,他在几秒钟内就可以为Pandas/Dask DataFrame生成报告。

from dataprep.datasets import load_dataset
from dataprep.eda import create_report

df = load_dataset("titanic.csv")
create_report(df).show_browser()

klib是一个用于导入、清理、分析和预处理数据的Python库。

import klib
import pandas as pd

df = pd.read_csv('DATASET.csv')
klib.missingval_plot(df)
klib.corr_plot(df_cleaned, annot=False)

klib.dist_plot(df_cleaned['Win_Prob'])
klib.cat_plot(df, figsize=(50,15))

klibe虽然提供了很多的分析函数,但是对于每一个分析需要我们手动的编写代码,所以只能说是半自动化的操作,但是如果我们需要更定制化的分析,他是非常方便的。


7、Dabl

Dabl不太关注单个列的统计度量,而是更多地关注通过可视化提供快速概述,以及方便的机器学习预处理和模型搜索。

dabl中的Plot()函数可以通过绘制各种图来实现可视化,包括:

  • 目标分布图

  • 散点图

  • 线性判别分析

import pandas as pd
import dabl

df = pd.read_csv("titanic.csv")
dabl.plot(df, target_col="Survived")


8、Speedml

SpeedML是用于快速启动机器学习管道的Python包。SpeedML整合了一些常用的ML包,包括 Pandas,Numpy,Sklearn,Xgboost 和 Matplotlib,所以说其实SpeedML不仅仅包含自动化EDA的功能。

SpeedML官方说,使用它可以基于迭代进行开发,将编码时间缩短了70%。

from speedml import Speedml

sml = Speedml('../input/train.csv', '../input/test.csv',
target = 'Survived', uid = 'PassengerId')
sml.train.head()

sml.plot.distribute()

sml.plot.ordinal('Parch')

sml.plot.ordinal('SibSp')

sml.plot.continuous('Age')


9、DataTile

DataTile(以前称为Pandas-Summary)是一个开源的Python软件包,负责管理,汇总和可视化数据。DataTile基本上是PANDAS DataFrame describe()函数的扩展。

import pandas as pd
from datatile.summary.df import DataFrameSummary

df = pd.read_csv('titanic.csv')
dfs = DataFrameSummary(df)
dfs.summary()


10、edaviz

edaviz是一个可以在Jupyter Notebook和Jupyter Lab中进行数据探索和可视化的python库,他本来是非常好用的,但是后来被砖厂(Databricks)收购并且整合到bamboolib 中,所以这里就简单的给个演示。

总结

在本文中,我们介绍了10个自动探索性数据分析Python软件包,这些软件包可以在几行Python代码中生成数据摘要并进行可视化。通过自动化的工作可以节省我们的很多时间。

Dataprep是我最常用的EDA包,AutoViz和D-table也是不错的选择,如果你需要定制化分析可以使用Klib,SpeedML整合的东西比较多,单独使用它啊进行EDA分析不是特别的适用,其他的包可以根据个人喜好选择,其实都还是很好用的,最后edaviz就不要考虑了,因为已经不开源了。

以上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全家都没案底为啥政审没过?工作人员拿出浏览记录,男生社死了

全家都没案底为啥政审没过?工作人员拿出浏览记录,男生社死了

阿蒙聊教育
2024-09-05 21:44:28
王兴可能要败了!不是因为京东外卖的上线,而是刘强东的4个保证

王兴可能要败了!不是因为京东外卖的上线,而是刘强东的4个保证

猫小狸同学
2025-02-17 17:35:03
任正非果然有远见!华为养的两只独角兽,成了Mate40翻身的王牌!

任正非果然有远见!华为养的两只独角兽,成了Mate40翻身的王牌!

小兔子发现大事情
2025-02-18 10:08:35
薛凯琪与黑人迈克尔同居多年,为何美女都喜欢黑人?

薛凯琪与黑人迈克尔同居多年,为何美女都喜欢黑人?

娱不咸
2025-02-03 10:30:03
事实证明,“消失”7年臭名昭著的周立波,已经走上了“不归路”

事实证明,“消失”7年臭名昭著的周立波,已经走上了“不归路”

启农说
2024-09-20 07:45:03
父母最大的聪明,往往是舍得对孩子做这些事,愚蠢的父母会反着来

父母最大的聪明,往往是舍得对孩子做这些事,愚蠢的父母会反着来

手工制作阿爱
2025-02-18 12:03:26
杨姨怒怼黑粉,透露汪小菲人品!暴瘦12斤的具俊晔,资产藏不住了

杨姨怒怼黑粉,透露汪小菲人品!暴瘦12斤的具俊晔,资产藏不住了

小白兔YY
2025-02-18 10:58:32
郑钦文迪拜首战时间确定!无缘复仇贾巴尔,右臂仍佩戴护具

郑钦文迪拜首战时间确定!无缘复仇贾巴尔,右臂仍佩戴护具

全景体育V
2025-02-18 06:43:35
广东男子过度溺爱18岁女儿,送成人礼被母亲撞见,失控酿成惨剧

广东男子过度溺爱18岁女儿,送成人礼被母亲撞见,失控酿成惨剧

民间精选故事汇
2025-01-18 11:20:03
第一个被DeepSeek整体淘汰的行业出现了!这4个行业也将面临风险

第一个被DeepSeek整体淘汰的行业出现了!这4个行业也将面临风险

投行圈子
2025-02-17 10:57:57
62岁李连杰复出!票房预测百亿!中国武侠片要被吴京重新改写了?

62岁李连杰复出!票房预测百亿!中国武侠片要被吴京重新改写了?

观察鉴娱
2025-02-18 09:11:08
“像火车卧铺的女儿房”走红,撕开了多少二胎父母的“虚伪假面”

“像火车卧铺的女儿房”走红,撕开了多少二胎父母的“虚伪假面”

妍妍教育日记
2025-02-12 20:52:23
本田日产整合失败更多细节曝光:本田希望日产放弃其混动技术

本田日产整合失败更多细节曝光:本田希望日产放弃其混动技术

IT之家
2025-02-17 22:55:07
比莫兰特还能作!不愿出战全明星,嘲讽老牌球星,联盟又选错门面

比莫兰特还能作!不愿出战全明星,嘲讽老牌球星,联盟又选错门面

你的篮球频道
2025-02-17 15:53:07
韩裔著名女演员克拉拉COS敖闰,并在评论区表示电影好看

韩裔著名女演员克拉拉COS敖闰,并在评论区表示电影好看

夏聊史
2025-02-18 10:08:40
小井在直播间喊张兰为“张妈妈”,网友称:比亲生儿子省心多了

小井在直播间喊张兰为“张妈妈”,网友称:比亲生儿子省心多了

美食阿鳕
2025-02-18 11:59:59
99%的观众都不知道,饺子导演为何要设计无量仙翁喝哪吒尿的剧情

99%的观众都不知道,饺子导演为何要设计无量仙翁喝哪吒尿的剧情

简清酱
2025-02-17 19:56:08
民企座谈会意义有多大?多位首席解读,银河评价“民企迎重估”,东吴称“提振市场信心”

民企座谈会意义有多大?多位首席解读,银河评价“民企迎重估”,东吴称“提振市场信心”

财联社
2025-02-18 08:20:08
除了印度,中、美、俄、日、德、法等大国都已公布2024年GDP了

除了印度,中、美、俄、日、德、法等大国都已公布2024年GDP了

南生今世说
2025-02-17 11:29:38
普京失算了,特朗普突然变脸,美国或对俄开战?俄有3个没想到

普京失算了,特朗普突然变脸,美国或对俄开战?俄有3个没想到

美洲报姐
2025-02-18 12:10:54
2025-02-18 13:16:49
数据不吹牛 incentive-icons
数据不吹牛
趣味+实用数据分析
415文章数 4500关注度
往期回顾 全部

科技要闻

中国商业奇迹:营销没花钱 对手都主动接入

头条要闻

美国翻脸后 马克龙召集11位领导人开会向特朗普提条件

头条要闻

美国翻脸后 马克龙召集11位领导人开会向特朗普提条件

体育要闻

我的天赋不及老爸10%,但我仍为自己骄傲

娱乐要闻

央视新闻主播团队大调整!00后主播登场

财经要闻

习近平:民营经济发展前景广阔大有可为

汽车要闻

岚图全品类搭载华为乾崑智驾 梦想家将发布新版型

态度原创

艺术
家居
时尚
教育
房产

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

家居要闻

自然人居空间 恬淡安舒

五六十岁阿姨别瞎打扮,遵循这3个穿衣优雅的套路, 大方体面

教育要闻

高考地理中的地摊经济

房产要闻

政策调整、大批名校开建、学位猛增!海南“神兽”家长看完都笑了!

无障碍浏览 进入关怀版