深入解析:数据建模中的常用探索性数据分析方法

更新:11-09 民间故事 我要投稿 纠错 投诉

很多朋友对于深入解析:数据建模中的常用探索性数据分析方法和不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!

df.info # 检查数据类型,字符类型,数值类型等。df.value,df.info()直接检查数据。

df["性别"].value_counts(dropna=False)

# 检查分类变量的分布,df["gender"].nunique(), df["gender"].unique()。

df.describe() # 数据类型分布视图,include=["O"],类别类型设置参数也可。

2、数据质量分析

缺失率分析

df.isnull().any()

df.isnull().all()

var_null=(df.isnull().sum()/df.isnull().count()).sort-values(ascending=False) * 100

var_null[var_null 80].index.values

# 缺失率分析,并且可以根据阈值过滤变量。

身份分析

异常值分析

p=df[var].boxplot(return_type="dict", sym="o", Whis=3, flierprops={"maker":"o", "markerfacecolor":"red", "color":"black "})

plt.savefig(文件夹+ "{}-{}.png".format(index, var))

# 主要通过箱线图观察,在孤立森林等算法中可以找到更复杂的异常值检测方法。

其他常用方法

agg_grouops=pd.cut(df[""年龄], bins=[19, 40, 65, np.inf])

pd.crosstab(age_groups, df["性别"])

# 交叉表示例,常用groupby、pivot_table。

二、变量可视化分析

主要使用两个库:matplotlib和seaborn。

1、单变量分析

数字变量

#直方图

sns.set_style("白色")

从scipy.stats 导入规范

# df["年龄"]=np.log(df["年龄"])

sns.distplot(df["年龄"], kde=True, hist=False, fit=norm)

# kdeplot(绘制累积分布图)

#df["age"].plot(kind="hist")

# pandas 通用图形函数、boxplot 箱线图、散点图、lie 折线图、bar 条形图、pie # 饼图。

# 箱线图

sns.boxplot(x="type", y="venue", data=df) # x 增加了分析的适用性。

分类变量

# 条形图

plt.figure(figsize=(14, 8))

ax=sns.barplot(x="类型", y="收入", Hue="性别", data=df)

#estimatoer可以修改计算函数,默认平均值,修改为count时,相当于countplot()

# sns.countplot(x="类型", 色调="性别", 数据=df)

# capsize 设置error bar cap bar的宽度,可以更改ax的图片参数设置。

# ax.set(yscale="log")

# ax.figure.savefig("pic")

plt.title("条形图")

plt.legend(loc="最佳")

#饼图

图, 轴=plt.subplots(1, 2, Figsize=(14, 8))

sns.countplot(x="astro", Hue="target", data=df, ax=axs[0])

axs[0] .set_title("astro")

df["target"].value_counts().plot(x=None, y=None, kind="pie", ax=axs[1], autopct="%1.2f%%") # 输出100%良好风格。

axs[0] .set_title("目标")

plt.xticks(rotataion=90) # 不生效,原因很容易知道。

2、多变量分析

数字变量

# 联合分布

sns.jointplot("年龄", "工作时间", data=df, kind="reg", size=10)

sns.pairplot(df, vars=["age", "debt", "cs_cnt"], Hue="target", diag_kind="kde", kind="reg", size=7) # vars 中的变量,它们必须全部是数字。

分类变量

#类别类型和数值类型

sns.pointplot(x="小时", y="计数", 色调="季节", join=True, data=df)

# 参考官方文档,这张图的实际含义会更清楚。

g=sns.FacetGrid(df, col="目标", row="性别")

# g.sharex=False

g,map(plt.scatter, "age", "worktime") # 非常方便分析。

热图

三、常用技巧及子图绘制

1、常用参数及技巧

plt.style.use("ggplot") # r语言风格

plt.style.可用

%config inlinebackend.figure_format="视网膜"

plt.grid(True, axis="y") # 添加网格

plt.text(3.1, 0.3, "sin function") # 添加文字描述

plt.xlim([-10, 15]) # 设置x轴的取值范围

plt.axis([0, 6, 0, 20]) # 设置坐标轴范围,xmin, xmax, ymin, ymax

plt.xticks((0, 500, 1000), ("0", "0.5K", "1k")) # 替换坐标刻度值

#

plt.xticks(np.arange(10), top10.name)

# plt.set_xticks(范围(0, n, 20))

# plt.set_xticklabels(["%d" %val for val in range(0, n, 20)])

2、子图绘制

Fig.subplots_adjust(wspace=0.5, hspace=0.3) # 调整子图的水平和垂直距离。

Fig.tight_layout() # 自动调整子图之间的距离。

# 方法有很多,这里只列出我最容易使用的。

图=plt.figure()

ax1=图.add_subplot(131)

3、通用绘图函数

g=sns.FacetGrid(df, col="目标")

g.map(sns.distplot, "年龄")

sns.factorplot(data=df, x="type", y="cum", col="target") # kind="bar"

# 该图类是默认绘制的,类似于jointpoint。

g=sns.JointGrid(x="age", y="debt", data=df, size=10) # 与sns.PairGrid 类似。

g.plot_joint(sns.regplot, order=3)

用户评论

一尾流莺

想做一些数据分析吗?EDA方法真的超级有用!

    有7位网友表示赞同!

江山策

最近在学数据建模,发现这篇文章讲得很清楚。

    有10位网友表示赞同!

剑已封鞘

了解一下常用的EDA方法,对后面建模会更有帮助吧。

    有14位网友表示赞同!

◆乱世梦红颜

做任何数据分析之前都需要先EDA,这是基本步骤。

    有13位网友表示赞同!

風景綫つ

这个文章应该很全面,涵盖了大部分常用EDA方法。

    有17位网友表示赞同!

眷恋

学习数据挖掘肯定要了解这些基础的探索性数据分析手法。

    有16位网友表示赞同!

风中摇曳着长发

分享这篇文章给我的同学一起看看,我们都在学这个东西。

    有17位网友表示赞同!

焚心劫

以前不知道EDA的方法这么多种,感觉很有收获。

    有6位网友表示赞同!

红尘烟雨

做完EDA之后才能更精确地确定建模方法吧?

    有10位网友表示赞同!

冷眼旁观i

数据清洗和探索分析真的很重要,这篇文章正好讲了这些。

    有13位网友表示赞同!

闷骚闷出味道了

学习了这么多EDA方法,以后的项目就更容易上手了。

    有8位网友表示赞同!

罪歌

感觉数据分析越来越重要了,我要好好学习一下这些工具。

    有15位网友表示赞同!

冷风谷离殇

学习数据建模真的很有挑战性,但是也很有意思。

    有19位网友表示赞同!

早不爱了

这篇文章讲得通俗易懂,即使不熟悉数据也可以看明白。

    有14位网友表示赞同!

幸好是你

想做一些深度学习,所以想多了解一下EDA方面的知识。

    有5位网友表示赞同!

执念,爱

这个标题的关键词我也在找!原来是这么个称呼,还挺有特色的。

    有14位网友表示赞同!

秒淘你心窝

以后需要用到这些方法的时候可以参考一下这篇文章的总结。

    有13位网友表示赞同!

话扎心

数据建模是一个体系性的学习过程,从EDA开始就很重要了。

    有8位网友表示赞同!

夏以乔木

发现这个平台有很多关于数据科学的文章分享,很不错!

    有9位网友表示赞同!

【深入解析:数据建模中的常用探索性数据分析方法】相关文章:

1.蛤蟆讨媳妇【哈尼族民间故事】

2.米颠拜石

3.王羲之临池学书

4.清代敢于创新的“浓墨宰相”——刘墉

5.“巧取豪夺”的由来--米芾逸事

6.荒唐洁癖 惜砚如身(米芾逸事)

7.拜石为兄--米芾逸事

8.郑板桥轶事十则

9.王献之被公主抢亲后的悲惨人生

10.史上真实张三丰:在棺材中竟神奇复活

上一篇:探寻人生哲理:电视剧《房前屋后》25条经典台词解析 下一篇:优化模板中表单错误信息显示技巧