博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
交叉分析方法与实现
阅读量:6113 次
发布时间:2019-06-21

本文共 1066 字,大约阅读时间需要 3 分钟。

import pandas as pdimport numpy as npimport scipy.stats as ssimport matplotlib.pyplot as pltimport seaborn as snsdf = pd.read_csv("./data/HR.csv")#获得以department分组后的索引值的数组dictdp_indices = df.groupby("department").indices sales_values = df["left"].iloc[dp_indices["sales"]].valuestechnical_values = df["left"].iloc[dp_indices["technical"]].valuesprint(ss.ttest_ind(sales_values,technical_values)[1])dp_keys = list(dp_indices.keys())dp_t_mat = np.zeros([len(dp_keys),len(dp_keys)])for i in range(len(dp_keys)):    for j in range(len(dp_keys)):        p_value = ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values,                              df["left"].iloc[dp_indices[dp_keys[j]]].values)[1]        dp_t_mat[i][j] = p_valuesns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)plt.show()
img_46b64192502fc4005c397749948cf270.png
颜色越深的地方t值越接近于0,也就代表颜色越深的地方,二者的离职率是有显著差异的,而颜色淡的地方代表离职率没有显著差异

piv_tb = pd.pivot_table(df,values="left",index=["promotion_last_5years","salary"],                       columns=["Work_accident"],aggfunc=np.mean)print(piv_tb)
img_4016b545f48de7108200a0174cd24156.png
sns.heatmap(piv_tb,vmin=0,vmax=1)plt.show()
img_4b684e9b2a237b4cc569fb41cce59666.png

转载地址:http://zdjka.baihongyu.com/

你可能感兴趣的文章
onInterceptTouchEvent和onTouchEvent调用时序
查看>>
android防止内存溢出浅析
查看>>
4.3.3版本之引擎bug
查看>>
SQL Server表分区详解
查看>>
使用FMDB最新v2.3版本教程
查看>>
SSIS从理论到实战,再到应用(3)----SSIS包的变量,约束,常用容器
查看>>
STM32启动过程--启动文件--分析
查看>>
垂死挣扎还是涅槃重生 -- Delphi XE5 公布会归来感想
查看>>
淘宝的几个架构图
查看>>
Android扩展 - 拍照篇(Camera)
查看>>
JAVA数组的定义及用法
查看>>
充分利用HTML标签元素 – 简单的xtyle前端框架
查看>>
设计模式(十一):FACADE外观模式 -- 结构型模式
查看>>
iOS xcodebuile 自动编译打包ipa
查看>>
程序员眼中的 SQL Server-执行计划教会我如何创建索引?
查看>>
【BZOJ】1624: [Usaco2008 Open] Clear And Present Danger 寻宝之路(floyd)
查看>>
cmake总结
查看>>
数据加密插件
查看>>
linux后台运行程序
查看>>
win7 vs2012/2013 编译boost 1.55
查看>>