【牛客网】数据分析笔试刷题
1.计算权重平均值
mean()的功能是求取平均值;
nanmean()的功能是计算忽略NaN值的数组平均值。如果数组具有NaN值,我们可以找出不受NaN值影响的均值;
mean() 和 average()都有取平均数的意思, 在不考虑加权平均的前提下,两者的输出是一样的 ,
但是考虑权重的情况下,
np.average(a,weights=w) 还可以计算加权平均值;
std()计算矩阵或者数组的标准差;
2.绘图函数
boxplot()用于绘制箱线图;
plot()绘制折线图;
bar()绘制柱状图;
pie()绘制饼状图;
hist()绘制直方图的函数
3.删除元素和删除索引值的函数
pop()根据列表中的索引值来删除元素的操作
remove()根据列表中的元素值来进行元素的删除
4.排序函数
numpy.sort()对输入数组执行排序,并返回一个排序好的数组副本
numpy.argsort()对输入数组的元素值进行排序,并返回排序后的元素索引数组
numpy.where() 的返回值是满足了给定条件的元素索引值
numpy.nonzero()该函数从数组中查找非零元素的索引位置
5.数据标准化的方法
极差标准化法(min-max方法);
Z-score标准化法;
线性比例标准化法:
极大化法、极小值法、log函数标准化法和反正切函数标准化法;
PCA方法又名主成分分析方法,是一种数据降维方法,并不是标准化方法;
6.主成分分析方法的主要作用:
降低所研究数据空间的维度;
用主成分分析法构建回归模型;
用主成分分析筛选回归变量;
多维数据的一种图形表示方法;
可以通过因子负荷aij的结论,弄清X变量间的某些关系;
只能做线性变换
7.对pandas库中的to_numberic(arg,errors,downcast)函数的参数解释
errors存在三个参数{‘ignore’,‘raise’,‘coerce’},默认情况下为’raise’。
如果为“ raise”,则无效的解析将引发异常;
如果为“强制”,则无效的解析将设置为NaN;
如果为“ ignore”,则无效的解析将返回输入。
downcast =’signed’所有值都将转换为整型
8.进行相关性分析时,不必事先确定两个变量中哪个是自变量哪个是因变量,相关性分析中两个变量都是随机的变量。
9.创建指定步长的一组ndarray数组
numpy.arange(start, stop, step, dtype)根据 start 与 stop 指定的范围以及 step 设定的步长,生成一个 ndarray;
numpy.linspace 函数用于创建一个一维数组,数组是一个等差数列构成的;
numpy.logspace 函数用于创建一个于等比数列;
numpy.random.randint返回一个随机整型数;
10.numpy.random.randn能够返回标准的正态分布的数组