设为首页加入收藏
电商数据描述统计分析 (来源:凯发娱乐app)
作者:凯发娱乐app    发布于:2020-06-24 16:09    文字:【】【】【


     

  常用的统计描述量有:平均数,中位数,分位数,众数,方差,标准差,标准分。数据分布的特征可以从以下三个方面来描述。一是分布的集中趋势,反映各数据向其中心值靠拢或聚合的程度,二是分布的离散程度,反映各数据原理其中心值的趋势,三是分布的形状,反映数据分布的偏态和峰态。

  中位数和分位数:这都属于顺序数据,但是中位数和分位数都不适用于分类数据。中位数即数据集中间的数,分位数一般多是四分位数,还有十分位数和百分位数等等。四分位数也叫四分位点,通过三个点将全部数据等分为4部分,处于25%位置的数教下四分位数,处在75%位置上的数为上四分位数。四分位数可以用来描述数据集的整体情况,还可以用来查找异常值。

  平均数:也称均值,是最常用的测度值。但是主要适用于数值型数据,不适用于分类和顺序数据。需要注意的是平均数受异常值影响较大,当存在异常值时不能使用平均数来描述数据的情况。

  异众比率:异众比率是指非众数占总数据量的比例,表示众数对于数据集的代表程度。异众比率越大,证明非众数的比例越大,众数的代表性很差。

  离散系数:也称变异系数,是标准差和平均值的比值。用于比较不同数据的离散程度,离散系数大,说明数据的离散程度大。

  分类数据,主要使用异众比率来测度其离散程度,顺序数据多使用四分位数,数值数据多使用方差和标准差,当需要对不同样本数的数据进行离散程度的比较时,主要使用离散系数。

  通过以上数据,我们首先要排除异常值。然后我们可以知道用户的购买数量,用户喜爱的购买时间,哪个商品销量更好,婴儿性别的比例,婴儿年龄的分布。以及商品销量和时间的关系,是否存在季节性商品。可能使用众数,四分位数,标准分。可能用到条形图,箱型图。


脚注信息
版权所有 Copyright(C)2009-2015 凯发娱乐app(上海)实业有限责任公司