基础统计学:数据科学家必知的5个概念

热门标签：统计学

2024-01-01 阅读量：1142 留美汇

数据可以帮助人们了解个人和职业生活中的模式和异常现象。了解基本的统计概念可以帮助您更容易地发现这些趋势和异常。了解这些概念和工具的工作原理非常重要，这样你就能理解数据科学的研究成果，构建自己的研究并正确解读数据。

在本文中，我们将讨论五个重要的基本统计概念，并介绍何时以及如何使用这些概念，以便您找到最适合自己研究或学习工作的方法。

-、什么是基本统计学概念?

基本统计概念是数据科学家和其他人用来帮助解释信息并使其有用的想法和方法。您可以使用这些概念和工具来分析和理解任何类型的商业数据，从销售记录到材料定价再到市场预测。一些统计工具可以帮助你发现趋势，并对未来的销售或因果关系进行预测。还有一些工具可以帮助您在不确定进一步研究方向时，对大量数据进行分类，

财务专业人员可能会使用基本的统计工具来了解公司业绩，而营销专业人员可能会使用这些工具对客户或用户进行调查。产品开发人员可能会分析客户对当前产品的反应，而高管或企业主可能会使用这类分析来为战略计划和行动提供信息。学术或研究领域的人员通常使用统计工具来了解人类、动物和物质的行为和反应。

二、五个基本的统计分析概念

1. 回归分析

回归分析是一种比较两个变量的方法，其中一个变量是独立的，而另一个变量(或其他变量)取决于第-个变量。根据您要分析的变量数量不同，可以使用不同的回归方法。一旦计算了一组数据的回归分析您可以根据独立变量的值来预测未来的结果。回归分析关注趋势，因此将回归分析与远离您的预期的任何离群数据点的审查和分析相结合非常重要。

公式如下:

Y=a+mx+e

其中:

Y=独立变量

a=Y截距，当X=0时的Y值

m=数据线的斜率

x=依赖变量

e=误差项，在使用回归公式进行预测时使用

示例:Better Bakery试图预测如果他们知道摆放了多少个甜甜圈，他们将销售多少个甜甜圈。独立变量是摆放的甜甜圈数量、而售出的数量是依赖变量。当他们没有摆放任何甜甜圈时，他们不会销售任何甜甜圈，因此他们的'a"值为零。星期四，他们摆放了48个甜甜圈，卖出了36个。星期五，他们摆放了60个甜甜圈，卖出了45个。将公式应用于这两天，可以让他们了解他们的甜甜圈回归的斜率:星期四:48个摆放的甜甜圈=0+(mx36)

星期五:60=0+(mx45)

在这两个方程中，m=0.75，因此面包店可以在公式中使用该值来预测他们未来可能销售的甜甜圈数量。

2.计算平均值

数据集的平均值，也称为平均值，可以帮助您了解数据在集合内的排列方式以及数字最频繁出现的位置。当试图获得关于单个交易或事件的大小的一般概念时，它最为有用。将平均值与其他信息(如数据集的众数和范围)结合使用，可以帮助更全面地理解平均值。计算平均值的公式如下:(集合中所有数据点的总和)/(集合中的数据点数量)=数据集的平均值示例:September Sales and Distributing在一天内完成了五次销售，总额分别为$3.000、$5.500、$2.000、$4.000和$6.500。要计算他们当天的平均销售额、他们将销售额相加然后除以五:

($3,000+$5,500+$2,000+$4,000+$6,500)/5=平均值或平均数$21,000/5=$4,200=该天每笔销售的平均大小

3.标准差

标准差测量了数据在其范围内的分布。具有较大标准差的数据集的数据点分布在一个广泛的区域内，而具有较小标准差的数据集的大部分数据点则聚集在一起。标准差在数据具有合理的传播范围并且没有太多离群值时最有用。有两个公式来计算标准差，具体取决于您是否只有一组数据的样本或整个总体的全部数据。以下是其中一个公式:

s=√([Σ(xi -所有x值的平均值)2]/[N -1])

其中:

s=样本标准差

xi=观察值，从1到N

N=观测次数示例:Mouse Greenhouse正在测量夏季12周内其肥料袋销售量的变化。他们首先通过计算夏季每周销售总额的均值来计算他们的标准差。

然后，对于每周的销售数量(公式中的xi)，他们从该周的总额中减去均值并将结果平方。他们将所有这些平方值相加，并将其除以观察次数减去一，即11。然后他们取其平方根，并找到他们的标准差，对于这个样本来说是六。这意味着在夏季的大多数周，他们可以预计卖出的肥料袋数量将在均值周销售额的六个内。

4.样本大小确定

样本大小确定是从大样本中选择适当数据进行分析的过程。正确选择的样本大小可以使您获得与分析整个样本相同的结果，但效率更高，因为涉及的处理更少。在计算样本大小时需要考虑以下因素总体大小:这是所有可能数据的最大大小。如果您已经完成了研究，那么您的总体大小是您获得的数据点或回应的数量，而如果您正在设计一项研究，那么总体大小是可能数据点的最大数量。误差边界:误差边界确定您愿意在研究中接受多少误差，置信水平:这是您的结果(如计算的平均值)在整个数据集的真实平均值内的百分比可能性。确定必要的置信水平后，通常为90%或更高，使用表格找到与所选置信水平相对应的Z分数或常数值，该值是样本大小方程所需的。以下是这三个最常见置信水平的Z分数:

90%=1.645

95%=1.96

99%=2.576

标准差:这是您期望在数据中的方差量，

计算此概念的公式如下:

样本大小=(z分数2x标准差 x[1-标准差])/误差边界5.假设检验

假设检验是一个过程，您可以使用它来确定数据是否支持特定的假设。您可以通过首先确定您期望的特定公式来执行假设检验。这个期望的结果成为您的第一个假设，或H1。意外的结果是零假设，或HO。需要注意的是，假设检验公式取决于您正在分析和测试的内容。例如，假设可能是与两个变量之间的关系相关的具体公式，以便一些数值结果意味着H1成立，而其他数值则直接显示HO成立。计算方式如下:

HO:A≠B

H1: A=B

其中:

A=统计学家正在研究的值或变量的数据

B=研究员的预测

示例:Smooth Storage Solutions相信他们的客户将他们最大的租赁卡车用于超过100英里的搬家，所以这是他们的第一个假设:

H1:平均英里数 >每次出行100

零假设将是任何情况下，他们都错了:

HO:平均英里数 <每次出行100或平均英里数=每次出行100

他们在每辆卡车租赁前后检查了

卡车的里程表，并发现所有的行程都至少200英里，因此他们有理由相信他们的第一个假设是正确的。

底图.jpg