利用 R 语言的 summary 函数探索数据

2025-01-21 13:09 工作计划

引言

在数据分析中，对数据集进行摘要和统计非常重要。R 语言的 `summary` 函数提供了强大且灵活的功能，用于生成数据的综合统计摘要，帮助研究人员和数据分析师快速了解数据的总体情况。

summary 函数的用途

`summary` 函数可应用于各种数据类型，包括向量、数据框、因子和列表。它生成一个对象，其中包含一系列统计量，具体取决于输入数据的类型。对于向量，它提供最小值、值、中位数、均值、标准等。对于数据框，它会计算每列的统计量。对于因子，它生成各个级别的频率表。

函数语法

`summary(object, ...) → summary_object`

其中：

`object` 是要进行摘要的 R 对象。 `...` 是可选参数，用于指定要计算的其他统计量或自定义输出。

输出

`summary` 函数返回一个 `summary_object`，该对象包含以下部分：

基本统计量：最小值、值、中位数、均值、标准和四分位数。分位数：特定分位数的值，如 25%、50% 和 75%。其他统计量：具体取决于数据的类型，可能会包括众数、模态、范围、斜度和峰度等。

自定义输出

`summary` 函数可以使用以下参数进行自定义：

`na.rm`：指定是否删除缺失值。 `trim`：指定要从计算中排除的分位数百分比。 `fun`：指定用于计算自定义统计量的函数。 `conf.ll`：指定用于计算置信区间的置信水平。

示例

```r 对向量进行摘要 summary(c(1, 2, 3, 4, 5))

对数据框进行摘要 summary(data.frame(age = c(20, 25, 30), = c("M", "F", "M")))

使用自定义函数计算众数 summary(data.frame(salary = c(1000, 2000, 3000)), fun = function(x) unique(x)[which.max(table(x))]) ```

结论

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系 836084111@qq.com 删除。