找回密码
 注册
搜索
热搜: 活动 交友
查看: 125|回复: 0

R 相关教程

[复制链接]

2

主题

0

回帖

12

积分

新手上路

积分
12
发表于 2023-11-6 13:14:06 | 显示全部楼层 |阅读模式
本帖最后由 manha123@ 于 2023-11-7 13:55 编辑


在本教程中,您将探索多种数据可视化方法及其基础统计数据。特别是在识别数据框中变量之间的趋势和关系方面。 没错,您将重点关注相关性和回归等概念!首先,您将了解 R 中的相关性。然后,您将了解如何使用ggplot2和 等包在 R 中绘制相关矩阵GGally。最后,您将看到存在哪些类型的相关性以及它们对您的进一步分析有何影响。 如果您有兴趣深入研究该主题,请考虑参加的相关性和回归课程。 背景 在今天的教程中,您将使用从Kaggle获取的电影数据集,以了解如何更好地理解变量之间的关系。 我对数据进行了轻微的整理,通过确保货币等使用相同的单位,我们的分析是“同类”分析。如果没有这个步骤,我们对gross、 、budget和 等变量的统计分析profit将会产生误导。您可以访问原始数据集。 导入数据 为了访问movies数据集并使用它,您可以使用该read.csv()函数将数据导入到数据框中,并将其存储在具有令人惊叹的原始名称的变量中movies!  由 DATACAMP 工作区提供支持 这就是开始所需的全部。

对您的数据进行基本检查 导入数据框后,最好了解一下您的数据。首先,检查正在检查的数据的结构。下面您可以看到使用这个超级简单、有用的函数的结果str():在这个特定的数据框中,您可以从控制台看到存在 11 个变量的 2961 个观测值。 顺便说一句,即使每部电影只有一个小时,你也需要不间断地观看电影四个多月才能看完! 控制台还按名称列出每个变量、每个变  南非 WhatsApp 号码列表 量的类以及每个变量的一些实例。这让我们对数据框架中的内容有一个很好的了解,理解它对我们的分析工作至关重要。 另一个帮助我们对数据框进行快速、高级概述的强大功能是summary(). 请注意运行 产生的输出之间的相似点和差异str()。一般来说,看起来较高的电影rating往往具有较高的profit. 表达此陈述的另一种方式是说 和 之间存在正相关至少在我们的数据框中是如此。 也就是说,即使粗略地看一下剧情也会发现,有很多收视率很高的电影并不完全是大片,也有一些非常赚钱的电影收视率相对较低。



相关性并不意味着因果关系! 下面的一则轶事可以帮助您理解相关性与因果性:我在海滩上经营一家冰淇淋摊。当我的冰淇淋销量增加时,城市中乱穿马路的人的平均数量往往会增加,但我的冰淇淋是否导致人们无视交通法规,还是有其他力量在起作用?我的冰淇淋固然很棒,但外面的阳光可能与人们想要冰淇淋和不想站在人行横道上被晒伤有关。我的冰淇淋销量和乱穿马路的人数之间确实存在关系(相关性),但你不能明确地说这是因果关系。 当您继续学习本教程时,请记住这一推理思路!因此,在您刚刚创建的相关矩阵中(顺便说一句,干得好!),您可以转到与变量关联的行或列,例如,查看year其相关系数,如对应单元格的颜色所示与另一个变量。 例如,在检查 时year,您可以看到 与 存在弱正相关性且与 存在类似的弱负相关性rating。 相关系数始终介。相关系数为 -1 表示完美的负拟合,其中 y 值以与 x 值增加相同的速率减少。相关系数为 1 表示完美的正拟合,其中y- 值的增加速度与 - 值的增加速度相同x。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黒屋|Quetzal Audio

GMT+9, 2025-2-23 23:37 , Processed in 0.790359 second(s), 19 queries .

Powered by Discuz! X3.5

Copyright © 2001-2025 Tencent Cloud.

快速回复 返回顶部 返回列表