Chapter 10 Introduction

数据扭结,以合适的形式将数据导入 R 用于可视化和建模。数据整理非常重要:没有它,你就无法处理自己的数据!数据整理有三个主要部分:

data-science-wrangle

  • tibbles 中,你将了解到贯穿全全笔记中使用的 dataframe 的变体:tibble。你将了解它们与常规数据框的不同之处,以及如何 “手动” 构建它们。
  • 数据导入中,你将了解如何将数据从磁盘获取到 R 中。我们将重点介绍纯文本的矩阵格式,但会为你提供指向有助于处理其他类型的数据的包的指南。
  • 整洁的数据中,你将了解整洁的数据,这是一种存储数据的一种约定俗成的方式,使转换、可视化和建模更加容易。你将学习基本原则,以及如何将数据转换为整洁的形式。

数据扭结还包括数据转换。接下来我们将重点介绍实践中常用的三种特定类型数据的新技能:

  • 关系数据将为你提供用于处理多个相互关联的数据集的工具。
  • 字符串工具将携手正则表达式,这是一种用于操作字符串的强大工具。
  • 因子是 R 如何存储分类数据的。一般被用于当变量具有一组固定的可能值,或者当你希望使用字符串的非字母排序。
  • 日期和时间工具将为你提供处理日期和日期时间的关键工具。