DataFrame 就是一种以 RDD 为基础、带有模式信息( Schema )的分布式数据集
将数据下载解压后,启动spark-shell,将数据加载到spark中:
使用printSchema检查格式完整性:
学习时间 60分钟
操作时间 30分钟
按键次数 610次
实验次数 1次
报告字数 312字
是否完成 未完成