大多数情况下,数据分析者与信息接受者都存在着巨大的信息不对称。为更好地阐明数据内涵,分析者往往需要通过图形这一纽带向受众表达自己的想法。于是,数据可视化作为数据分析的必要过程,在越来越多的行业得到重视。
在数据挖掘领域,广泛使用的是以 Python 为核心编程语言的库。包括了,以 Numpy,Pandas 为基础的数据分析库,以 Matplotlib,Pyecharts 为核心的数据可视化库,以 Scipy 为核心的统计分析库,以 Sklearn 为核心的机器学习库,以 PyTorch,TensorFlow 为核心的深度学习库。
本课程针对的主要内容是数据可视化库,同时包含大量数据分析库的使用技巧。经过本课程的学习,可以综合提高特征处理、数据分析、描述性统计分析等各项能力。
为提高学习的兴趣,本课程采用的均为真实数据样本,在课程内容上,选取了关注度高、有话题性、学科覆盖面大的主题。例如医学领域,我们研究了美国权威部门公开的癌症数据、新冠疫情的死亡人口数据;天体物理学方面,我们研究了 NASA 公开的 4296 颗地外行星数据,在特征处理的基础上,用可视化的方式找到了与地球最为接近的类地行星;社会学方面,我们研究了美国人口和种族的变迁、气候变化以及德克萨斯州枪击案件数据;空间地理方面,我们以房价样本数据集为基础,研究了热力地图、地理地图和百度地图的绘制方法。相信学员在学习数据分析及可视化技能的同时,在通识性的知识方面,在 PPT 素材的制作方面也会有较大程度地提升。