TensorFlow 是一个基于 Python 的开源机器学习库,很多互联网的大厂在进行深度学习时,都会使用该框架。课程利用最新的 TensorFlow 2.3、scikit-learn、LDAvis 和 Flask 等对民宿用户评论进行挖掘和情感推理模型部署。
首先,利用百度 LBS 平台的 POI 接口对民宿地址的批量解析,扩展民宿数据维度。然后,构建了词向量 K-Means 和 LDA 无监督主题聚类模型,自动利用主题中心词能找出对应的主题属性字典;最后,以用户打分作为标注,搭建情感分析模型,分析在不同评价主题下的民宿顾客满意度。
利用时下流行的 Python 建模工具深入挖掘用户评论中的评价主题和情感极性,解决了用户打分和评论不一致的问题。本次实战课程贯穿数据预处理、模型训练、模型部署、批量预测和结果可视化,帮助大家由浅入深的理解和操作数据挖掘,本实验随处可见的模型参数注释更适合爱学习的你去调试最优的模型参数,让你在实战中掌握当下的最热门人工智能开发和使用技巧。
此次课程内容可以大致将分为以下五个部分:
由于实战项目涉及到的实战内容比较多,在课程介绍中逐一介绍,我们在实验中对用户评论中的评论主题和评论情感极性进行了着重研究,针对用户评论主题,我们对用户评论进行主题建模,通过对大量语料进行无监督建模,我们可以直观的在主题分布可视化上了解到当前语料中用户评价的主题和对应的关键词,模型的可视化结果给出了包括所有主题在内的全局视图,增加实验的趣味性和互动性,具体的效果如下:
本次项目从开始就完全使用真实数据进行实验,结果具有很强的实用性。实验数据来源为携程重庆民宿真实评论数据,实验数据的内容格式如下:
实验中我们会利用外部接口来扩展我们的数据,针对民宿地理位置信息的经纬度和详细的区域信息,我们在实验中将使用百度 LBS 地理信息解析接口对民宿地址和民宿名字进行解析,得出对应的地理位置信息,最后我们使用 pyecharts 进行可视化之后的结果如下:
你还可以根据自己的研究方向去改变可视化的方式,如下所示:
针对用户评论情感极性,我们不在局限于用户的打分数据,并且对细粒度的顾客满意度信息进行挖掘,如下我们针对其中的一个评价主题进行情感极性推理和可视化,结果如下:
本次数据挖掘实战项目是一个跨计算机和地理专业的、由实际项目驱动的基于携程重庆民宿 UGC 数据的意见挖掘项目,已经在 GitHub 获得高星,可以点击查看 GitHub 的Pycharm 版本,并且该数据挖掘项目流程已申请国家发明专利。
通过百度 LBS 平台的地理位置解析 API 拓展民宿数据维度,挖掘民宿 UGC 在空间上的可视化信息;在细粒度的顾客意见挖掘上,通过将用户打分和用户评价进行情感建模,挖掘在用户在不同主题下的满意度情况,利用各个维度的分析结果为民宿从业者提供建议。你将在课程的实验中感受到机器学习技术可以很好的赋能数据挖掘,并且此项目具有很好的扩展性,可以拓展很多类似的使用场景。在完成实验的过程中收获工程优化经验,为数据挖掘的自动化和智能化分析打下坚实基础,不管你是初入数据类工作或即将已经从事数据挖掘项目,如果你想深入学习基于用户评论方向的意见挖掘方面的课程和内容的话,那么这次课程你将受益匪浅。