关注
分享
在线民宿 UGC 数据挖掘实战 实战课
Python 机器学习 数据分析
462 人学过 94 次评价 难度: 中级 综合评分: 9.7 2024-07-19 更新
¥ 79
完成学生认证,立享5折优惠 >>
课程介绍
章节目录
课程问答&报告
课程评价 94
你将学到的
UGC 数据探索
百度 LBS 坐标转换
TensorFlow 2 上手
Scikit-learn 回顾
NLP 文本处理概述
Pyecharts 评论可视化
Word2Vec 词向量训练
KMeans 词向量自动聚类
LDA 主题聚类
LDAvis 主题可视化
Stacking 集成情感模型
Text-CNN 情感分析模型
LSTM 情感分析模型
快速使用 LitNlp 进行深度情感分析
部署情感分析 API 接口
使用 POST 和 GET 进行模型服务API的调用
详细介绍

TensorFlow 是一个基于 Python 的开源机器学习库,很多互联网的大厂在进行深度学习时,都会使用该框架。课程利用最新的 TensorFlow 2.3、scikit-learn、LDAvis 和 Flask 等对民宿用户评论进行挖掘和情感推理模型部署。

首先,利用百度 LBS 平台的 POI 接口对民宿地址的批量解析,扩展民宿数据维度。然后,构建了词向量 K-Means 和 LDA 无监督主题聚类模型,自动利用主题中心词能找出对应的主题属性字典;最后,以用户打分作为标注,搭建情感分析模型,分析在不同评价主题下的民宿顾客满意度。

利用时下流行的 Python 建模工具深入挖掘用户评论中的评价主题和情感极性,解决了用户打分和评论不一致的问题。本次实战课程贯穿数据预处理、模型训练、模型部署、批量预测和结果可视化,帮助大家由浅入深的理解和操作数据挖掘,本实验随处可见的模型参数注释更适合爱学习的你去调试最优的模型参数,让你在实战中掌握当下的最热门人工智能开发和使用技巧。

此次课程内容可以大致将分为以下五个部分:

  • 基于 Pandas 和 pyecharts 的数据聚合和可视化分析。
  • 主题建模实战,包括:词频排序模型下的主题词云分析、基于 Word2Vec 词向量下的 KMeans 名词聚类、LDA 主题建模。
  • 针对数据集标签失衡问题,实验分析了不用数据采样方式对情感分析模型性能的影响。
  • 介绍了基于 Stacking 的集成模型和深度情感分析模型在用户评论情感建模上的性能差异,然后针对深度模型分别使用字符级和词语级进行建模来比较差异,深度模型具体有 TextCNN 和 GRU。
  • 主要实现模型的部署,使用 Flask 框架对 litNlp 深度情感分析模型进行 RESTful API 部署,实现情感极性预测通过网络接口进行服务。

图片描述

效果展示

由于实战项目涉及到的实战内容比较多,在课程介绍中逐一介绍,我们在实验中对用户评论中的评论主题和评论情感极性进行了着重研究,针对用户评论主题,我们对用户评论进行主题建模,通过对大量语料进行无监督建模,我们可以直观的在主题分布可视化上了解到当前语料中用户评价的主题和对应的关键词,模型的可视化结果给出了包括所有主题在内的全局视图,增加实验的趣味性和互动性,具体的效果如下:

本次项目从开始就完全使用真实数据进行实验,结果具有很强的实用性。实验数据来源为携程重庆民宿真实评论数据,实验数据的内容格式如下:

实验中我们会利用外部接口来扩展我们的数据,针对民宿地理位置信息的经纬度和详细的区域信息,我们在实验中将使用百度 LBS 地理信息解析接口对民宿地址和民宿名字进行解析,得出对应的地理位置信息,最后我们使用 pyecharts 进行可视化之后的结果如下:

你还可以根据自己的研究方向去改变可视化的方式,如下所示:

针对用户评论情感极性,我们不在局限于用户的打分数据,并且对细粒度的顾客满意度信息进行挖掘,如下我们针对其中的一个评价主题进行情感极性推理和可视化,结果如下:

本次数据挖掘实战项目是一个跨计算机和地理专业的、由实际项目驱动的基于携程重庆民宿 UGC 数据的意见挖掘项目,已经在 GitHub 获得高星,可以点击查看 GitHub 的Pycharm 版本,并且该数据挖掘项目流程已申请国家发明专利。

通过百度 LBS 平台的地理位置解析 API 拓展民宿数据维度,挖掘民宿 UGC 在空间上的可视化信息;在细粒度的顾客意见挖掘上,通过将用户打分和用户评价进行情感建模,挖掘在用户在不同主题下的满意度情况,利用各个维度的分析结果为民宿从业者提供建议。你将在课程的实验中感受到机器学习技术可以很好的赋能数据挖掘,并且此项目具有很好的扩展性,可以拓展很多类似的使用场景。在完成实验的过程中收获工程优化经验,为数据挖掘的自动化和智能化分析打下坚实基础,不管你是初入数据类工作或即将已经从事数据挖掘项目,如果你想深入学习基于用户评论方向的意见挖掘方面的课程和内容的话,那么这次课程你将受益匪浅。

课程信息

  • 学习周期:课程有效期 2 个月,2 个月后无法进行在线实验,但可查看文档内容。高级会员有效期内可一直学习,到期后课程失效,且无法查看文档。部分云主机实验环境因成本较高,存在开启次数限制。关于课程退款等相关注意事项说明,请阅读 用户付费协议
  • 版权说明:课程内容为蓝桥云课原创或蓝桥云课在原作者授权下制作。未经书面同意,擅自爬取、转载和再分发课程内容,均将受到严肃追责。
  • 企业团报:企业购买,请点击 企业用户咨询
课程教师
楼兰 litNlp 作者 某互联网大型短视频平台 共发布过 1 门课程 共有 462 位学生
欲穷千里目,更上一层楼
扫码加入社群
和10w学子共同进步
AI 小助手
有问题就来问我吧
立即咨询