霸榜知乎,谴责豆瓣,数据分析告诉你《流浪地球》到底好看么?
大数据文摘投稿作品
作者:丁卓非
《流浪地球》又火了一把!
说实话,这次火的有点突然。原因也很简单:一些群众不服《流浪地球》在豆瓣评分,纷纷跑到了App Store给豆瓣差评,同时安卓端也被攻陷。
这次豆瓣可谓受到了知乎和微博的两路夹击,两个平台的人民大众对豆瓣进行了“道德”的批判和无情的鞭挞。

豆瓣事件霸榜知乎
暂且不论是否有“黑幕”交易,此次争端的根本在于《流浪地球》这部电影到底好不好看。
文摘菌小规模的获取了豆瓣的影评数据,让我们来看看用户对《流浪地球》到底如何评价。
数据的获取
影评数据来源于豆瓣。但是豆瓣的反爬机制实在精致,大量爬取数据还会有法律风险,所以就小规模获取了600条数据。高分评价、中等评价和低分评价,各自占了200条,对各个分数段的评价做到平等对待。
代码链接:
https://github.com/zmddzf/wandering_earth
数据到手了,我们应该怎么分析这些影评数据呢?按照惯例,词云图肯定不能少。为了对每一分数段的影评数据进行深入分析,了解大家的态度,就需要绘制三张词云图。
词云图虽好,但是能够获得的信息还是和有限的,那接下来就要考虑一些其他的黑科技了,毕竟是对一部科幻作品进行分析,手段也要科幻一点。想了半天,决定使用LDA(Latent Dirichlet Allocation)文档主题生成模型,去对这些影评数据进行分析。
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。影评虽然不多,但是用起来也不是不行。通过LDA提取topic,我们就可以根据关键词对这些主题进行提炼,能够把三个分数段的影评很好的聚集起来。
词云图分析

让我们先来看一下高分评价的词云图,这里展示的词是top100的高频词汇。“国产”、“好莱坞”、“刘慈欣”、“原著”、“特效”等词喜上榜,可见好评人士认为这部改编自刘慈欣原著的国产电影能够媲美好莱坞大片的水平。
“硬核”、“亲情”也值得注意,硬核科幻加上情感元素,也是好评人士好评的原因。“鼓励”一词体现了好评人士对国产科幻电影的期望,可能潜藏着对片中bug的宽容。

中评认识相对严格,这些词汇可以被概括维以下几点:1.对吴京的不满;2.对剧情故事人物尴尬的不满;3.对原著改编的不满。这三大不满,可能是这些人给与中评的原因。这几个原因是分可能有些主观。

差评词云图中的“台词”、“演技”、“煽情”、“吴京”、“价值观”、“尴尬”等词让人深思。给了差评的观众可能是从专业的严格的视角对这部片子进行了技术层面的剖析得出了负责的评论,也可能是因为对吴京的偏见造成了低分,也可能是因为价值观的不服和做出的差评。
LDA主题分析

这张图是LDA分析出来的结果,先来介绍一下这张图表示的意思。右边的这张图,每个气泡表示一个主题,气泡的大小代表主题出现的频率,气泡之间的距离代表每个主题之间的接近性,距离越近主题越相似。右上方的lambda表示词语和主题的相关性,越接近1说明该词语出现的越频繁,越接近0说明越特殊,我在后面的分析中选择lambda为0.6,取一个折中值进行分析。

这个主题我总结为:演技、故事、台词、人物和煽情尴尬。这个主题代表了第一个泡泡,就是上图中的泡泡1。当然,对主题的概括,不同的人可能有不同的解读。

这个是主题2,总结为:《流浪地球》是媲美好莱坞的国产科幻大片,开启了中国科幻元年,意义深远。毕竟特效做成这个级别,宇宙观也大致营造起来了。

这个主题总结为:吴京战狼翻版,为了儿子毁灭空间站,逻辑实在受不了。这个主题相对来讲对吴京有偏见,但是对剧情表达的情怀的分析还是有些道理。
以上就是基于词云和LDA主题模型,对《流浪地球》影评数据分析。毕竟是加入了主观评价,所以还是有偏差的,对这部电影看法如何可以在留言区写下你的评价。
相关文章
-
早报 | 国行 HomePod 本周五发售 / 日本为《荒野行动》贡献 8 成收入 / 罗永浩:今年想解决两大问题
-
智慧消费白皮书:消费品和零售行业数字化转型
-
ps2020安装教程Windows系统AdobePhotoshopCC2020
-
本部裁员、分部招人,科技公司的岗位都奔向了外地?
-
环伺巨头免费阅读,日营收百万成常态!付费阅读有难了?
-
陕西研发应急监测辅助决策系统为精准应对突发水污染事件提供技术支撑
-
脱皮转型初战告捷联想重获《财富》点赞
-
太火爆,比红包还难抢!靠卖这个还能月入近百万?微信官方明令禁止收费→
-
阿里反盗版技术通过好莱坞认证;百度向长沙百度租车索赔50万;抖音可视频通话
-
Blender从头到尾创建一个低多边形场景学习教程
-
为什么李彦宏做直播能多带来120亿市值?
-
realme副总裁徐起:双十一将冲刺中国区千万销量
-
资深电影制片人何钦在中国语言大学做”从电影译介看中国文化的国际传播”讲座
-
36氪首发|定位数据中台服务商,「袋鼠云」获数亿元B轮融资,国投创业领投
-
为什么NFL众包无能的AI解决方案来解决其脑震荡问题?
-
锤子科技发布3款产品,比尔盖茨开展厕所革命,8848被判虚假宣传
-
全球爆款千元机?Redminote10系列超高性价比,9天销量破100万台
-
程序员真的会过1024节吗?正在加班的他们表示内心毫无波澜
-
【虎嗅晚报】重庆、广州法院:今日头条禁止传播热门游戏;清华与华为签署科技合作框架协议
-
社区零售业态爆发,五年内将出现5-6家百亿级公司
-
AMD图像锐化RIS现可用于视频播放/网页浏览
-
视觉中国:整改结束,5月12日零点开始恢复网站上线运营
-
315曝光“探针盒子”的背后藏着大数据应用场景的恶劣生态!
-
男会计偷偷挪用公司资金930万打赏女主播,这个钱还能要回来吗?
-
AI变革大时代,微众银行AI团队开辟新航道
-
大数据智能时代到来,数据安全经得起考验嘛?
-
手机网页全屏看视频怎么设置
-
硅兔News|微软职级最高中国高管沈向洋离职
-
热点丨华为正与高通谈判专利和解或将每年支付5亿美元专利费用