豆瓣排名前50电影(国产好看电影介绍几部)

80酷酷网    80kuku.com

豆瓣排名前50电影(国产好看电影介绍几部)

1 引 言

中国电影产业发展迅速,网络大数据对电影的影响也不断加大。豆瓣平台更加方便快捷的传播方式,更趋近于现代生活的节奏,逐渐成为影评文化的主流。豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评,极大地方便了人们的生活。豆瓣电影是这样介绍自己的:“国内最权威电影评分和精彩影评,千万影迷的真实观影感受,为你的观影做决策。”而它也确实做到了这一点。然而,前些日子,朋友圈又因一事沸腾了。《中国电影报》12月27日发布题为“豆瓣电影评分,面临信用危机”的文章,随后人民日报客户端转发了该文,并将标题改为“豆瓣、猫眼电影评分面临信用危机,恶评伤害电影产业”。在这个互联网将渗透到整个电影产业链中的时代,网络数据对电影的影响不断加大。2010年国内电影票房首次超过百亿,中国电影跨入百亿时代。2015年中国电影票房突破了440亿元,电影市场的大步跨进使世界为之注目。国产电影中高评价高票房电影比比皆是,但面对偌大的市场,中国电影的发展方向仍不明确,部分影片好评率与票房关系不成正比。在这种情况下,对国产电影进行数据分析指出其发展方向就显得尤为重要。

2数据来源

数据来源于豆瓣电影TOP250,我们通过python爬取网站数据,共爬取到豆瓣电影共250条电影信息,包括评分、评分人数、导演、编剧、主演、类型、制片国家/地区、语言、上映日期、片长、剧情简介、热门影评、豆瓣成员常用标签,同时爬取前3个电影的热评进行文本分析。

3豆瓣电影数据

主要分析一豆瓣电影TOP250(https://movie.douban.com/top250)的相关电影,使用Python获取,技术分析流程分为以下三个步骤:网络数据获取、数据读入和数据清洗、数据可视化分析。经过网站爬虫,我们整理出来了7个字段,字段含义为评分、评分人数、导演、编剧、主演、类型、制片国家/地区、语言、上映日期、片长、剧情简介、热门影评、豆瓣成员常用标签。

3.1 上映年代分析

豆瓣电影TOP250分析报告

图1 豆瓣电影TOP250各年代电影数量

好评电影多集中在1990年之后。在1990年之前以及1990年之后两部分中,好评电影数量波动不大。电影艺术会随着时代的变化而变化,如今的观影者会更加接受现代的电影艺术。在豆瓣电影Top250中,时间跨度从1931年至2017年,其中电影多集中在1990年之后,电影入围数量最多的年份是1994年、2004年以及2010年,占比14.4%。1994年被称为电影年,在那一年诞生了许多电影佳作,如常年居豆瓣评分最高影片的《肖申克的救赎》,当年的奥斯卡最佳影片《阿甘正传》,以及《这个杀手不太冷》同样上映于1994年。不只是国外电影,1994年也是国产电影的巅峰时期,中国有5部电影在当时入围豆瓣电影Top250。《红玫瑰与白玫瑰》《饮食男女》《重庆森林》等影片同样上映于1994年。进入21世纪之后,好评电影数量较多。好评电影出现最多的年代处于2000-2009年之间。

3.2 制片国家/地区分布分析

图2豆瓣电影排名前20的国家电影数量

好评电影的制作国家由美国领衔,占比近50%。从图上可以看出美国大片上榜数量较多,其次是日本、英国、中国。中国与国外的电影上榜率还是有差距的。美国的电影产业较为成熟,引领着这个时代的电影艺术潮流。

豆瓣电影TOP250分析报告

图3豆瓣电影排名前20的国家电影数量

国内的片长普遍比国外短,国外片长集中在100-150分,均值125分,国内集中在100-120分,均值110分。国外评分普遍比国内高,但集中程度相似。

3.3导演/主演分析

豆瓣电影TOP250分析报告

图4豆瓣电影排名前10的导演电影数量

在好评电影中,有多位导演的不止一部影片上榜,其中上榜电影数最多的两位导演是:克里斯托弗·诺兰和宫崎骏。在其后也有多位中国籍导演。导演对于一部影片的影响巨大,可以说好的导演能决定一部电影的成功与否。电影的主题、创作风格和视听语言,相对应的电影中演员的表演和后期制作中也可以看出导演的地位和价值。

豆瓣电影TOP250分析报告

图5豆瓣电影排名前10的主演电影数量

演员是电影创作过程中的另外一个重要角色,获得导演认可的演员在影片中扮演角色。张国荣、梁朝伟、周星驰等香港演员主演的电影上榜次数多,其他基本上是国外影星,说明国内影星还有待提高,也说明演员在影片中的表演也是决定影片是否受欢迎的重要因素,明星引起的“粉丝效应”也是不容忽视的,影片获得高票房或高评分,演员起了重要作用。

3.4 影片类型分布分析

豆瓣电影TOP250分析报告

豆瓣电影TOP250分析报告

图6豆瓣电影排名前20的国家电影数量 图7标签分布

在好评电影中,剧情类型电影一骑绝尘,有高达186部电影带有“剧情”标签。其后,爱情、喜剧、冒险等类型也有多部电影。电影类型决定了电影的基调和主旨,是决定电影内容的重要因素之一。随着电影产业的不断发展,电影类型也越来越多样。2010 年之后,中国电影市场主要由爱情片、喜剧片及动作片三大类型组成,但是警匪、谍战、歌舞及传记等类型片的市场反响也非常好,电影市场形成了以武侠、动作、爱情、喜剧、剧情为主打,以警匪、战争、历史为中等梯度,以魔幻、传记、歌舞等为新兴品种的稳定性结构。在众多高分电影中喜剧电影占比19%,犯罪片、悬疑电影分别占17%、15%,与喜剧电影共同作为占比最高的前三种电影类型,观众对于喜剧片、犯罪片以及悬疑片的关注程度要略高于其他类型的电影。观众爱看剧情,喜剧和爱情片,而这些也恰恰评分高,说明在未来国产电影的发展过程中,在新的电影产业格局的影响下电影类型将越来越丰富,传统喜剧片、爱情片等类型影片将携手悬疑、犯罪等新兴类型共同走上银幕。一部电影的类型也将难以用一种或两种类型概括,多类型同时存在的电影将越来越多,其结构和手法将会更加成熟,单部影片类型多样化将成为电影类型发展的必然趋势。

3.5评分/评分人数分析

豆瓣电影TOP250分析报告

图8评分分布

结合图8看,可以看到我们采集到的电影数据评分主要集中在8.0-10.0之间,向两极呈现阶梯状递减,在此按照评分划分区间:8.25-8.55为口碑极差,8.55-8.85为口碑较差,8.85-9.15为口碑尚可,9.15-9.45为口碑较好,9.45-9.75为口碑极佳。

豆瓣电影TOP250分析报告

图9评分比例

再将评分数据细化到每年进行观察,可以发现,30年内电影数量与年度电影均分呈反相关,年度均分整体呈现下降趋势,2016年电影均分最低,电影数量最多,进一步做出每个年份下不同评级等级的电影数据占比,可以发现,近年来,评分在[2.0,6.0)的电影数据占比有着明显提升,评分在[6.0,7.0)的数据占比不变,评分在[7.0,10.0)的数据占比减少,可能原因有:1.幸存者偏差,1990-2000年的劣质作品少有人关注,数据保存困难,豆瓣数据库仅采集到了相对而言较为优质的作品。2.近年来有较多的低质量影视作品,拉低了均分。

豆瓣电影TOP250分析报告

图10豆瓣电影排名和评分人数

评分人数越多,往往排名越高。图中颜色越深表示评分越低。我们发现排名靠后的评分人数少,评分低。排名靠前的评分人数多,评分越靠前。豆瓣电影可以说是中国最大的电影分享与评论社区,汇聚了数以千万热爱电影的人,2012年月度覆盖用户超过一亿。观众可以在这个平台上对电影进行打分,对电影做出相关评价。如今豆瓣评分的高低俨然已经成为衡量一部电影是否“可看”的重要因素,无论是在网络购票或是在网络平台上搜索电影,其评分结果都会显示在显眼的位置,许多观众会根据评分结果选择是否点击了解或观看这部影片,点击率与评分结果成正比关系。

4 豆瓣文本数据

本文中,豆瓣文本数据分两类,1类是剧情简介、影片类型(标签),1类是热门影评。每一个电影都会有这样的文本数据,当我们获取到电影介绍的网址时,就比如说《肖申克的救赎》(https://movie.douban.com/subject/1292052/),剧情简介如下图;

豆瓣电影TOP250分析报告

图11

相应的源码:<span class="short"><span class="all hidden">一场谋杀案使银行家安迪(蒂姆?罗宾斯TimRobbins饰)蒙冤入狱,谋杀妻子及其情人的指控将囚禁他终生。在肖申克监狱的首次现身就让监狱“大哥”瑞德(摩根?弗里曼MorganFreeman饰)对他另眼相看。瑞德帮助他搞到一把石锤和一幅女明星海报,两人渐成患难之交。很快,安迪在监狱里大显其才,担当监狱图书管理员,并利用自己的金融知识帮助监狱官避税,引起了典狱长的注意,被招致麾下帮助典狱长洗黑钱。偶然一次,他得知一名新入狱的小偷能够作证帮他洗脱谋杀罪。燃起一丝希望的安迪找到了典狱长,希望他能帮自己翻案。阴险伪善的狱长假装答应安迪,背后却派人杀死小偷,让他唯一能合法出狱的希望泯灭。沮丧的安迪并没有绝望,在一个电闪雷鸣的风雨夜,一场暗藏几十年的越狱计划让他自我救赎,重获自由!老朋友瑞德在他的鼓舞和帮助下,也勇敢地奔向自由。


本片获得1995年奥斯卡10项提名,以及金球奖、土星奖等多项提名</span>

热门影评在标签link-report,如下图:

豆瓣电影TOP250分析报告

图12

当我们用for循环使用requests+bs4爬取如上信息。

豆瓣电影TOP250分析报告

图13

4.1对热门影评的探索分析

表1

排名

电影

导演

类型

国家

标签

1

肖申克的救赎

弗兰克·德拉邦特

剧情,犯罪

美国

经典,励志,信念,自由,人性,人生,美国,希望

2

霸王别姬

陈凯歌

剧情,爱情,同性

中国

经典,人性,文艺,爱情,人生,文革,剧情,同志

3

阿甘正传

罗伯特·泽米吉斯

剧情,爱情

美国

励志,经典,人生,成长,美国,信念,剧情,人性

1)肖申克的救赎

豆瓣电影TOP250分析报告

图14

该电影主要讲述了银行家安迪被冤枉杀了他的妻子和其情人,身陷囹圄,一名小偷因盗窃入狱,知道安迪妻子和她情人的死亡真相,狱长不愿帮他翻案。安迪知道真相后,决定通过自己的救赎去获得自由,最后成功逃出监狱。影片中涵盖全片的主题是“希望”,全片透过监狱这一强制剥夺自由、高度强调纪律的特殊背景来展现作为个体的人对“时间流逝、环境改造”的恐惧。影片的结局有《基督山伯爵》式的复仇宣泄。《肖申克的救赎》是一部不可多得的优秀励志型影片。我个人把它作为保留影片的原因就是因为它的深远主题。它给人一种无形的力量,它让我知道人的一生中所应该拥有的最宝贵的东西。从而珍惜你现在还拥有它的机会。

2)霸王别姬

豆瓣电影TOP250分析报告

图15

主演:张国荣(霸王,被称为‘哥哥’)、程蝶衣(虞姬),导演:陈凯歌。这是一部让观众震撼感动的经典华语历史电影,讲述的是霸王项羽和虞姬的感情故事。

3)阿甘正传

豆瓣电影TOP250分析报告

图16

阿甘和珍妮是青梅竹马的好朋友,阿甘喜欢珍妮。两个人在成年后走向不同的道路,阿甘天生智商低,做事耿直专一,毕业后服兵役去了,珍妮叛逆喜欢冒险,到处流浪。经过生活中各种磨难,阿甘保持着本心,一直深爱着珍妮,并且傻人有傻福,事业一直在走上坡。珍妮在生活中陷入迷茫,失去方向,曾想过自杀。阿甘一直没有放弃珍妮,珍妮最终想明白了,放弃放荡的生活,回到阿甘的身边。

4.2常用标签分析

豆瓣电影TOP250分析报告

图17

下表是PMI最高的前15组标签:

表2

1

默片

卓别林

6.965784285

2

清新

美食

6.965784285

3

情感

旅行

6.965784285

4

英雄

诺兰

5.965784285

5

回忆

国产

5.965784285

6

种族

非洲

5.965784285

7

自然

清新/美食

5.965784285

8

大片

新西兰

5.795859283

9

张国荣

梁朝伟

5.64385619

10

生活

清新/美食

5.64385619

11

信念

钢琴

5.380821784

12

文革

姜文

5.380821784

13

灾难

大片

5.380821784

14

温暖

环保

5.380821784

15

推理

法律

5.380821784

本节用KMeans进行聚类,k-中心点(k-medoids)聚类不将所在类对象的平均值作为中心点。中心点对象是数据集中的一个实际对象,而k-均值聚类中的类中心对象是通过求所在类各对象均值而获得的虚拟对象。对中小数据集有效,不宜用于大型数据集的聚类。构建词袋模型后生成文档词矩阵cv_fit,对它进行聚类;然后对聚类结果画散点图,如下图所示。

豆瓣电影TOP250分析报告

图18

4.3分类模型与预测电影类别

k-最近邻分类算法(kNN)是一种“由邻居来确定类别”的分类算法,该算法属于一种基于实例匹配的算法。本节将用分类或有监督机器学习方法(Knn算法)来分类文档,预测《送你一朵小红花》的所属类别,预测出它属于剧情,准确率0.7572,召回率100%。

过程:

1.对训练数据进行文本规范化处理(jieba分词)

2.使用CountVectorizer类构建词袋模型,从数据(豆瓣Top250的剧情简介)中提取特征或属性,对于每个数据点,我们将拥有特征集(剧情简介的文档词矩阵DTM)和对应的类型(电影是否属于‘剧情’的逻辑值(1,0))。

3.算法从训练数据中学习每个分类的不同模式。学习完成后,我们得到一个训练好的模型KNN。

学习步骤:计算距离:给定测试对象,计算它与训练集中的每个对象的距离。寻找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻。决定类别:根据这k个近邻归属的主要类别,对测试对象分类。简单投票方法:少数服从多数,近邻中那个类别的点最多就分为该类。

3. 未来将测试数据样本的特征(《送你一朵小红花》的剧情简介)送入模型KNN,模型就可以预测它是否属于‘剧情’。

4. 制作混淆矩阵,评价分类模型。过程:训练,从训练集中统计两类概率∶各类标记的文档数量和各词项在各类中出现的频次。分类∶计算类标记的先验概率和类条件概率。

概念公式:

召回率(Recall) =系统检索到的相关文件 / 系统所有相关的文件总数

准确率(Precision) =系统检索到的相关文件 / 系统所有检索到的文件总数

F1=2PR/(P+R)

KNN算法预测的混淆矩阵图示表示如下:

豆瓣电影TOP250分析报告

图19

准确率=184/(184+59)=75.72%

召回率=184/(184+0)=100%

5 结 论

本文通过探究豆瓣电影Top250各项指标,对其榜单内的数据进行分析,得到以下结论。

电影艺术是随着时代而转变的,大部分观影者更加接受于此时相近年代的电影,21世纪第一个十年内的电影是好评最多的时期。电影制作方可以选择10年前到20年前区间内的影片重制推出,用口碑吸引观影者。观影者也可以选择这期间的电影在休息时观看。电影艺术会随着时代的变化而变化,如今的观影者会更加接受现代的电影艺术。
2、导演是一部影片好坏的关键因素之一,一个好的导演可以成就一部电影。电影制作方在选择导演时可以选择榜上作品多的导演。观影者可以选择克里斯托弗·诺兰和宫崎骏两位导演的影片观看。导演对于一部影片的影响巨大,可以说好的导演能决定一部电影的成功与否。
3、好的电影一般出自好的电影氛围,制作国家可以对影片造成影响。好评电影中,美国电影占到近一半。电影制作方或可借鉴学习美国电影的流行趋势,观影者可以选择美国电影来观看。电影的主题、创作风格和视听语言,相对应的电影中演员的表演和后期制作中也可以看出导演的地位和价值。
4、电影类型是观影者选择是否观看此影片的重要因素之一。“剧情”、“爱情”、“喜剧”是受众主流,电影制作方可以将其作为口碑的保守选择,观影者可以选择这些类型观看。一部电影的类型也将难以用一种或两种类型概括,多类型同时存在的电影将越来越多,其结构和手法将会更加成熟,单部影片类型多样化将成为电影类型发展的必然趋势。

分享到
  • 微信分享
  • 新浪微博
  • QQ好友
  • QQ空间

上一篇带壳生蚝蒸多久才熟(生蚝不撬开能直接蒸吗?)

下一篇总资产周转率(总资产周转率多少合适)

点击: