python爬虫实例——中国电影票房
刚好最近在做一个关于中国电影市场的分析,所以这篇实例就诞生啦!!!
一、观察网页
我所爬取的网站是:中国票房——年度票房。
网址甩出来:http://www.cbooo.cn/year?year=2019
我们需要的数据是从2015年到2019年,每部电影的名称、详情页url、类型、总票房、国家及地区、上映日期
点进去的页面是介个样子滴~它总共有25条数据,就是2019年的TOP25!
左上角框出来的地方是可以选择年份的,我们可以通过它来观察不同年份间url的相似点。如下图:我们观察到他们的网址是有规律的,即:http://www.cbooo.cn/year?year= + 年份 这样我们就可以直接获取到所有的网址
二、分步实现
1.导包
导入我们所需要的包
import os import requests from lxml import etree import pandas as pd 1234
2.定义获取数据的函数
因为每年都要请求一遍,所以为了方便,我们将它写成一个函数,直接调用,方便我们自己。
headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'} cookies = { 'SUB':'_2A25wmfkgDeRhGeBI4lcU9irOzD2IHXVQZYdorDV6PUJbkdAKLUvAkW1NRkZNESdNnLdqXAeecDulr43bOma1k9ut'} def get_data(url): r = requests.get(url, headers=headers, cookies=cookies, timeout=30) r.raise_for_status() #查看是否正常,正常返回200,否则返回404等 r.encoding='utf-8' return r.text 12345678910
此函数会返回url的网页源代码的内容,以url='http://www.cbooo.cn/year?year=2019’为例,下图为get_data后的结果,得到data后,我们就可以解析它,获取到我们想要的部分
3.提前创建csv表
local_data='D:/Learn' local_main2=local_data+'/'+'movie.csv'#设置路径 if not os.path.exists(local_main2): data = pd.DataFrame(columns123
相关知识
python爬虫实例——中国电影票房
Python爬虫实战:获取宠物领养信息和照片
博客名:使用Python爬虫实现宠物社区的宠物品种和养护知识获取
Python笔试题
[附开题]flask框架宠物领养系统xu2hg(源码+论文+python)
[开题报告]flask框架的宠物交流平台系统50k32(程序+论文+python)
[附开题]flask框架宠物交流平台1n2n3(源码+论文+python)
[附开题]flask框架宠物领养系统tusw9(源码+论文+python)
[附开题]flask框架宠物托管系统设计与实现is203(源码+论文+python)
2017中国宠物文化节(西安站)爬宠展区特别报道!【二、西北爬虫】
网址: python爬虫实例——中国电影票房 https://www.mcbbbk.com/newsview161046.html
上一篇: 如何运用科学的方法饲养宠物?科学 |
下一篇: 问道如何合成宠物训练营高阶积分劵 |
推荐分享

- 1我的狗老公李淑敏33——如何 5096
- 2南京宠物粮食薄荷饼宠物食品包 4363
- 3家养水獭多少钱一只正常 3825
- 4豆柴犬为什么不建议养?可爱的 3668
- 5自制狗狗辅食:棉花面纱犬的美 3615
- 6狗交配为什么会锁住?从狗狗生 3601
- 7广州哪里卖宠物猫狗的选择性多 3535
- 8湖南隆飞尔动物药业有限公司宠 3477
- 9黄金蟒的价格 3396
- 10益和 MATCHWELL 狗 3352