python爬虫,爬取百度图片
这两天尝试在爬取百度图片时,遇到了不少坑,有几处问题还不太明白,先记录下来,待日后解决。
问题如下:
1. 百度图片的网页有两种:
http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&oe=utf-8&word=people&fp=result&
http://image.baidu.com/search/flip?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&oe=utf-8&word=people&fp=result&
两者只有加下划线的部分不同,但是关键字为index的url图片是动态加载的,使用xpath无法解析到图片的链接地址
关键字为flip的是固定页面,每页显示固定张数的图片,但是从浏览器端看到只有30张,但是通过requests.get获取到的图片url却有60个,不是很理解这一点。
我写的爬虫使用的是解析关键字为flip的url
2. 在获取到html.text后,通过正则表达式来筛选出图片的源地址
re.findall('"objURL":"(.*?)",', html, re.S)
这一句是借鉴了其他人的写法&#x
相关知识
python爬虫,爬取百度图片
博客名:使用Python爬虫实现宠物社区的宠物品种和养护知识获取
Python爬虫实战:获取宠物领养信息和照片
[开题报告]flask框架的宠物交流平台系统50k32(程序+论文+python)
[附开题]flask框架宠物领养系统xu2hg(源码+论文+python)
python爬虫实例——中国电影票房
[附开题]flask框架宠物托管系统设计与实现is203(源码+论文+python)
2017中国宠物文化节(西安站)爬宠展区特别报道!【二、西北爬虫】
树脂 爬虫厂家
Python程序源码老哥
网址: python爬虫,爬取百度图片 https://www.mcbbbk.com/newsview161104.html
上一篇: uboot顶层makefile部 |
下一篇: 会考=高考!2018黑龙江省会考 |
推荐分享

- 1我的狗老公李淑敏33——如何 5096
- 2南京宠物粮食薄荷饼宠物食品包 4363
- 3家养水獭多少钱一只正常 3825
- 4豆柴犬为什么不建议养?可爱的 3668
- 5自制狗狗辅食:棉花面纱犬的美 3615
- 6狗交配为什么会锁住?从狗狗生 3601
- 7广州哪里卖宠物猫狗的选择性多 3535
- 8湖南隆飞尔动物药业有限公司宠 3477
- 9黄金蟒的价格 3396
- 10益和 MATCHWELL 狗 3352