[原]Python爬虫编程思想(91):项目实战--支持搜索功能的图片爬虫
2021-12-01 22:38:41 Author: blog.csdn.net(查看原文) 阅读量:18 收藏

蒙娜丽宁 2021-12-01 22:22:32 4 收藏

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

92 篇文章 4 订阅 ¥29.90 ¥99.00

        本文会使用requests库抓取百度图像搜索API返回的JSON数据,并根据图像URL下载图像文件。由于API返回的是JSON格式的数据,所以不需要使用任何HTML分析库,只需要将数据转换为JSON对象即可。

        抓取API数据的第一步就是要确定网站的数据是否是通过异步的方式获取的。判断方式有多种,如果是显示图像的网站,而且是在一页上显示所有的图像,只需要将网页不断向下拉,如果在浏览器页面,随着滚动条向下拉动,不断显示新的图像,那么可以肯定,这个网址的图片数据是通过异步获取的。通常会首先获取一个包含图片信息的列表(JSON格式),然后会从列表中提取出图像相关的信息,如图像名称,图像URL等,最后会将这个新的图像显示在页面上。

        现在来分析百度图像搜索,读者可以通过http://image.baidu.com进入百度图像搜索首页,在搜索框中输入一个关键字,如“外星人”。会搜索出类似图13-9所示的结果。     


文章来源: https://blog.csdn.net/nokiaguy/article/details/121666307
如有侵权请联系:admin#unsafe.sh