Selenium的主要功能有如下几类:
- 打开浏览器
- 获取浏览器页面的特定内容
- 控制浏览器页面上的控件,如向一个文本框中输入一个字符串
- 关闭浏览器
对于爬虫应用来说,第2类功能是必不可少的。因为爬虫的主要目的就是抓取数据,而有时会使用第3类功能作为辅助,来完成第2类功能。例如,某些页面需要先登录,才能获取页面内容。这时就可以利用Selenium自动登录(需要向用户名和密码文本框中自动输入用户名和密码),然后再利用Selenium抓取数据。
如果只是创建Chrome对象,那么只会运行一个空的Chrome浏览器实例,要想让Chrome浏览器自动装载某个页面,需要使用get方法,代码如下: