在日常工作中常常需要重复填写某些表单,如果人工完成,费时费力,而且网络延迟令人十分崩溃。如果能够用程序实现自动填表,效率可以提高一倍以上,并且能够移植到多台计算机,进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具,它能完全模拟浏览器的操作,无需处理复杂的request、post,对爬虫初学者十分友好。
一、环境配置
python3.6+selenium库+xlrd库+xlwt库
其中xlrd和xlwt库用于读写excel表中的数据。
还要下载一个浏览器的driver文件用于打开浏览器,注意要选择与计算机系统相符合的版本(max/windows64位/windows32位)
ChromeDriver:http://npm.taobao.org/mirrors/chromedriver/
IEDriver:http://selenium-release.storage.googleapis.com/index.html
将下载下来的driver.exe放到浏览器根目录和python的根目录
二、打开网页
以IE浏览器为例,以下两行代码就可以实现打开一个IE浏览器并且访问我们需要填表的网站
1
2
|
driver = webdriver.Ie() driver.get( 'http://xxxx.com/' ) |
如果网站需要登陆(需要填表的一般是公司内部网站),再写一个login函数,将driver作为参数调用
1
|
driver = login(driver) |
注意一定要将driver传回,这样driver才能继续接受程序的指令
三、元素定位
webdriver的工作原理是找到网页中某一个元素,可以对其进行填入数据或点击等操作。
关于元素定位可以参考这篇博客
我主要用到的元素定位方式有
1
2
3
|
driver.find_element_by_id( 'someid' ) #通过元素的id定位 driver.find_element_by_css_selector( "input[value='确定'" ) #查找一个input元素,它的value属性值为'确定' driver.find_element_by_xpath( "//span[contains(@style,'COLOR: red')]/span[1]" ) #查找一个style属性值为'COLOR:red'的span元素的第一个span子元素 |
(1)通过id定位
如果我们想在网页表单的某一个位置填某项值或者点击某个按钮,我们首先要用开发者工具查看这个元素的源代码,然后首先观察它有没有id,如果有id,直接用id定位该元素。然后,用
1
2
3
|
driver.find_element_by_id( 'someid' ).click() #点击元素 driver.find_element_by_id( 'someid' ).send_keys( 'somekeys' ) #填入'somekeys' driver.find_element_by_id( 'someid' ).clear() #清空输入框中已有的值 |
实现我们想要做的操作。
(2)通过ccs selector定位
如果我们想要操作的元素没有ID,那么我们就要找到它跟网页其他元素不同的特征,ccs selector是一种十分灵活的定位方式,其中用value定位是一个不错的选择。以
1
|
driver.find_element_by_css_selector( "input[value='确定'" ) |
为例,双引号中的input可以换成任何网页元素(div、span、input、a等),中括号中是该元素的某一个属性(style、id、value、class等),等号后面是该属性的值。
注意,如果网页中有多个元素同时满足ccs selector的条件,如有多个value=“确定” 的input,那么find_element_by_css_selector只会定位到在html源代码中最靠前的一个,而find_elements_by_css_selector会找到源代码中所有满足条件的元素,并以列表的形式返回这些找到的元素。例如,网页中弹出很多个提示框,我们要一一去点确定,可以这样操作
1
2
3
|
list = driver.find_elements_by_css_selector( "input[value=' 确定 ']" ) for l in list : l.click() |
但是,如果这些提示框是重叠出现的,而最上层的提示框实际上在源码中更靠后的位置,那么列表中第一个“确定”元素就会被叠在上面的提示框遮挡,无法点击,这个时候倒序一下数组就可以了,从最后一个“确定”元素开始点击
1
2
3
|
query = driver.find_elements_by_css_selector( "input[value=' 确定 ']" ) for q in query[:: - 1 ]: q.click() |
(3)通过xpath定位
xpath定位比较复杂但是非常全面,当这个元素的class、style属性和其他元素一样,实在没什么特点可以一步定位的时候,我们就可以用xpath,先找到我们想要的元素的父子兄弟元素,再定位到我们想要的元素。例如
1
2
3
|
driver.find_element_by_xpath( '//*[@class="submit clear"]/input[1]' ).click() text = driver.find_element_by_xpath( "//input[@value=' 确定 ']/../preceding-sibling::div[1]" ).text driver.find_elements_by_xpath( "//span[contains(@style,'COLOR: red')]/span[1]" ) |
引号中的//表示相对定位,表示从源代码中任何地方开始寻找。
//后可以跟任何元素,*代表任意元素,即定位符合属性筛选任何元素。
中括号内是属性的筛选条件,@后可以加任意属性。contains(@style,'COLOR: red')表示的筛选条件是:style属性中包含”COLOR:red“。这里为什么不直接用@style='COLOR: red'
的原因是,可能在我们审查源代码的时候这个元素的style属性只有'COLOR: red'这一条,但是动态界面的style属性经常变化,程序运行时直接用等于是定位不到这个元素的。
我们通常需要靠先找到某个有id的元素,再通过层级关系定位到我们真正想要定位的元素,关于兄弟父子元素定位请参考https://www.zzvips.com/article/101668.html
/.. 可以定位这个元素的父亲元素
/ 可以定位这个元素的子元素
/preceding-sibling:: 可以定位这个元素的哥哥元素
/following-sibling:: 可以定位这个元素的弟弟元素
如/input[1]表示子元素中第一个input、/../preceding-sibling::div[1]表示父元素的哥哥元素中的第一个div
(4)通过当前节点定位
有时候我们会遇到需要判断一下元素当前的状态(是否被选择)再决定接下来的操作的情况,这时就需要用一个变量来保存当前节点
1
|
LTE = driver.find_element_by_xpath( "//input[@id='LTE']/../span[1]" |
然后再用get_attribute获得当前节点元素的属性,在这个例子里,如果元素为蓝色,就不需要点击。代码实现为:
1
2
3
4
|
if LTE.get_attribute( "style" ) = = "COLOR: blue" : pass else : LET.click() |
需要筛选出特定文本的情况:
1
2
3
4
5
|
red = driver.find_elements_by_xpath( "//span[contains(@style,'COLOR: red')]/span[1]" ) #找出所有红色的文本 for r in red: if '低消' in r.text: #如果文本信息中包含‘低消' r.find_element_by_xpath( "./../preceding-sibling::input[1]" ).click() #注意从当前节点定位的时候要以‘./'开头 break |
如果寻找的元素需要滚动界面才能看到,这个时候可以用js聚焦此元素,页面便会滚动到该元素的位置
1
2
3
|
target = driver.find_element_by_css_selector( "input[value=' 确定 ']" ) driver.execute_script( "arguments[0].scrollIntoView();" , target) target.click() |
四、不确定情况处理
(1)有可能出现的弹窗
在填表过程中,有些地方有可能出现一个弹框也有可能不出现,这个时候,无论这个弹窗是什么,用try..except语句处理就可以解决
js触发的弹窗:
1
2
3
4
|
try : driver.find_element_by_css_selector( "input[value=' 确定 ']" ).click() except Exception as e: pass |
网页alert弹窗:
1
2
3
4
|
try : driver.switch_to.alert.dismiss() except Exception: pass |
dismiss()对应的是alert弹窗的”取消“项,accept()对应的是”确定“项,driver.switch_to.alert.text 可以获得弹窗的文本内容。
(2)数量不定的弹窗
对上文提到的多个提示框情况,除了用 query=driver.find_elements_by_css_selector("input[value=' 确定 ']") 一次性找到所有元素再顺序或倒序点击之外,还可以用一个while循环解决
1
2
3
4
5
|
while (1): try : driver.find_element_by_css_selector( "input[value=' 确定 ']" ).click() except Exception as e: break |
(3)网络延迟
有些网页在点击查询信息之后需要加载一段时间,加载中的页面是找不到我们接下来想找的元素的,因此程序就会报错,此时有两种解决方法。
一种是固定等待一段时间,等待网页加载完毕,这种方法的缺点是很难找到等待的最佳时间,太短的话页面还没加载完,太长就影响效率
1
|
time.sleep( 2 ) |
另一种是用一个while循环一直寻找下一个我们要找的元素
1
2
3
4
5
6
|
while ( 1 ): try : driver.find_element_by_id( 'continueTrade' ).click() break except Exception: pass |
这种方法的前提是下一个要找的元素必定会出现
五、frame处理
关于frame处理这篇博客写得非常好https://www.zzvips.com/article/185441.html
总结起来就是:frameset不用切,frame层层切。最好一系列填表操作完后都用 driver.switch_to.default_content() 回到原文档,这样不容易混乱
这里再补充一点frame没有id时的切入方法
1
2
|
frame = self .driver.find_element_by_xpath( "/html/body/div[12]/iframe" ) #先定位frame位置,用一个变量储存这个节点 self .driver.switch_to_frame(frame) #再切入这个节点 |
六、excel数据读写
excel数据读写十分简单,看代码就好了:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
def read( file ): data = xlrd.open_workbook( file ) #打开excel文件 table = data.sheets()[ 0 ] #读取第一个sheet的数据 phones = table.col_values( 0 ) #以列表形式存储第一列数据 peoples = table.col_values( 1 ) #以列表形式存储第二列数据 return phones,peoples def write(result): file = xlwt.Workbook() #创建一个excel文件 table = file .add_sheet( 'sheet1' ) #添加一个sheet for i in range ( len (result)): #写入数据 table.write(i, 0 ,result[i][ 0 ]) table.write(i, 1 ,result[i][ 1 ]) table.write(i, 2 ,result[i][ 2 ]) file .save( 'result.xls' ) |
到此这篇关于用python-webdriver实现自动填表的示例代码的文章就介绍到这了,更多相关python webdriver 自动填表内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!
原文链接:https://www.cnblogs.com/luozx207/p/9003214.html