selenium获取网页源码太慢(selenium获取页面元素及个数)
没有不能查看源代码的网页,点一下F12或者1抓包,找到真正的url,模拟post或get2用selenium+phantomjs 或firefox 或chrome。
不用说,当然是把脚本转为java代码了,在E clipse中重新开始搞选择一个测试框架有Junit和TestNg两个选择,公司用的是junit,所以,不用多说,我就用junit验证selenium脚本的运行结果并且,Junit和Test。
我当时遇到的问题是chromedriveexe版本过低和chrome浏览器兼容性不好,可以试一下高版本的chromedriveexe试一下,仅供产考。
chrome_options=chrome_optionschromeget#39的话抓取速度就很慢了,加上代理的话如果代理不稳定可能还会慢出一大截。
可能是页面加载比较慢还没加载出来,selenium如何用python的selenium提取页面所有资源加载的链接 答用浏览器打开你那个连接完整加载,通过 查看源 找到你要的数据记住标记,比如某个元素,selenium+python获取到页面。
driverpage_source是只能获取源码的如果是需要加载的,你需要用匹配,比如browserfind_elements_by_xpath。
3 配置采集规则可以使用智能识别功能,让八爪鱼自动识别页面的数据结构,或者手动设置采集规则4 如果手动设置采集规则,可以通过鼠标选择页面上的数据元素,并设置相应的采集规则,以确保正确获取所需的数据5 设置翻页。