返回

Selenium安装以及案例演示【Java爬虫】

发布时间:2023-11-17 03:03:44 60

一、Selenium简介

Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。适用于自动化测试,js动态爬虫(pj反爬虫)等领域。

二、Selenium组成

1)Selenium IDE:嵌入到Firefox浏览器中的一个插件,实现简单的浏览器操作录制与回放功能,主要用于快速创建BUG及重现脚本,可转化为多种语言

2)Selenium RC: 核心组件,支持多种不同语言编写自动化测试脚本,通过其服务器作为代理服务器去访问应用,达到测试的目的

3)Selenium WebDriver(重点):一个浏览器自动化框架,它接受命令并将它们发送到浏览器。它是通过特定于浏览器的驱动程序实现的。它直接与浏览器通信并对其进行控制。Selenium WebDriver支持各种编程语言,如Java、C# 、PHP、Python、Perl、Ruby

4)Selenium grid:测试辅助工具,用于做分布式测试,可以并行执行多个测试任务,提升测试效率。

三、Selenium特点

1)开源、免费

2)多浏览器支持:FireFox、Chrome、IE、Opera、Edge;

3)多平台支持:Linux、Windows、MAC;

4)多语言支持:Java、Python、Ruby、C#、JavaScript、C++;

5)对Web页面有良好的支持;

6)简单(API 简单)、灵活(用开发语言驱动);

7)支持分布式测试用例执行。

四、案例演示 爬虫:数据采集、数据清晰、数据分析!!!

4.1 java爬虫入门

下载驱动包 ​​http://chromedriver.storage.googleapis.com/index.html​​

创建项目并导入依赖


org.seleniumhq.selenium
selenium-java
3.141.59

入门

//设置驱动
System.setProperty("webdriver.chrome.driver","D:\\chromedriver.exe");
//创建驱动
WebDriver driver=new ChromeDriver();
//与将要爬取的网站建立连接
driver.get("https://www.baidu.com");
//关闭浏览器
driver.close();
//释放资源
driver.quit();

4.2 相关API 1.元素选择方式

1)Class选择:driver.findElement(By.className("s_ipt"));
2)ID选择: driver.findElement(By.id("kw"));
3)name选择: driver.findElement(By.name("wd"));
4)tag选择: driver.findElements(By.tagName("input"));
5)link选择: driver.findElement(By.linkText("地图"));
6)Partial link选择(a标签文本内容模糊匹配):driver.findElement(By.partialLinkText("使用百"));
7)css选择器:driver.findElement(By.cssSelector("#kw"));
8)xpath选择:driver.findElement(By.xpath("//*[@id=\"kw\"]"));

2.获取单个元素:driver.findElement

3.获取多个元素:driver.findElements

4.输入内容:input.sendKeys("java");

5.元素点击:element.click();

6.获取元素属性:nextPageEle.getAttribute("class")

7.获取标签文本内容:titleEle.getText()

package com.zking;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;

import java.util.List;

public class Demo {
public static void main(String[] args) {
//设置驱动
System.setProperty("webdriver.chrome.driver", "D:\\app\\Administrator\\initPath\\chromedriver.exe");
//创建驱动
WebDriver driver = new ChromeDriver();
//与将要爬取的网站建立连接
driver.get("https://www.baidu.com");

// 1)Class选择:driver.findElement(By.className("s_ipt"));
// WebElement element=driver.findElement(By.className("s_btn"));
// System.out.println(element.getAttribute("value"));
//
// 2)ID选择: driver.findElement(By.id("kw"));
// WebElement element=driver.findElement(By.id("kw"));
// System.out.println(element.getAttribute("class"));
//
// 3)name选择: driver.findElement(By.name("wd"));
// WebElement element=driver.findElement(By.name("wd"));
// System.out.println(element.getAttribute("maxlength"));
//
// 4)tag选择: driver.findElements(By.tagName("input"));
// List elements = driver.findElements(By.tagName("a"));
// for (WebElement element:elements){
// System.out.println(element.getText().trim());
// }
// 5)link选择: driver.findElement(By.linkText("地图"));
// WebElement elemen = driver.findElement(By.linkText("网盘"));
// System.out.println(elemen.getText());
// 6)Partial link选择(a标签文本内容模糊匹配):driver.findElement(By.partialLinkText("使用百"));
// List elements = driver.findElements(By.partialLinkText("人"));
// for (WebElement element:elements){
// System.out.println(element.getText());
// }
// 7)css选择器:driver.findElement(By.cssSelector("#kw"));
// List elements = driver.findElements(By.cssSelector("#hotsearch-content-wrapper > li:nth-child(1)"));
// for(WebElement element:elements){
// System.out.println(element.getText());
// }
// 8)xpath选择:driver.findElement(By.xpath("//*[@id=\"kw\"]"));
// WebElement element = driver.findElement(By.xpath("//*[@id=\"kw\"]"));
// System.out.println(element.getAttribute("value"));
//
// driver.findElement(By.id("kw")).sendKeys("java");
// driver.findElement(By.id("su")).click();
// }
}
}


以上就是今天的分享!!!

特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报
评论区(0)
按点赞数排序
用户头像
精选文章
thumb 中国研究员首次曝光美国国安局顶级后门—“方程式组织”
thumb 俄乌线上战争,网络攻击弥漫着数字硝烟
thumb 从网络安全角度了解俄罗斯入侵乌克兰的相关事件时间线
下一篇
Spring 框架的核心技术 2023-11-16 23:52:37