服务器之家

服务器之家 > 正文

java实现一个简单的网络爬虫代码示例

时间:2021-02-03 11:42     来源/作者:在远行的路上

目前市面上流行的爬虫以python居多,简单了解之后,觉得简单的一些页面的爬虫,主要就是去解析目标页面(html)。那么就在想,java有没有用户方便解析html页面呢?找到了一个jsoup包,一个非常方便解析html的工具呢。

使用方式也非常简单,引入jar包:

?
1
2
3
4
5
<dependency>
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.8.3</version>
</dependency>

使用http工具,请求获取目标页面的整个html页面信息,然后使用jsoup解析:

?
1
2
3
4
5
//获取html页面信息
String html = getHtml();
//使用jsoup将html解析为Document对象
Document doc = Jsoup.parse(html);
//后续操作就可以解析这个DOM树了,非常简单。

总结

以上就是本文关于java实现一个简单的网络爬虫代码示例的全部内容,希望对大家有所帮助。如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

原文链接:http://blog.csdn.net/lzy_lizhiyang/article/details/62037656

标签:

相关文章

热门资讯

2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全
2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全 2019-12-26
Intellij idea2020永久破解,亲测可用!!!
Intellij idea2020永久破解,亲测可用!!! 2020-07-29
背刺什么意思 网络词语背刺是什么梗
背刺什么意思 网络词语背刺是什么梗 2020-05-22
yue是什么意思 网络流行语yue了是什么梗
yue是什么意思 网络流行语yue了是什么梗 2020-10-11
苹果12mini价格表官网报价 iPhone12mini全版本价格汇总
苹果12mini价格表官网报价 iPhone12mini全版本价格汇总 2020-11-13
返回顶部