服务器之家

服务器之家 > 正文

详解java爬虫jsoup解析多空格class数据

时间:2021-06-24 09:49     来源/作者:243644739

在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getelementsbyclass(“class的值”),这种方法获取不到想要的数据。

1、问题描述:

在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getelementsbyclass(“class的值”),这种方法获取不到想要的数据。

爬取网站页面结构如下:

详解java爬虫jsoup解析多空格class数据

2、其中文章列表的div为:<div class="am-cf inner_li inner_li_abtest"></div>

我们可以看到其class的值为:am-cf inner_li inner_li_abtest。带空格的。多值的。

如果我们还是用getelementsbyclass这个方法获取的话,是获取不到的。eclipse中断点如下:

详解java爬虫jsoup解析多空格class数据

3、可以看到获取的值的长度size=0。没有获取到数据。

经过各方搜索,发现解决方案:使用的不是getelementsbyclass方法,可以使用其他方法。

先上成功后截图:

详解java爬虫jsoup解析多空格class数据

4、我们可以看到数据的长度size=20了。说明获取到数据了。

下面讲解select方法使用:

elements org.jsoup.nodes.element.select(string cssquery)

详解java爬虫jsoup解析多空格class数据

5、样式选择器。

查看源码:

详解java爬虫jsoup解析多空格class数据

6、我们知道这个可以多个。

在看看我们案例中使用的是:div.am-cf.inner_li.inner_li_abtest。为什么要这么写呢?

查看需要爬取文章的页面结构:

详解java爬虫jsoup解析多空格class数据

总结:以上就是关于java爬虫jsoup解析多空格class数据的详细内容,感谢大家的阅读和对服务器之家的支持。

原文链接:https://jingyan.baidu.com/article/c85b7a64bfca85003bac95ed.html

标签:

相关文章

热门资讯

2022年最旺的微信头像大全 微信头像2022年最新版图片
2022年最旺的微信头像大全 微信头像2022年最新版图片 2022-01-10
蜘蛛侠3英雄无归3正片免费播放 蜘蛛侠3在线观看免费高清完整
蜘蛛侠3英雄无归3正片免费播放 蜘蛛侠3在线观看免费高清完整 2021-08-24
背刺什么意思 网络词语背刺是什么梗
背刺什么意思 网络词语背刺是什么梗 2020-05-22
yue是什么意思 网络流行语yue了是什么梗
yue是什么意思 网络流行语yue了是什么梗 2020-10-11
暖暖日本高清免费中文 暖暖在线观看免费完整版韩国
暖暖日本高清免费中文 暖暖在线观看免费完整版韩国 2021-05-08
返回顶部