假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记。通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml。这是一个经过充分测试的解决方案,但是在处理成千上万个HTML文档时可能会非常慢。
通过用selectolax替换BeautifulSoup,您几乎可以免费获得5-30倍的加速!
这是一个简单的基准测试,可分析commoncrawl(`处理NLP问题时,有时您需要获得大量的文本集。互联网是文本的最大来源,但是不幸的是,从任意HTML页面提取文本是一项艰巨而痛苦的任务。
假设我们需要从各种网页中提取全文,并且要剥离所有HTML标记。通常,默认解决方案是使用BeautifulSoup软件包中的get_text方法,该方法内部使用lxml。这是一个经过充分测试的解决方案,但是在处理成千上万个HTML文档时可能会非常慢。
通过用selectolax替换BeautifulSoup,您几乎可以免费获得5-30倍的加速!这是一个简单的基准测试,可分析commoncrawl(https://commoncrawl.org/)的10,000个HTML页面:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
|
# coding: utf-8 from time import time import warc from bs4 import BeautifulSoup from selectolax.parser import HTMLParser def get_text_bs(html): tree = BeautifulSoup(html, 'lxml' ) body = tree.body if body is None : return None for tag in body.select( 'script' ): tag.decompose() for tag in body.select( 'style' ): tag.decompose() text = body.get_text(separator = '\n' ) return text def get_text_selectolax(html): tree = HTMLParser(html) if tree.body is None : return None for tag in tree.css( 'script' ): tag.decompose() for tag in tree.css( 'style' ): tag.decompose() text = tree.body.text(separator = '\n' ) return text def read_doc(record, parser = get_text_selectolax): url = record.url text = None if url: payload = record.payload.read() header, html = payload.split(b '\r\n\r\n' , maxsplit = 1 ) html = html.strip() if len (html) > 0 : text = parser(html) return url, text def process_warc(file_name, parser, limit = 10000 ): warc_file = warc. open (file_name, 'rb' ) t0 = time() n_documents = 0 for i, record in enumerate (warc_file): url, doc = read_doc(record, parser) if not doc or not url: continue n_documents + = 1 if i > limit: break warc_file.close() print ( 'Parser: %s' % parser.__name__) print ( 'Parsing took %s seconds and produced %s documents\n' % (time() - t0, n_documents)) |
1
2
3
4
5
6
7
8
|
>>> ! wget https: / / commoncrawl.s3.amazonaws.com / crawl - data / CC - MAIN - 2018 - 05 / segments / 1516084886237.6 / warc / CC - MAIN - 20180116070444 - 20180116090444 - 00000.warc .gz >>> file_name = "CC-MAIN-20180116070444-20180116090444-00000.warc.gz" >>> process_warc(file_name, get_text_selectolax, 10000 ) Parser: get_text_selectolax Parsing took 16.170367002487183 seconds and produced 3317 documents >>> process_warc(file_name, get_text_bs, 10000 ) Parser: get_text_bs Parsing took 432.6902508735657 seconds and produced 3283 documents |
显然,这并不是对某些事物进行基准测试的最佳方法,但是它提供了一个想法,即selectolax有时比lxml快30倍。
selectolax最适合将HTML剥离为纯文本。如果我有10,000多个HTML片段,需要将它们作为纯文本索引到Elasticsearch中。(Elasticsearch有一个html_strip文本过滤器,但这不是我想要/不需要在此上下文中使用的过滤器)。事实证明,以这种规模将HTML剥离为纯文本实际上是非常低效的。那么,最有效的方法是什么?
- PyQuery
1
2
3
|
from pyquery import PyQuery as pq text = pq(html).text() |
- selectolax
1
2
3
|
from selectolax.parser import HTMLParser text = HTMLParser(html).text() |
- 正则表达式
1
2
3
4
|
import re regex = re. compile (r '<.*?>' ) text = clean_regex.sub('', html) |
结果
我编写了一个脚本来计算时间,该脚本遍历包含HTML片段的10,000个文件。注意!这些片段不是完整的<html>文档(带有<head>和<body>等),只是HTML的一小部分。平均大小为10,314字节(中位数为5138字节)。结果如下:
1
2
3
4
5
6
7
8
9
10
11
12
|
pyquery SUM : 18.61 seconds MEAN: 1.8633 ms MEDIAN: 1.0554 ms selectolax SUM : 3.08 seconds MEAN: 0.3149 ms MEDIAN: 0.1621 ms regex SUM : 1.64 seconds MEAN: 0.1613 ms MEDIAN: 0.0881 ms |
我已经运行了很多次,结果非常稳定。重点是:selectolax比PyQuery快7倍。
正则表达式好用?真的吗?
对于最基本的HTML Blob,它可能工作得很好。实际上,如果HTML是<p> Foo&amp; Bar </ p>,我希望纯文本转换应该是Foo&Bar,而不是Foo&amp; bar。
更重要的一点是,PyQuery和selectolax支持非常特定但对我的用例很重要的内容。在继续之前,我需要删除某些标签(及其内容)。例如:
1
2
3
|
< h4 class = "warning" >This should get stripped.</ h4 > < p >Please keep.</ p > < div style = "display: none" >This should also get stripped.</ div > |
正则表达式永远无法做到这一点。
2.0 版本
因此,我的要求可能会发生变化,但基本上,我想删除某些标签。例如:<div class =“ warning”> 、 <div class =“ hidden”> 和 <div style =“ display:none”>。因此,让我们实现一下:
- PyQuery
1
2
3
4
5
6
7
8
9
10
11
|
from pyquery import PyQuery as pq _display_none_regex = re. compile (r 'display:\s*none' ) doc = pq(html) doc.remove( 'div.warning, div.hidden' ) for div in doc( 'div[style]' ).items(): style_value = div.attr( 'style' ) if _display_none_regex.search(style_value): div.remove() text = doc.text() |
- selectolax
1
2
3
4
5
6
7
8
9
10
11
12
|
from selectolax.parser import HTMLParser _display_none_regex = re. compile (r 'display:\s*none' ) tree = HTMLParser(html) for tag in tree.css( 'div.warning, div.hidden' ): tag.decompose() for tag in tree.css( 'div[style]' ): style_value = tag.attributes[ 'style' ] if style_value and _display_none_regex.search(style_value): tag.decompose() text = tree.body.text() |
这实际上有效。当我现在为10,000个片段运行相同的基准时,新结果如下:
1
2
3
4
5
6
7
8
9
10
|
pyquery SUM : 21.70 seconds MEAN: 2.1701 ms MEDIAN: 1.3989 ms selectolax SUM : 3.59 seconds MEAN: 0.3589 ms MEDIAN: 0.2184 ms regex Skip |
同样,selectolax击败PyQuery约6倍。
结论
正则表达式速度快,但功能弱。selectolax的效率令人印象深刻。
以上就是python 提取html文本的方法的详细内容,更多关于python 提取html文本的资料请关注服务器之家其它相关文章!
原文链接:https://mp.weixin.qq.com/s/kn-6fxdSU1W9EbqnyiB_HA