Golang爬虫及正则表达式的实现示例_Golang

字符

. ——匹配任意字符 e.g: abc. 结果: abcd,abcx,abc9;
[] ——匹配括号中任意一个字符 e.g: [abc]d 结果：ad,cd,1d；
- ——[-]中表示范围 e.g: [A-Za-z0-9]；
^ ——[^]中表示除括号中的任意字符 e.g：[^xy]a 结果：aa,da,不能为xa,ya；

数量限定

？ ——前面单元匹配0或1次；
+ ——前面单元匹配1或多次；
* ——前面单元匹配0或多次；
{,} ——显示个数上下线；e.g ： ip地址——[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}；

其他

\ ——转义字符;
| ——条件或;
() ——组成单元如果字符串本身有括号"[(] aaa. [)]" ;

方法

				?

									//参数正则字符串，返回值*Regexp

									str := regexp.MustCompile(string) 

									//参数要查找的数据，查找次数-1为全局，返回值二维数组，查找出的字符串+正则字符串

									var result [][]string = str.FindAllStringSubmatch(data, -1)

爬虫

爬取博客园所有文章阅读量，评论，推荐；

				?

									package main

									import (

									 "fmt"

									 "io"

									 "net/http"

									 "regexp"

									 "strconv"

									)

									var readCount int = 0

									var commentCount int = 0

									var diggCount int = 0

									//http读取网页数据写入result返回

									func HttpGet(url string) (result string, err error) {

									 resp, err1 := http.Get(url)

									 if err1 != nil {

									  err = err1

									  return

									 }

									 defer resp.Body.Close()

									 buf := make([]byte, 4096)

									 for {

									  n, err2 := resp.Body.Read(buf)

									  //fmt.Println(url)

									  if n == 0 {

									   break

									  }

									  if err2 != nil && err2 != io.EOF {

									   err = err2

									   return

									  }

									  result += string(buf[:n])

									 }

									 return result, err

									}

									//横向纵向爬取文章标题数据，并累计数值

									func SpiderPageDB(index int, page chan int) {

									 url := "https://www.cnblogs.com/littleperilla/default.html?page=" + strconv.Itoa(index)

									 result, err := HttpGet(url)

									 if err != nil {

									  fmt.Println("HttpGet err:", err)

									  return

									 }

									 str := regexp.MustCompile("post-view-count\">阅读[(](?s:(.*?))[)]</span>")

									 alls := str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  readCount += temp

									 }

									 str = regexp.MustCompile("post-comment-count\">评论[(](?s:(.*?))[)]</span>")

									 alls = str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  commentCount += temp

									 }

									 str = regexp.MustCompile("post-digg-count\">推荐[(](?s:(.*?))[)]</span>")

									 alls = str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  diggCount += temp

									 }

									 page <- index

									}

									//主要工作方法

									func working(start, end int) {

									 fmt.Printf("正在从%d到%d爬取中...\n", start, end)

									 //channel通知主线程是否所有go都结束

									 page := make(chan int)

									 //多线程go程同时爬取

									 for i := start; i <= end; i++ {

									  go SpiderPageDB(i, page)

									 }

									 for i := start; i <= end; i++ {

									  fmt.Printf("拉取到%d页\n", <-page)

									 }

									}

									//入口函数

									func main() {

									 //输入爬取的起始页

									 var start, end int

									 fmt.Print("startPos:")

									 fmt.Scan(&start)

									 fmt.Print("endPos:")

									 fmt.Scan(&end)

									 working(start, end)

									 fmt.Println("阅读:", readCount)

									 fmt.Println("评论:", commentCount)

									 fmt.Println("推荐:", diggCount)

									}

Golang爬虫及正则表达式的实现示例

补充：正则表达式加golang爬虫爬取经典案例豆瓣top250

100

101

102

103

									package main

									import (

									    "fmt"

									    "io"

									    "net/http"

									    "os"

									    "regexp"

									    "strconv"

									)

									func savToFile(index int, filmName, filmScore [][]string) {

									    f, err := os.Create("第" + strconv.Itoa(index) + "页.txt")

									    if err != nil {

									        fmt.Println("os create err", err)

									        return

									    }

									    defer f.Close()

									    // 查出有多少条

									    n := len(filmName)

									    // 先写抬头 名称     评分

									    f.WriteString("电影名称" + "\t\t\t" + "评分" + "\n")

									    for i := 0; i < n; i++ {

									        f.WriteString(filmName[i][1] + "\t\t\t" + filmScore[i][1] + "\n")

									    }

									}

									func main() {

									    var start, end int

									    fmt.Print("请输入要爬取的起始页")

									    fmt.Scan(&start)

									    fmt.Print("请输入要爬取的终止页")

									    fmt.Scan(&end)

									    working(start, end)

									}

									func working(start int, end int) {

									    fmt.Printf("正在爬取%d到%d页", start, end)

									    for i := start; i <= end; i++ {

									        SpiderPage(i)

									    }

									}

									// 爬取一个豆瓣页面数据信息保存到文档

									func SpiderPage(index int) {

									    // 获取url

									    url := "https://movie.douban.com/top250?start=" + strconv.Itoa((index-1)*25) + "&filter="

									    // 爬取url对应页面

									    result, err := HttpGet(url)

									    if err != nil {

									        fmt.Println("httpget err", err)

									        return

									    }

									    //fmt.Println("result=", result)

									    // 解析，编译正则表达式  ---电影名称

									    ret := regexp.MustCompile(`<img width="100" id="codetool">



	到此这篇关于Golang爬虫及正则表达式的实现示例的文章就介绍到这了,更多相关Golang爬虫及正则表达式 内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家！

	原文链接：https://www.cnblogs.com/littleperilla/p/15721635.html
标签：golang 爬虫 正则表达式 

相关文章
详解Golang函数式选项(Functional Options)模式2022-01-25
Golang如何读取单行超长的文本详解2022-01-25
golang强制类型转换和类型断言2022-01-25
golang参数校验Validator2022-01-25
Python爬虫入门案例之回车桌面壁纸网美女图片采2022-01-25
Python爬虫实战之虎牙视频爬取附源码2022-01-25
热门资讯
蜘蛛侠3英雄无归3正片免费播放 蜘蛛侠3在线观看免费高清完整 2021-08-24
yue是什么意思 网络流行语yue了是什么梗 2020-10-11
背刺什么意思 网络词语背刺是什么梗 2020-05-22
2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全 2019-12-26
2021年耽改剧名单 2021要播出的59部耽改剧列表 2021-03-05
返回顶部
首页 l 电脑版 l 网站标签 l 网站地图

1284

Golang爬虫及正则表达式的实现示例

目录

字符

数量限定

其他

爬虫

补充：正则表达式加golang爬虫爬取经典案例豆瓣top250

相关文章

热门资讯