前言
Python爬虫,除了使用大家广为使用的scrapy架构外,还有很多包能够实现一些简单的爬虫,如BeautifulSoup、Urllib、requests,在使用这些包时,有的网络因为比较复杂,比较难以找到自己想要的代码,在这个时候,如果能够使用正则表达式,将能很方便地爬取到自己想要的数据。
何为正则表达式
正则表达式是一种描述字符串排列的一种语法规则,通过该规则可以在一个大字符串中匹配出满足规则的子字符串。简单来说,就是给定了一个字符串,在字符串中找到想要的字符串,如一个电话号码,一个IP地址,一个字段,在爬虫过程中,如果灵活使用正则表达式,将极大地提升爬虫效率。
Python使用正则表达式
re.match
import re str1='123asdfa' mathch1 = re.match("^[0-9]",str1) print(mathch1.group())
结果
1
如果要匹配12,则
import re str1='12s3asdfa' mathch1 = re.findall("1[0-9]",str1) print(mathch1)
结果
['12']
修改[0-9]为[10-19]是无法匹配到的。
因此,该语句将从头到尾匹配字符,匹配到则结束,需要.group才能获取到匹配到的值。
re.search
import re str1='1a2s3asdfa' mathch1 = re.search("^[0-9]",str1) print(mathch1.group())
结果
1
从头到尾匹配字符,直到找到一个匹配,需要.group才能获取到匹配到的值。re.serach()和re.match()的区别,re.search()将匹配所有的字符,re.match只匹配字符串的开头,如果开头不符合规则,则返回None。
re.split()
import re str1='1a2s3asdfa' mathch1 = re.split("[0-9]",str1) print(mathch1)
结果
['', 'a', 's', 'asdfa']
将匹配到的字符作为分隔符分隔字符串。
re.findall()
import re str1='12s3asdfa' mathch1 = re.findall("[0-9]",str1) print(mathch1)
运行结果
['1', '2', '3']
匹配所有符合规则的字符。
re.sub(pattern, repl, string, count,flag)
import re str1='12s3asdfa' mathch1 = re.sub("[0-9]",'|',str1) print(mathch1)
结果
||s|asdfa
用后面的字符替换前面的符合规则的字符。
爬虫实例
如需要爬取豆瓣热门电影2019,网址为:https://movie.douban.com/chart
首先鼠标右键查看网页源代码
如我们需要爬取电影的名称,我们搜索‘
82年生的金智英'
正则表达式的思路是通过需要爬去的字段旁边的字符去夹住想要的字符串,如我们需要‘82年生金智英'这穿字符,我们可以用“13px;">”和“<”去夹住它。
搜索该结构可以发现,只有标题会用到该结构,不会误爬到其他无关字符串。下面上爬虫代码
import re import requests url='https://movie.douban.com/chart' header={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' } result= requests.get(url,headers=header) data=re.findall(r'13px\;\"\>([^\<]+)',result.text) print(data)
结果是一个长度为9的数组。
['82年生金智英 / Kim Ji-young,Born 1982', '爱尔兰杀手(港) / 听说你刷房子了', '小丑起源电影:罗密欧 / Romeo', '情迷纽约下雨天(港) / 纽约有雨', '从前, 有个荷里活(港) / 从前,有个好莱坞...(台)', '长安盗', '地下6号 / 六尺之下', '丧尸乐园:连环尸杀(港) / 尸乐园:脏比双拼(台)', '浴火的少女画像(港) / 燃 烧女子的画像(台)']
该爬虫需要用到headers,不然会拒绝连接。
data=re.findall(r'13px\;\"\>([^\<]+)',result.text)
表示在result.text这个长字符串中查找,获取“13px;">”和“<”之间的字符串," \ "代表转移字符,否则无法识别这些符号。
这个案例可能不是最好的使用正则表达式的例子,但是想要给大家分享的是,以后如果遇到很复杂的网络结构,与其一层一层解析,不妨换一种思路,使用正则表达式说不定能够“柳暗花明又一村”。