正则表达式处理文本有如疾风扫秋叶,绝大部分编程语言都内置支持正则表达式,它应用在诸如表单验证、文本提取、替换等场景。爬虫系统更是离不开正则表达式,用好正则表达式往往能收到事半功倍的效果。
介绍正则表达式前,先来看一个问题,下面这段文本来自豆瓣的某个网页链接,我对内容进行了缩减。问:如何提取文本中所有邮箱地址呢?
html = """ <style> .qrcode-app{ display: block; background: url(/pics/qrcode_app4@2x.png) no-repeat; } </style> <div class="reply-doc content"> <p class="">34613453@qq.com,谢谢了</p> <p class="">30604259@qq.com麻烦楼主</p> </div> <p class="">490010464@163.com<br/>谢谢</p> """