黑板客第一关,也就是在响应页面中提取需要的信息,没啥难度,需要以下库。
1.requests 我推荐快速上手
2.xpath 我推荐w3school
3.re 我推荐 这个
废话不多说,下面是代码。
#! /user/bin/env python # -*- coding: utf-8 -*- import requests from lxml import etree import re def findText(url): try: req=requests.get(url).text tree=etree.HTML(req) content=tree.xpath("//h3/text()") content=str(content) print(content) match=re.search(r'\d+',content).group() return match except: return None def main(): num='' while True: url="http://www.heibanke.com/lesson/crawler_ex00/" url=url+num print(url) num=findText(url) if num==None: break if __name__ == '__main__': main()
Comments NOTHING