爬虫笔记 发表于 2022-07-13 分类于 爬虫 阅读次数: 发起请求12345678910h = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit'}res = requests.get("url", headers = h)# 返回请求状态码,200即为请求成功print(r.status_code)# 返回页面代码print(r.text)# 对于特定类型请求,如Ajax请求返回的json数据print(r.json())建立会话1234567# 保持会话# 新建一个session对象sess = requests.session()# 先完成登录sess.post('maybe a login url', data=data, headers=headers)# 然后再在这个会话下去访问其他的网址sess.get('other urls')解析网页12345678910111213141516# 选用lxml解析器来解析soup = BeautifulSoup(html, 'lxml')# 获取标题print(soup.title)# 获取文本print(soup.title.text)# 通过标签定位print(soup.find_all('a'))# 通过属性定位print(soup.find_all(attrs={'id': 'link1'}))# 标签 + 属性定位print(soup.find_all('a', id='link1'))