####简单爬虫-豆瓣电影
import requests # 导入网页请求库(简单模拟用户发送请求)
from bs4 import BeautifulSoup # 导入网页解析库
# 传入URL
r = requests.get('https://movie.douban.com/subject/27140017/celebrities') # 模拟用户请求,请求成功,服务器会相应!
# print(r.text) 此处可以测试服务器是否正确响应
# 解析URL
soup = BeautifulSoup(r.text, 'html.parser') # 简单理解成把服务器传过来的html规范化
contentList = soup.find_all('div', attrs={'class': 'info'}) # 根据你所设置的过滤条件来过滤其中的信息
# 迭代List中的所有信息:
print(len(contentList)) # 看看有多少条
for content in contentList:
print(content.span.text) # 从浏览器检查元素可知标签div下的a中文字
结果:
> 感恩宝哥