再遇python

2018-04-08
####简单爬虫-豆瓣电影

import requests  # 导入网页请求库(简单模拟用户发送请求）
from bs4 import BeautifulSoup  # 导入网页解析库

# 传入URL

r = requests.get('https://movie.douban.com/subject/27140017/celebrities')  # 模拟用户请求，请求成功，服务器会相应！
# print(r.text)  此处可以测试服务器是否正确响应
# 解析URL

soup = BeautifulSoup(r.text, 'html.parser')  # 简单理解成把服务器传过来的html规范化
contentList = soup.find_all('div', attrs={'class': 'info'})  # 根据你所设置的过滤条件来过滤其中的信息

# 迭代List中的所有信息：
print(len(contentList))  # 看看有多少条
for content in contentList:  
    print(content.span.text)  # 从浏览器检查元素可知标签div下的a中文字
结果：
> 感恩宝哥