Python爬虫(五)-Excel表格存储
今天这部分极其简单,不过为了存储与通用性需要,将前面的几个部分改了一丢丢。
所需库
import xlwt
项目代码示例
# 保存数据
def save_data(data_list, save_path):
book = xlwt.Workbook(encoding="utf-8")
sheet = book.add_sheet("douban250", cell_overwrite_ok=True)
col = ('电影详情链接', "图片链接", "影片中文名", "影片外文名", "评分", "评价数", "概况", "相关信息")
for i in range(0, 8):
sheet.write(0, i, col[i]) # 列名
for i in range(0, 250):
print("第%d条" % (i+1))
data = data_list[i]
for j in range(0, 8):
sheet.write(i+1, j, data[j])
book.save(save_path)
代码参数解释
dataList,这个就是之前的爬取到的数据,存储后的列表,不过存储顺序改过了,阅读数和封面链接的存储的顺序调换的这类改动,不改也行,就是后期比较费脑要回来看哪个是哪个。
savePath,存储路径,这个是一个字符串savePath = ".\\"
,\\的意思是\,是转义字符,这个的目的是为了以后更改存储位置方便。 .\ 的意思是当前目录,.\data\表示存储在当前目录下的data文件夹中。
代码内部解释
path这个是文件的完整路径,最终的效果是path == '.\\mwhls.top.xls'
,如果没有savePath参数,也可以直接改成上面这种。
book这个变量是工作表,编码用utf8。
sheet就是添加表格了,“mwhls.top”是表格名称,后面的cell_overwrite_ok=True
是允许覆盖的意思。
dataName就是Excel表格的第一行名称了,在后面的第一次循环中添加进入表格。
后面的三个循环都挺好理解的,就是每一行的每一列添加什么,其中的sheet.write(row, col, strData)
表示在sheet这个表格的row行,col列,添加一个strData的字符串。注意这里的sheet是表格不是Excel文件,一个Excel文件里面可以有多个表格,只不过大多情况用一个,不要混淆。
最后的book.save(path)就是将Excel表格保存在path下了。
简单示例
import xlwt
workbook = xlwt.Workbook(encoding="utf-8")
worksheet = workbook.add_sheet("sheet1")
worksheet.write(0, 0, "hello")
workbook.save("student.xls")
共有 0 条评论