Python爬虫(五)-Excel表格存储

Python爬虫入门目录

今天这部分极其简单,不过为了存储与通用性需要,将前面的几个部分改了一丢丢。

所需库

import xlwt

项目代码示例

# 保存数据
def save_data(data_list, save_path):
    book = xlwt.Workbook(encoding="utf-8")
    sheet = book.add_sheet("douban250", cell_overwrite_ok=True)
    col = ('电影详情链接', "图片链接", "影片中文名", "影片外文名", "评分", "评价数", "概况", "相关信息")
    for i in range(0, 8):
        sheet.write(0, i, col[i])       # 列名
    for i in range(0, 250):
        print("第%d条" % (i+1))
        data = data_list[i]
        for j in range(0, 8):
            sheet.write(i+1, j, data[j])
    book.save(save_path)

代码参数解释

dataList,这个就是之前的爬取到的数据,存储后的列表,不过存储顺序改过了,阅读数和封面链接的存储的顺序调换的这类改动,不改也行,就是后期比较费脑要回来看哪个是哪个。

savePath,存储路径,这个是一个字符串savePath = ".\\" ,\\的意思是\,是转义字符,这个的目的是为了以后更改存储位置方便。 .\ 的意思是当前目录,.\data\表示存储在当前目录下的data文件夹中。

代码内部解释

path这个是文件的完整路径,最终的效果是path == '.\\mwhls.top.xls' ,如果没有savePath参数,也可以直接改成上面这种。

book这个变量是工作表,编码用utf8。

sheet就是添加表格了,“mwhls.top”是表格名称,后面的cell_overwrite_ok=True是允许覆盖的意思。

dataName就是Excel表格的第一行名称了,在后面的第一次循环中添加进入表格。

后面的三个循环都挺好理解的,就是每一行的每一列添加什么,其中的sheet.write(row, col, strData)表示在sheet这个表格的row行,col列,添加一个strData的字符串。注意这里的sheet是表格不是Excel文件,一个Excel文件里面可以有多个表格,只不过大多情况用一个,不要混淆。

最后的book.save(path)就是将Excel表格保存在path下了。

简单示例

import xlwt

workbook = xlwt.Workbook(encoding="utf-8")
worksheet = workbook.add_sheet("sheet1")
worksheet.write(0, 0, "hello")
workbook.save("student.xls")

成果展示

You may also like...

发表评论

邮箱地址不会被公开。 必填项已用*标注