Python抖音爬虫

06-01 1606阅读

代码：

# 导入自动化模块的安装：需要安装 pip install DrissionPage
from DrissionPage import ChromiumPage
# 导入时间转换模块
from datetime import datetime
# 导入csv模块，用于操作CSV文件
import csv
# 导入格式化输出模块
from pprint import pprint
# 使用with语句管理文件资源，自动关闭文件
with open('../excel文件/data.csv', mode='w', encoding='UTF-8', newline='') as f:
    # 创建字典写入对象，指定表头字段
    csv_writer = csv.DictWriter(f, fieldnames=['昵称', '地区', '日期', '评论'])
    # 写入表头
    csv_writer.writeheader()
    # 打开浏览器（实际浏览对象）
    dp = ChromiumPage()
    # 监听数据包
    dp.listen.start('comment/list/')
    # 访问网站
    dp.get('https://www.douyin.com/video/7444572344439541042')
    # 构建循坏翻页，从第1页到第20页（左闭右开区间，所以是1到21）
    for page in range(1, 27):
        print(f'正在采集{page}页的数据内容')
        # 等待数据包加载
        resp = dp.listen.wait()
        # 获取响应数据
        try:
            json_data = resp.response.body
            # 解析数据，获取评论信息所在的列表
            try:
                comments = json_data['comments']
            except KeyError as e:
                print(f"获取评论列表出现异常，异常信息：{e}")
                comments = []
            # 遍历评论列表，提取每条评论具体数据信息
            for index in comments:
                try:
                    create_time = index['create_time']
                    date = str(datetime.fromtimestamp(create_time))
                    # 尝试获取地区信息，先从ip_label获取，若不存在则尝试从client_info中获取省份信息
                    try:
                        region = index['ip_label']
                    except KeyError:
                        ip_client_info = index.get('client_info', {})
                        region = ip_client_info.get('province', '未知') if ip_client_info else '未知'
                except KeyError as e:
                    print(f"处理单个评论数据出现异常，异常信息：{e}，当前评论数据：{index}")
                    continue
                dit = {
                    '昵称': index['user']['nickname'],
                    '地区': region,
                    '日期': date,
                    '评论': index['text'],
                }
                try:
                    csv_writer.writerow(dit)
                    print(dit)
                except Exception as e:
                    print(f"写入CSV文件出现异常，异常信息：{e}，当前数据：{dit}")
                # 查找下一页元素，判断是否存在
                next_page = dp.ele('css:.Rcc71LyU')
                if next_page:
                    dp.scroll.to_see(next_page)
                else:
                    print("未找到下一页元素，可能已到达最后一页或者页面结构有变化")
        except Exception as e:
            print(f"整体页面数据处理出现异常，异常信息：{e}")

（图片来源网络，侵删）

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python抖音爬虫

相关阅读

Linux Shell异常处理，常见问题与解决方案？Shell脚本报错怎么解决？Shell脚本报错如何快速解决？

Linux中高效复制多级目录与文件的技巧与方法？如何快速复制Linux多级目录？Linux多级目录如何快速复制？

IDA Pro监听Linux进程，逆向工程中的动态调试技术？IDA如何动态调试Linux进程？IDA如何逆向调试Linux进程？

Linux下按pip安装与管理Python包指南？Linux如何用pip管理Python包？Linux下pip怎么管理Python包？

目录[+]