blind网站爬虫

2024-04-04

1 介绍

文本对https://www.teamblind.com/ 网站进行爬虫
在这里插入图片描述

对特殊的领域进行爬虫，用户可以先选择领域，然后进行爬虫，例如，文本是对https://www.teamblind.com/topics/General-Topics/Health-Wellness进行爬虫
在这里插入图片描述

2 主要代码

获取帖子内容

def get_comment(title_url, headers_list):
    headers = random.choice(headers_list)
    title_content = get_page(title_url, headers)
    title_soup = BeautifulSoup(title_content, 'html.parser')
    print(title_soup)
    title = title_soup.find_all(class_='word-break')[0].text.strip() # 获取标题
    contents = title_soup.find_all(id='contentArea')[0].text.strip() # 获取帖子的内容
    reviews_soup = title_soup.find_all(class_='comment_area') # 获取评论
    reviews = []

    for review_soup in reviews_soup:
        review = review_soup.find_all(class_='detail')[0].text.strip()
        if len(review) != 0:
            reviews.append(review)

    result = {}
    result["title"] = title
    result["contents"] = contents
    result["reviews"] = reviews
    return result
    定制化爬虫开发，联系Q 596520206

3 结果展示

保存为json格式，包含字段：title、 contents、reviews等
在这里插入图片描述

查看全文

原文地址：https://blog.csdn.net/ww596520206/article/details/137262466

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.msipo.com/article-669061.html 如若内容造成侵权/违法违规/事实不符，请联系MSIPO邮箱：3448751423@qq.com进行投诉反馈，一经查实，立即删除！

上一篇：JavaScript基础代码练习之翻转数组下一篇：蓝桥杯刷题_day10

blind网站爬虫

1 介绍

2 主要代码

3 结果展示

相关阅读

热门文章