python 爬虫框架Scrapy简介

sunshine lv.1

发布时间：2022-09-14 10:18:33 324

相关标签： # 爬虫# windows# pycharm# 数据# 信息

搁了好久的 Scrapy 今天终于要重新拾起来了，顺手完成一个系列~ 注：本篇仅作为本系列的引子，主要是关于windows系统下 Scrapy的准备工作

1.Scrapy框架结构示意图

【官方示意图】

【某博主自制示意图】 戳此处直达原文 >>>

直接在命令行pip即可，此外还需要安装一个依赖库pypiwin32，也是直接pip即可

pip install scrapy
pip install pypiwin32

scrapy startproject [爬虫项目名称]

注意：要先进入到项目所在的路径，再执行命令

scrapy genspider [爬虫名称] "[爬取的域名]"

打开pycharm以后即可看到：

目录名称	作用
items.py	用来存放爬虫爬取下来数据的模型
middlewares.py	用来存放各种中间件的文件
pipelines.py	用来将items的模型存储到本地磁盘
settings.py	本爬虫的一些配置信息（比如请求头、多久发送一次请求、ip代理池等）
scrapy.cfg	项目的配置文件
spiders包	以后所有的爬虫都存放在这个里面

本节先告一段落，下一节为scrapy实战演示~

文章来源： https://blog.51cto.com/coderusher/5662060

特别声明：以上内容（图片及文字）均为互联网收集或者用户上传发布，本站仅提供信息存储服务！如有侵权或有涉及法律问题请联系我们。