python 爬虫框架Scrapy简介
发布时间:2022-09-14 10:18:33 324
相关标签: # 爬虫# windows# pycharm# 数据# 信息
搁了好久的 Scrapy 今天终于要重新拾起来了,顺手完成一个系列~
注
:本篇仅作为本系列的引子,主要是关于windows系统下 Scrapy的准备工作
1.Scrapy框架结构示意图
【官方示意图】
【某博主自制示意图】 戳此处直达原文 >>>
2.安装 Scrapy 框架
直接在命令行pip
即可,此外还需要安装一个依赖库pypiwin32
,也是直接pip
即可
pip install scrapy
pip install pypiwin32
3.创建项目和爬虫
- 创建项目:
scrapy startproject [爬虫项目名称]
- 创建爬虫
注意:要先进入到项目所在的路径,再执行命令
scrapy genspider [爬虫名称] "[爬取的域名]"
4.操作示意图:
打开pycharm以后即可看到:
5.项目目录结构
目录名称 | 作用 |
---|---|
items.py | 用来存放爬虫爬取下来数据的模型 |
middlewares.py | 用来存放各种中间件的文件 |
pipelines.py | 用来将items的模型存储到本地磁盘 |
settings.py | 本爬虫的一些配置信息(比如请求头、多久发送一次请求、ip代理池等) |
scrapy.cfg | 项目的配置文件 |
spiders包 | 以后所有的爬虫都存放在这个里面 |
本节先告一段落,下一节为scrapy实战演示~
文章来源: https://blog.51cto.com/coderusher/5662060
特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报