python爬虫scrapy基本使用超详细教程

脚本专栏 2025/12/13 佚名

3 2 1

一、介绍

官方文档：中文2.3版本

下面这张图大家应该很熟悉，很多有关scrapy框架的介绍中都会出现这张图，感兴趣的再去查询相关资料，当然学会使用scrapy才是最主要的。

二、基本使用

2.1 环境安装

1.linux和mac操作系统：

pip install scrapy

2.windows系统：

先安装wheel：pip install wheel
下载twisted：下载地址

安装twisted：

pip install Twisted"text-align: center">
2.2 scrapy使用流程
这里默认大家已经安装好scrapy库，大家要记得要在命令行里输入以下命令啊。(我使用的anaconda的命令行)
创建工程


scrapy startproject projectName





进入工程目录：这里一定要进入到刚才创建好的目录中




cd projectName



创建爬虫文件：创建的爬虫文件会出现在之前创建好的spiders文件夹下


scrapy genspider spiderName www.xxx.com



编写相关代码
执行爬虫文件




scrapy crawl spiderName



2.3 文件解析


import scrapy

class HelloSpider(scrapy.Spider):
 name = 'hello' # 爬虫名称

 # 允许的域名:限定start_urls列表当中哪些url可以进行请求的发送
 # 通常情况下我们不会使用
 # allowed_domains = ['www.baidu.com'] 

 # 起始的url列表:scrapy会自动对start_urls列表中的每一个url发起请求
 # 我们可以手动添加我们需要访问的url
 start_urls = ['https://www.baidu.com/','https://www.csdn.net/']

 def parse(self, response): # 当scrapy自动向start_urls中的每一个url发起请求后，会将响应对象保存在response对象中
 # 代码一般是在parse方法中写
 print("response:",response)



2.4 settings.py一些常见的设置
相当于requests中的headers参数中的User-Agent


USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36 Edg/88.0.705.68'


可以忽略或者不遵守robots协议


ROBOTSTXT_OBEY = False 


只有程序出现错误的情况下，才显示日志文件，程序正常执行时只会输出我们想要的结果


LOG_LEVEL='ERROR' == scrapy crawl spiderName --nolog
//二者是等价的，当然还是推荐使用前者


未加LOG_LEVEL='ERROR'

加LOG_LEVEL='ERROR'之后

scrapy 爬取文件保存为CSV文件中文乱码的解决办法


//下面的设置可能会导致繁体出现,可以逐个试一下
FEED_EXPORT_ENCODING = "gb18030"
FEED_EXPORT_ENCODING = "utf-8"
FEED_EXPORT_ENCODING = "gbk"



三、实例
3.1 实例要求
目的：爬取百度网页的百度热榜
 
3.2 实例代码
实例代码
 
3.3 输出结果
结果


                                
                                    python爬虫scrapy使用,python爬虫scrapy框架 
                                
                                    标签：
                                        python爬虫scrapy使用,python爬虫scrapy框架


                        
                            
                                免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！
                                如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com
                            
                        
                        
                            
                                
                                    上一篇
                                    安装不同版本的tensorflow与models方法实现
                                
                            
                            
                                
                                    下一篇
                                    解决pip安装tensorflow中出现的no module named tensorflow.python 问题方法
                                
                            
                        
                        
                        内蒙古资源网 Copyright www.nmgbbs.com
                        
                            
                                
                                
                                    评论“python爬虫scrapy基本使用超详细教程”
                                
                            
                            
                                
                                    
                                        
                                            
                                                python爬虫scrapy基本使用超详细教程
                                            
                                            
                                                
                                            
                                            
                                                
                                                
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无“python爬虫scrapy基本使用超详细教程”评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.nmgbbs.com
                                            
                                                内蒙古资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            129,905影音资源
                                        
                                        
                                            244,626技术资源
                                        
                                        
                                            111,817软件资源
                                        
                                        
                                            578,645站长资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    转载一个别人收藏的精典网站Ruby,HIBERNATE
                                                
                                                
                                                    
                                                        2025/12/13
                                                        
                                                         56
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    可与Spreadsheets媲美的在线表格系统:EditG
                                                
                                                
                                                    
                                                        2025/12/13
                                                        
                                                         34
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    cygwin使用心得
                                                
                                                
                                                    
                                                        2025/12/13
                                                        
                                                         73
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    脚本的DVD开发
                                                
                                                
                                                    
                                                        2025/12/13
                                                        
                                                         28
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    局域网设置自动配置脚本文件的写法与用途
                                                
                                                
                                                    
                                                        2025/12/13
                                                        
                                                         15
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            一句话新闻
苹果官宣WWDC 2024！预计会有大批AI功能 - 2025/12/13

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

python爬虫scrapy基本使用超详细教程

一、介绍

二、基本使用

2.1 环境安装

2.2 scrapy使用流程

2.3 文件解析

2.4 settings.py一些常见的设置

三、实例

3.1 实例要求

3.2 实例代码

3.3 输出结果

python爬虫scrapy使用,python爬虫scrapy框架

安装不同版本的tensorflow与models方法实现

解决pip安装tensorflow中出现的no module named tensorflow.python 问题方法

评论“python爬虫scrapy基本使用超详细教程”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

友情链接

python爬虫scrapy基本使用超详细教程

一、介绍

二、基本使用

2.1 环境安装

2.2 scrapy使用流程

2.3 文件解析

2.4 settings.py一些常见的设置

三、实例

3.1 实例要求

3.2 实例代码

3.3 输出结果

python爬虫scrapy使用,python爬虫scrapy框架

安装不同版本的tensorflow与models方法实现

解决pip安装tensorflow中出现的no module named tensorflow.python 问题方法

评论“python爬虫scrapy基本使用超详细教程”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存