博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy的应用需要掌握的知识点
阅读量:5798 次
发布时间:2019-06-18

本文共 785 字,大约阅读时间需要 2 分钟。

最近一个项目需要做spider。就开始找资料,分析几个工具后,得到最成熟稳定的应该首推Scrapy。 第一次使用Scrapy,写篇文章记录一下。

Scrapy的安装我就不复述了。网上一大把的资料。安装好环境后,就开始以下工作了。

大概操作步骤如下:

  1. 创建项目

  2. 创建spider

  3. 确定要获取的字段

  4. 确定正则匹配的字段

  5. 保存入库

创建项目

scrapy startproject projectName【项目名】cd projectName

在命令行中进行以上操作。

创建spider

事先把要获取的网址准备好 eg:

scrapy genspider spiderName 'https://segmentfault.com'

生成成功后,会在spider目录下生成一个名叫:spiderName.py文件。获取规则就需要书写在这里面。

确定要获取的字段

在item.py里面,定义好要获取的字段,例如我需要获取sf.gg的网站标题和首页内容。就需要定义两个字段,title,content。想获取的信息越细越好

class articleItem(Scrapy.Item):     # 获取网站标题     title = Scrapy.Field()     # 获取网站内容     content = Scrpay.Field()

确定正则匹配字段内容

要注册获取数据的内容是本身在HTML里面的,还是ajax获取渲染的,如果是ajax渲染的数据,使用传统的获取不到数据。

这里是为了测试匹配数据的,需要掌握的知识点为xpath获取办法和css选择器获取办法。其中css类似jquery的选择器。

scrapy shell 'https://segmentfault.com'

确定入库

保存形式有多种,json或数据库

最好的学习资料,永远都是代码+说明文档:

转载地址:http://ivsfx.baihongyu.com/

你可能感兴趣的文章
浅解.Net分布式锁的实现
查看>>
C:\WINDOWS\system32\drivers\etc\hosts 文件的作用
查看>>
方法数超过65536上限
查看>>
JS with用法
查看>>
Gephi
查看>>
git 入门宝典
查看>>
Apache+Tomcat负载均衡集群搭建
查看>>
蟑螂数据库
查看>>
daemon函数的原理及使用详解
查看>>
Sublimetext3将空格转换为Tab
查看>>
浅谈mysql配置优化和sql语句优化【转】
查看>>
程序猿的量化交易之路(30)--Cointrader之ConfigUtil(17)
查看>>
大道至简——读书笔记
查看>>
Linux下使用Shell命令控制任务Jobs执行(转)
查看>>
受限的波尔兹曼机的简单了解知识
查看>>
HDU4930-Fighting the Landlords
查看>>
怎样提高自己的运行力
查看>>
[leetcode]String to Integer (atoi)
查看>>
查看pip安装的Python库
查看>>
Aizu - 2305 Beautiful Currency (二分 + DFS遍历)
查看>>