扫码一下
查看教程更方便
Feed 导出是一种存储从站点抓取的数据的方法,即生成“导出文件”。
使用多种序列化格式和存储后端,Feed Exports 使用 Item exporters 并生成包含已抓取项目的 Feed。
下表显示了支持的格式
| 序号 | 格式 | 描述 |
|---|---|---|
| 1 | JSON | FEED_FORMAT 是 json 使用的 export 是类 scrapy.exporters.JsonItemExporter |
| 2 | JSON | lines FEED_FROMAT 是 jsonlines 使用的 export 是类 scrapy.exporters.JsonLinesItemExporter |
| 3 | CSV | FEED_FORMAT 是 CSV 使用的 export 是类 scrapy.exporters.CsvItemExporter |
| 4 | XML | FEED_FORMAT 是 xml 使用的 export 是类 scrapy.exporters.XmlItemExporter |
使用 FEED_EXPORTERS 设置,支持的格式也可以扩展
| 序号 | 格式 | 描述 |
|---|---|---|
| 1 | Pickle | FEED_FORMAT 是 pickel 使用的export是类 scrapy.exporters.PickleItemExporter |
| 2 | Marshal | FEED_FORMAT 是 marshal 使用的export是类 scrapy.exporters.MarshalItemExporter |
存储后端定义使用 URI 存储提要的位置。
下表显示了支持的存储后端
| 序号 | 存储后端 | 描述 |
|---|---|---|
| 1 | 本地文件系统 | URI 方案是文件,用于存储提要。 |
| 2 | FTP | URI 方案是 ftp,用于存储提要。 |
| 3 | S3 | URI 方案是 S3,提要存储在 Amazon S3 上。 需要外部库 botocore 或 boto。 |
| 4 | 标准输出 | URI 方案是标准输出,提要存储到标准输出。 |
以下是存储 URL 的参数,它在创建提要时被替换
%(time)s :此参数被时间戳替换。%(name)s :此参数被蜘蛛名称替换。下表显示了可以配置 Feed 导出的设置
| 序号 | 设置 | 描述 |
|---|---|---|
| 1 | FEED_URI | 它是用于启用提要导出的导出提要的 URI。 |
| 2 | FEED_FORMAT | 它是一种用于提要的序列化格式。 |
| 3 | FEED_EXPORT_FIELDS | 用于定义需要导出的字段。 |
| 4 | FEED_STORE_EMPTY | 它定义是否导出没有项目的提要。 |
| 5 | FEED_STORAGES | 它是一个带有附加提要存储后端的字典。 |
| 6 | FEED_STORAGES_BASE | 它是一个内置提要存储后端的字典。 |
| 7 | FEED_EXPORTERS | 它是一本包含额外提要 export 的字典。 |
| 8 | FEED_EXPORTERS_BASE | 它是一个内置提要导出器的字典。 |