【笔记】通过浏览器插件实现0代码爬虫
前言
通过浏览器插件实现0代码爬虫
安装插件
Firefox
配置爬虫
- 插件安装成功后,打开控制台(要将控制台放到屏幕下方),然后选择
Web Scraper
标签->Create new sitemap
->Create Sitemap
每一个爬虫项目被称为Sitemap
Sitemap name
:新建的爬虫项目名Start URL
:爬取的站点,通过[]
可以遍历多个页
Sitemap xxx
->Selectors
->Add new selector
每一种爬取的内容被称为Selector
- 通过
Select
按钮可以通过手动选择的方式定义爬取规则,手动指定相同类型的元素2次后,爬虫就会自己嗅探出所有相同类型的元素->选择完成后点击Done selecting
自动生成爬取规则 - 如果会写代码,也可以自定义CSS选择器来编写规则
- 填写爬取规则->
Save selector
Id
:指定这个Selector的名称,只能输入英文,而且不能与其他Selector重名Type
:得到的数据的类型Multiple
:勾选Multiple
会在爬取的时候选中所有相同类型的元素,如果没有勾选,在爬取每个页的时候只会得到第一个当前类型的元素
开始执行爬虫
Sitemap xxx
->Scrape
- 配置延迟
- 此时会自动弹出来一个新的页面,这个新的页面就是爬虫正在访问的页面,稍等一会回到爬虫的配置页面点击
refresh
刷新,即可看到爬取到的数据
导出爬取结果数据
Sitemap xxx
->Export data
- 选择导出的文件格式
完成
- 截图纪念