【笔记】通过浏览器插件实现0代码爬虫

发表于 2023-11-08 更新于 2024-05-17 阅读次数：

前言

通过浏览器插件实现0代码爬虫

安装插件

https://www.webscraper.io/

Firefox

配置爬虫

插件安装成功后，打开控制台（要将控制台放到屏幕下方），然后选择Web Scraper标签->Create new sitemap->Create Sitemap

每一个爬虫项目被称为Sitemap

Sitemap name：新建的爬虫项目名
Start URL：爬取的站点，通过[]可以遍历多个页

Sitemap xxx->Selectors->Add new selector

每一种爬取的内容被称为Selector

通过Select按钮可以通过手动选择的方式定义爬取规则，手动指定相同类型的元素2次后，爬虫就会自己嗅探出所有相同类型的元素->选择完成后点击Done selecting自动生成爬取规则
如果会写代码，也可以自定义CSS选择器来编写规则

填写爬取规则->Save selector

Id：指定这个Selector的名称，只能输入英文，而且不能与其他Selector重名
Type：得到的数据的类型
Multiple：勾选Multiple会在爬取的时候选中所有相同类型的元素，如果没有勾选，在爬取每个页的时候只会得到第一个当前类型的元素

开始执行爬虫

Sitemap xxx->Scrape

配置延迟

此时会自动弹出来一个新的页面，这个新的页面就是爬虫正在访问的页面，稍等一会回到爬虫的配置页面点击refresh刷新，即可看到爬取到的数据

导出爬取结果数据

Sitemap xxx->Export data

选择导出的文件格式

完成

截图纪念

参考文献

少数派——邓锄头

0%