非官方测试版翻译
本页面由 PageTurner AI 翻译(测试版)。未经项目官方认可。 发现错误? 报告问题 →
创建新的爬虫程序
信息
2024年7月2日之后创建的DocSearch应用现可使用Algolia爬虫界面配置和管理抓取任务。本指南将引导您完成添加域名、验证所有权、创建爬虫程序以及运行首次测试抓取的全过程。您可在dashboard.algolia.com/crawler访问新版爬虫界面。
若您在2024年7月2日前注册,仍可使用爬虫界面,但该日期后注册的用户在创建和管理爬虫程序时将享受更简化的流程。
详细了解新版爬虫界面/用户体验功能。
添加域名
-
登录Algolia控制面板。
-
在左侧边栏选择数据源。
-
选择爬虫:
- 点击添加您的域名并输入需抓取的域名或子域名(如
example.com、www.example.com) - 若已添加过域名,请点击域名标签页
- 点击添加您的域名并输入需抓取的域名或子域名(如
-
点击添加域名。

注意: 添加域名后需在7天宽限期内完成验证,且必须获得DocSearch团队批准后方可进行抓取。
验证域名所有权
每个待抓取域名均需验证所有权。默认采用邮件验证,也可选用meta标签、HTML文件、robots.txt或DNS记录方式。
Meta标签验证
-
在Meta标签标签页点击复制获取验证标签
-
将标签添加至网站
<head>区块 -
发布网站更新,返回爬虫控制面板点击立即验证
HTML文件验证
-
在HTML文件标签页点击复制获取验证文件内容
-
保存为HTML文件并上传至Web服务器
-
在控制面板输入文件URL后点击立即验证
robots.txt验证
-
在Robots.txt标签页点击复制获取验证代码
-
将代码粘贴至网站
robots.txt文件 -
发布更新后点击