管理
Toggle navigation
重启
关闭
论坛
帮助
关于此页面
JavaScript信息
外部
YaCy教程
外部
下载YaCy
外部
社区(网页论坛)
外部
Git库
赞助
YaCy是免费开源软件,所以我们需要很多人的帮助来支持开发。
你
可以通过加入赞助计划来提供帮助:
外部
成为Github赞助商
外部
成为YaCy赞助商
请帮忙!我们需要资金帮助才能继续发展!
搜索
第一步
用法&账户
加载网页,爬虫
内存/硬盘使用&更新
监控
系统状态
索引浏览器
网络访问
爬虫监控
生产
高级爬虫
索引导出/导入
内容语义
目标分析
管理
索引管理
系统管理
过滤&黑名单
进程调度器
搜索门户整合
门户配置
门户设计
排名和启发
加载网页
网站爬取
解析器配置
站点爬取
站点爬虫:
从给定域名或者网址中下载所有网页。
开始爬取站点
站点
起始地址 (必须以
http:// https:// ftp:// smb:// file://开头)
网址列表
网站地图地址
路径
载入域名下全部文件
仅载入给定域名子路径中的文件
限制
不超过
文件
收集
开启
提示
爬取速度限制
每秒最多从同一服务器中载入4个页面(每分钟不超过120个文件)以减少对目标服务器影响。
目标平衡器
因爬虫会平衡全部服务器的负载,对于不同服务器的二次爬取, 生产量会上升到每分钟最多240个文件。
高速爬取
当目标服务器数量很多时, 不局限于单个服务器(或站点)的'浅爬取'模式 会将生产量上升到每分钟无限页面数(ppm)。 可在
专家爬虫
中开启。
调度器控制
可以使用
API控制
改变或删除爬虫调度器。