YaCy 'agent-safoden-ufe-18': 爬取开启

加载网页

站点爬取

站点爬虫： 从给定域名或者网址中下载所有网页。

开始爬取站点

站点

起始地址 (必须以 http:// https:// ftp:// smb:// file://开头)
网址列表
网站地图地址

路径

载入域名下全部文件
仅载入给定域名子路径中的文件

限制

不超过

文件

收集

开启

提示

爬取速度限制
每秒最多从同一服务器中载入4个页面(每分钟不超过120个文件)以减少对目标服务器影响。
目标平衡器
因爬虫会平衡全部服务器的负载，对于不同服务器的二次爬取, 生产量会上升到每分钟最多240个文件。
高速爬取
当目标服务器数量很多时, 不局限于单个服务器(或站点)的'浅爬取'模式会将生产量上升到每分钟无限页面数(ppm)。可在专家爬虫中开启。
调度器控制
可以使用API控制改变或删除爬虫调度器。