web机器人 - 深度笔记

web爬虫：会递归地爬取，先获取第一个页面，然后爬去这个页面指向的全部页面。
避免环路的出现，可能会困住爬虫。
复杂的爬虫会通过树和散列表来记录已访问的URL。
有损的存在位图，将URL转化成一个定长的数字，这个数字在数组中有个相关的存在位，爬行过一个url就将相应的存在位置位...

通过robots.txt文件，可以说明这些机器人能访问哪些url。

评论列表

评论...

miss
哈勒，，，，啥是web机器人 2018年10月20日 14:0
回复