NoteDeep
web爬虫:会递归地爬取,先获取第一个页面,然后爬去这个页面指向的全部页面。
避免环路的出现,可能会困住爬虫。
复杂的爬虫会通过树和散列表来记录已访问的URL。
有损的存在位图,将URL转化成一个定长的数字,这个数字在数组中有个相关的存在位,爬行过一个url就将相应的存在位置位...

通过robots.txt文件,可以说明这些机器人能访问哪些url。

评论列表

  • miss
    miss

    哈勒,,,,啥是web机器人  2018年10月20日 14:0