1. 创建steam_feature_info表保存steam平台商品的特色资料
2. 定期从product表检测新生成的商品,从steam官方详情接口爬取特色信息,进行保存
3. 同时检测steam_feature_info表中是否存在缺失信息,进行补充
1. 从steamdb爬取这两个区的历史价格信息,保存steam_history_price表。
2. 使用python脚本进行数据处理,写入系统g_history_price表。
3. 添加定时任务,更新这两个区的当前价格到price表。
1.创建steam_feature_info表,将product表的特色信息解析写入(python脚本处理) 0.5T
2.编写获取steam特色信息的任务,需要考虑新增商品和需要补充信息的旧商品(spider中定时任务)1T
3.steamdb历史价格爬取 1T-2T(steamdb反爬厉害,写好之后预计需要爬个5-7T,其中需要定期查看是否有什么异常需要处理)
4.编写数据处理脚本,将历史价格导入g_history_price表 0.5T
5.添加定时任务,获取价格到price表 0.25-0.5T
6.列表接口(需要确定筛选项维护方法)0.75-1.5T
7.详情接口(需要确定需要展示哪些信息)0.5-1T
1.需要确定特色资料包括一些什么,是否还需要爬取网页信息
2.特色筛选包括那些,筛选项是手动维护还是自动处理
3.列表排序需要,需要将一下排序需要的东西冗余到steam_feature_info表,会增加数据维护成本(这个暂时没考虑到工作量中)。不然需要连表的话,性能可能会成为问题。
4.数据处理的脚本会先在测试环境测试,确定没问题之后需要在正式环境再跑一遍
1. 我这边先处理steam历史价格的数据,这边数据抓取需要很久,先处理这边才能避免耽误进度