给SZ162411净值页面网络爬虫的建议

2017年3月9日
因为注意到^SPSIOP和XOP自动校准的数据异乎寻常的多, 让我发现了从去年11月中旬开始, 就有一个网络爬虫从相连的2个IP地址以每秒2次的频率自动爬华宝油气净值等4个页面, 持续爬了快4个月了. 在惊讶之余, 我的第一反应是每个月9.99美元的Yahoo网站服务太值了, 处理如此辛勤的爬虫, 竟然没有让我这种最常用用户感觉到任何性能上的变化, 看来未来即使正常访问量提高100倍都能应付过来.
我的第二反应, 是赶快加了一个对单个IP地址访问Palmmicro.com的次数统计. 每当访问次数累计到1000次就强制要求登录一次. 爬虫很快就被暂时挡在了数据之外, 不过这也会在以后给正常访问的常用用户带来一点小麻烦.
同时我很清醒的认识到, 为了克服我设置的这个小障碍, 爬虫要实现自动登录其实是很容易的. 另外即使是目前这种状态, 依旧有每秒2次的访问压在登录页面上, 一样给服务器带来了不必要的额外压力.
所以我只好在这里给爬虫提一个我觉得不该被拒绝的建议, 我仿照新浪股票数据接口的设计思路和数据格式, 给爬虫提供了一个页面直接拿文本格式的净值数据. 以目前从http://palmmicro.com/php/spidercn.php?list=sz162411,SZ160216,Sz160416,sH501018拿到的数据举例:
SZ162411_net_value=0.645,2017-03-07,0.6267,2017-03-08,0.6267,0.6267,0.643
SZ160216_net_value=0.445,2017-03-07,0.4312,2017-03-08,0.4312,0.4312,0.440
SZ160416_net_value=0.968,2017-03-07,0.9541,2017-03-08,0.9541,0.9541,0.965
SH501018_net_value=1.0185,2017-03-07,0.9869,2017-03-08,0.9869,0.9869,1.004

各行数据间用"\n"分隔, 每行中等号后按逗号','分隔的各个字段意义如下表.
序号 原始数据内容 字段意义
0 0.645 T-1日官方公布的净值
1 2017-03-07 T-1日日期
2 0.6267 T日预估官方净值
3 2017-03-08 T日日期
4 0.6267 SZ162411的参考估值
5 0.6267 实时考虑当日CL交易情况后的T+1估值
6 0.643 当前交易价格

最后补充一点, 因为我估值软件每分钟才从新浪等处取一次股票交易数据, 所以爬虫每秒都来爬是没有任何意义的, 每分钟来爬一次足够了.

本页面评论:

Woody修改于2017-03-22 18:07:10 222.125.94.43
test2

更多选项? 请先登录或者注册. metropolitan-tundra