抓取程序用NodeJS写的,写的很烂,如果用逼得依赖的包能直接减少相当多的代码,并且在网络堵塞中丢失了部分CID数据。
由于程序非常简单,也就没有用NPM进行管理。写的很烂,不过“能捉到老鼠的就是好猫”嘛。总之数据是基本都回来了。
- data 储存数据的路径
- node_modules nodejs的依赖项
- cid.js 进行抓取的主程序,抓取的进度会保存在state这个文件里面
- cid-sql.js 把数据导入mysql用的
这次的抓取是在2015年7月初进行的,抓取时间一共持续了接近一个星期。大多数数据都是在一台阿里云的服务上获得的。由于服务器不是我的,而抓取的原始数据里面已经包含了IP地址,我这里就不放出来了。
我这里放出来已经导出的MySQL的数据好了。一共前390W CID