使用python3爬取bttwo全站bt文件,并利用mongodb
来存储二进制文件和去重
使用之前请安装lxml
,requests
,BeautifulSoup
以及mongodb
pip3 install lxml requests beautifulsoup4
修改bttwo.py文件里的下载路径,运行
python3 bttwo.py
- 使用代理并不能有效解决爬取速度过快而导致的爬取出错的问题
- 尝试不用
sleep
函数解决爬取中断问题 - 尝试多线程
使用python3爬取bttwo全站bt文件,并利用mongodb
来存储二进制文件和去重
使用之前请安装lxml
,requests
,BeautifulSoup
以及mongodb
pip3 install lxml requests beautifulsoup4
修改bttwo.py文件里的下载路径,运行
python3 bttwo.py
sleep
函数解决爬取中断问题