-
Notifications
You must be signed in to change notification settings - Fork 24
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Create jianshu.py #1
base: master
Are you sure you want to change the base?
Conversation
你的代码写太棒了,佩服佩服!!!我对你的代码还要好好研究下 |
@malone6 这个写法没有限定任务数,我自己电脑内存比较大,现在已经加上去啦。另外也写了个知乎的: https://gist.github.com/LuoZijun/7c0a163d4fa8017f30b1780d0dd1fd25 |
@malone6 另外,看你写了很多爬虫,你既然已经爬好数据了,不知道能否分析下数据呢? 😃 |
@LuoZijun 知乎的我之前也是用scrapy写,结果考虑不周,最后渣笔记本内存爆满。 |
@malone6 知乎有速度限制,所以只能慢慢爬 == 简书只有每天的总流量限制(大概 1 GB),爬取速度要快些。 你笔记本爬可能不太合适啊,得一直开着呢。 |
简书是按流量限制?好神奇,哈哈。大神研究的真清楚。请问方便提供社交账号(知乎或简书类的)吗,方便交流和关注你的知识分享 |
@malone6 是啊,我爬简书半个小时左右,就爬了770MB 左右的 JSON 数据。然后整个 IP 就被屏蔽了。不过没关系第二天接着爬。 知乎的爬虫限制还是比较严的。 Github 就是我的 社交账号(微博没用过,知乎&简书都只是偶尔看看,没写过什么东西 ==). |
@LuoZijun 知乎估计被人爬的太多了,所以就限制比较严。 没事。github已关注你,多向你学习 |
@malone6 一起学习 :) |
@malone6 我今天看了下,大概爬了 现在爬取的人大部分只有几个粉丝,没什么意义。 |
@LuoZijun 好呀。你把可以把数据传到网盘之类的,提供给我一个下载方式,我的邮箱[email protected]。目前觉得,从推荐作者作为入口不是太好的策略,但还没想到更好的方式。我看看你的这份数据和我那份差别大不大 |
另外,今天加上去知乎的自动登录了,你的那个 登录方式限制太严了,几乎没法使用。 更新在这里: https://gist.github.com/LuoZijun/7c0a163d4fa8017f30b1780d0dd1fd25/revisions |
这个 只有 粉丝比较多的人只能抓到几百个,这个应该也是早期,考虑加个机制只更新 关系保存问题,这个还是需要的,需要根据这个关系列表检查下去。避免重新爬的时候从头开始。 |
脚本已更新。现在在修复数据。 更新代码: https://gist.github.com/LuoZijun/7c0a163d4fa8017f30b1780d0dd1fd25/revisions |
@malone6 今早看的数据,的确恢复了很多 :)) |
哈哈,好的。这两天忙,没有试。明天我研究下😊😊
来自 魅族 MX4
…-------- 原始邮件 --------
发件人:LuoZijun <[email protected]>
时间:周四 6月29日 10:43
收件人:malone6/Jianshu <[email protected]>
抄送:malone6 <[email protected]>,Mention <[email protected]>
主题:Re: [malone6/Jianshu] Create jianshu.py (#1)
@malone6 今早看的数据,的确恢复了很多 :))
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or mute the thread.
{"api_version":"1.0","publisher":{"api_key":"05dde50f1d1a384dd78767c55493e4bb","name":"GitHub"},"entity":{"external_key":"github/malone6/Jianshu","title":"malone6/Jianshu","subtitle":"GitHub repository","main_image_url":"https://cloud.githubusercontent.com/assets/143418/17495839/a5054eac-5d88-11e6-95fc-7290892c7bb5.png","avatar_image_url":"https://cloud.githubusercontent.com/assets/143418/15842166/7c72db34-2c0b-11e6-9aed-b52498112777.png","action":{"name":"Open in ***@***.*** in #1: @malone6 今早看的数据,的确恢复了很多 :))"}],"action":{"name":"View Pull Request","url":"#1 (comment)"}}}
|
@malone6 到时候好了,再发给你。 |
@malone6 新版本: https://drive.google.com/open?id=0By6cKQoy12SxZC1HTnJpd1l3bWs 大概 493449 份用户资料 ( ~= 82MB )。 |
@malone6 应该是一边 压缩的时候 又爬了那么多。那个数据量是压缩完的。 现在其实有50多万了。但是后续的基本都没写过字。 |
@malone6 这个没有抓多久,因为简书没有反爬虫,所以还是比较快的。 你解压慢,应该是你要换笔记本啦。 最后,统计数据有时间能不能多出几个维度的分析呢?比如
你有时间的话,可以出个详细 :)) |
搞的,肯定的。最近在老家,忙事情,今晚我先大致看下,后面出个详细的!谢谢你的数据☺出详细的告诉你
来自 魅族 MX4
…-------- 原始邮件 --------
发件人:LuoZijun <[email protected]>
时间:周五 7月7日 11:25
收件人:malone6/Jianshu <[email protected]>
抄送:malone6 <[email protected]>,Mention <[email protected]>
主题:Re: [malone6/Jianshu] Create jianshu.py (#1)
@malone6 这个没有抓多久,因为简书没有反爬虫,所以还是比较快的。
你解压慢,应该是你要换笔记本啦。
最后,统计数据有时间能不能多出几个维度的分析呢?比如 字数 之类的。
粉丝 数 大于 某个值,但是又不是 签约作者 的数量(因为签约作者数量感觉比较少)。
你有时间的话,可以出个详细 :))
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or mute the thread.
{"api_version":"1.0","publisher":{"api_key":"05dde50f1d1a384dd78767c55493e4bb","name":"GitHub"},"entity":{"external_key":"github/malone6/Jianshu","title":"malone6/Jianshu","subtitle":"GitHub repository","main_image_url":"https://cloud.githubusercontent.com/assets/143418/17495839/a5054eac-5d88-11e6-95fc-7290892c7bb5.png","avatar_image_url":"https://cloud.githubusercontent.com/assets/143418/15842166/7c72db34-2c0b-11e6-9aed-b52498112777.png","action":{"name":"Open in ***@***.*** in #1: @malone6 这个没有抓多久,因为简书没有反爬虫,所以还是比较快的。\r\n\r\n你解压慢,应该是你要换笔记本啦。\r\n\r\n最后,统计数据有时间能不能多出几个维度的分析呢?比如 `字数` 之类的。\r\n\r\n`粉丝` 数 大于 某个值,但是又不是 `签约作者` 的数量(因为签约作者数量感觉比较少)。\r\n\r\n你有时间的话,可以出个详细 :))\r\n"}],"action":{"name":"View Pull Request","url":"#1 (comment)"}}}
|
@malone6 不客气 :) |
@malone6 一个更高效和节约资源(内存)的爬虫模型: https://gist.github.com/LuoZijun/a41fc0c94099cc61b410112088696621 基于 Python3.5 以后才有的 EventLoop 模型。 有时间,我把这个 |
性能更快哦。