Skip to content

tangzhiyi11/hello_spider

Repository files navigation

hello_spider

豆瓣租房小组爬虫

#目前进度 2016/9/29
增加分布式爬取模块

2016/9/26
增加停用词过滤

2016/9/24
1.吐槽:爬取频率这么低也会被封,也是醉了....

2016/9/23
1.增加post title分析模块,使用jieba进行分词统计
2.部署爬虫,目前爬取频率较低..
3.雏形基本稳定,等待更多数据开发分析模块

2016/9/22
1.完善spider流程,测试spider
2.待解决爬取频率问题,目前爬取一张url list会sleep(5),ip已经被封
3.修改了post类,去除content字段

2016/9/21
1.Auth类cookie无法保存文件,使用LWPCooieJar保存到disk时,会丢失字段,待解决
2.增加了帖子解析模块,并将帖子信息存入MongoDB中

2016/9/20
增加了用户登录认证模块,需要输入用户的账号密码,需要人工识别验证码(后期考虑自动识别),登录模块在auth.py中,参考douban_crawler

2016/9/19
爬取了小组topic id以及最后的回帖时间

About

豆瓣租房小组爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages