跳至内容
Python 俱乐部
用户工具
登录
站点工具
搜索
工具
显示源文件
修订记录
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
•
用python爬虫抓站的一些技巧总结 zz
侧边栏
python-network-application:observer-spider
目录
用python爬虫抓站的一些技巧总结 zz
1.最基本的抓站
2.使用代理服务器
3.需要登录的情况
3.1 cookie的处理
3.2 表单的处理
3.3 伪装成浏览器访问
3.4 反”反盗链”
3.5 终极绝招
4.多线程并发抓取
5.验证码的处理
6 gzip/deflate支持
7. 更方便地多线程
1、用twisted进行异步I/O抓取
2、设计一个简单的多线程抓取类
8. 一些琐碎的经验
1、连接池:
2、设定线程的栈大小
3、设置失败后自动重试
4、设置超时
5、登陆
9. 总结
参考
python-network-application/observer-spider.txt
· 最后更改: 2011/02/11 07:31 (外部编辑)
页面工具
显示源文件
修订记录
反向链接
回到顶部