之前做抓取,为了使用方便。
用json描述抓取任务的方式做了一个简单的抓取器
同时支持用pyqt去抓webkit渲染后的网页。比如。新浪微博。
github地址 https://github.com/princehaku/pyrailgun
BLOG http://3haku.net/
工具集的wiki
功能
-
支持从json文件读取抓取任务
-
支持python源生dist定义抓取任务
-
css选择器的dom节点抓取
安装
-
从pip安装
pip install pyrailgun
-
源码安装
python setup.py install
语法
例子
FAQ
更新
- 0.24 受版权限制,替换webbroser为自己写的版本 去除yaml的支持