[其他] 支持javascript解析的python网页爬虫抓取模块

princehaku 2013-10-21

之前做抓取,为了使用方便。

用json描述抓取任务的方式做了一个简单的抓取器

同时支持用pyqt去抓webkit渲染后的网页。比如。新浪微博。

 

github地址 https://github.com/princehaku/pyrailgun

BLOG http://3haku.net/

 

工具集的wiki

功能

安装

  • 从pip安装 pip install pyrailgun

  • 源码安装 python setup.py install

语法

例子

FAQ

更新

  • 0.24 受版权限制,替换webbroser为自己写的版本 去除yaml的支持
Global site tag (gtag.js) - Google Analytics