Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 338 Bytes

README.md

File metadata and controls

20 lines (15 loc) · 338 Bytes

iPySpider

基于Python 3.x的网络爬虫与信息提取

网页即接口 The website is the API.

网络请求库

  • urllib Python内置标准库
  • requests 基于urllib的再次封装

文档解析及信息提取库

  • lxml
  • pyquery
  • beautifulsoup
  • re

网络爬虫框架

  • scrapy

实现定时爬虫任务

  • APScheduler