搜索
您的当前位置:首页正文

Python新浪博客爬虫:sina-blog-spider

来源:二三娱乐

在学习代码的过程中,自己也敲了一遍,发现了一些问题:不支持 Python3.x,代码可读性太差。代码敲完了发现,作者原来不是程序员啊我摔!被坑了(代码实在太烂了,差点摧毁我对 Python 的认知)。

所以特意花了一下午时间对代码进行了一个重写:

新特性:

  • 适配 Python3.x;
  • 进行了封装、重构,提高代码可读性;
  • 添加了踩坑注释;
  • 吐槽归吐槽,原 po 思路还是非常赞的,鸣谢 @bfishadow;

功能简介

  • 用于下载并归档指定新浪博客作者全部文章的 Python 脚本;
  • 抓取后整理生成本地 html 文件,以及一个 indxe 入口;
  • 支持到 Python3.x
  • 源码戳

Usage:

# 排序开关是可选的,默认为按发表时间顺序排列(即 asc)
$ sina_blog_crawler.py  desc
$ sina_blog_crawler.py 

TODO:

  • [ ] 添加可选参数:指定抓取页数支持
  • [ ] 网络库从 urllib 替换为 requests
  • [ ] 字符串匹配改用正则
  • [ ] 不够 Pythonic,优化编码规范

DEMO:

万万没想到韩寒 17 年还有两篇博客,试爬了一下韩寒的 10 篇 blog,效果如图:

sinaa-demo
Top