您好,欢迎来到二三娱乐。
搜索
您的当前位置:首页Python爬虫爬取微信公众号历史文章全部链接

Python爬虫爬取微信公众号历史文章全部链接

来源:二三娱乐

因为朋友问我能不能找一下一个微信公众号的全部历史文章的链接,我就帮他弄了一下,通过百度和谷歌发现现在大家爬微信公众号的思路基本都是下面两种:

  1. 通过搜狗搜索微信公众号然后拿到链接
  2. 通过fiddler检测手机微信拿到链接。

经过考虑,首先放弃了搜狗,因为初步看了一下搜狗的公众号搜到的那里只有前十篇文章的链接。下面说一下我这次的思路。

思路

我在尝试抓取手机微信上的公众号的历史链接时,无意中发现,使用电脑上的微信同样可以抓取到链接。不过这一点倒是没有太大的影响。因为我试了一下手机和电脑都是可以爬的,只不过电脑上要更方便一下。

  1. 通过审查这个链接里面的元素,我们不难发现,已经可以看到文章的链接了,但是问题来了,这个初始链接里依然只有10条最近的文章。这个时候,我们必须往下滑动滚动条才能把剩下的文章全部的显示出来。所以在写程序的时候就需要通过selenium+phahtomJS来链接这个界面并且滑动滚动条,知道滚动条滑到最下面为止了。这样我们再审查元素就可以看到获得了全部的文章链接。 ** 注意,文章的链接分别藏在几种标签里面,所以要把他们全部找出来,不然会遗漏的! **然后把这些链接存起来就好了。

程序

大概说一下我的程序思路:
整个流程就是通过selenium+phantomJS链接上面那个链接,通过BeautifulSoup提取页面,利用JS操作滚动条滚到底直到出现没有更多消息为止,最后找到所有链接后输出就行了(记得链接存在几种类型的tag里面,一定要找全)。由于朋友只需要这一个公众号的链接,而且因为同一个公众号的链接只有key在变,所以key就从bash获取就行了,其它的可以写在程序里。我是不是太懒了........大概思路就是这样,还有很多可以优化的地方...

Copyright © 2019- yule263.com 版权所有 湘ICP备2023023988号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务