旷世的忧伤

Huoty's Blog

Python 简单爬虫程序 -- 抓取糗百段子

最近在学习 Python,闲来无事就写了个爬虫,用于抓取糗事百科的段子。

在以前的学习和工作中的,我用到最多的是 C 语言,C++略懂一点,但是好像已经很长时间没有用 C++ 了,已经差不多忘了。可能很多人都认为,在大部分高级编程语言中,C语言是最难的。可能跟自己所学的专业有关,我并不觉得 C 语言有多难。或许这也是因为接触它的时间比较长,本来不明白的,也一点一点弄明白了。就比如指针,在编程的时候,每块内存我都了然于胸。我很喜欢 C 语言,它的性格跟我很相似,复杂而简单,逻辑,干练,严谨,事必躬亲。虽然在做 C 语言项目开发的时候,大部分时间不是在编码,而是再思考,为什么程序无缘无故 、没有任何征兆的就退出了,但我觉得这才是真正在创作时的感觉。

我以为我这辈子只会对 C 语言那样钟爱了,但是当我接触了 Python 之后,一切都发生了改变。我对 Python 的评价是,简单,优雅,而无所不能。 在我接触它的时候,并喜欢上了它,就像曾经对 C 语言的那种狂热和喜欢一样。

目前,我对 Python 的掌握还不够全面,闲来无事写个爬虫程序练练手。这个程序是看了网上的一些例子之后自己写的,用于抓取糗百上的段子。

代码托管于: https://git.oschina.net/kuanghy/pyspider.git

该程序所实现的功能:

1.抓取糗事百科热门段子

2.过滤带有图片的段子,因为程序运行于终端控制台,无法显示图片

3.实现每按一次回车显示一个段子,同时显示发布人、时间和点赞数

4.可自动加载下一条段子,间隔时间可通过 auto 参数设置,默认为 10 秒

这样,上班无聊的时候,可以打开终端看看笑话,这应该没人知道我在偷懒吧。中午定个餐,打开终端,让程序自动加载段子,然后我就边吃边笑吧……

程序运行效果: drawing 1 drawing 2

Top