网站首页 > 家电百科> 文章内容

Python爬虫—糗事百科

※发布时间:2017-12-4 10:16:04   ※发布作者:habao   ※出自何处: 

  经过分析糗事百科的网站属于比较正常(不用抓包,或者模拟浏览器之类的)的一个网站(我们经常可以看到爬虫的入门基础教程很多都以这个网站作为示例),在源码中我们可以看到我们想要获取的信息。搞清楚加载方式我们就可以对应着去解析网页,抓取我们想抓的内容了。

  通过以上几张图片可以看出糗事百科的分页是通过page之后的数字控制的,所以我们可以很容易构造出它的分页URL

  可以看出,这一部分一直在重复,每一块刚好包含所有信息这里说一下我解析这个网页的思:我主要是通过xpath去找我要抓取的字段,找到循环点然后逐个获取,这里有几个问题需要注意一下:

  推荐:

  

关键词:嗅事百科 糗事