Python网络爬虫 (一)
title: Python网络爬虫 (一)
date: 2016-04-13 12:47:44
tags: Python
< Hi , 大家好,我是Raymond 。 由于最近一段时间比较忙,换了新的工作环境,很久没有来分享技术文章 , 不知道大家有没有捉急 >
今天给大家带来的,是Python的网络爬虫实现(不包含开源框架,自己造轮子系列)
好了 首先,我们先来了解一下, 什么是爬虫
什么是网络爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
传送门 :网络爬虫
网络爬虫能给我们在日常生活带来什么?
- 搜索引擎的基础应用
- 抓取大数据的一种手段
- 网页下载器
- 网店秒杀
看来爬虫能给我们带来大量的有效数据及和用途呢 , 当大家都在拿着手机、对着电脑,等着整点秒杀的时候,你却躺在床上,看着电视喝着咖啡等着你的爬虫帮你抢回秒杀的产品,是不是想想都很开心呢?那么,快点开始吧,来实现我们的第一个基于Python实现的爬虫
用Python 实现你人生中的第一个爬虫程序
首先,大家需要了解一下python中常用的爬虫模块 包含:urllib2、urllib3、requests、BeautifulSoup 、 re等
本章,我们先来介绍requests模块的简单使用,后续章节,我们会深入讲解其他爬虫模块
如果你还没有接触过python,没有关系 python-requests ,可以查看文档后,再继续学习以下内容
import requests # 导入requests模块
request_url = 'http://testerhome.com' # 请求的url是 TesterHome的网站主页
response = requests.get(request_url).text # 请求TesterHome,并获取返回值
print(response) # 打印返回结果
WoW! 人生第一个爬虫,就这样诞生了,Python的爬虫代码看起来是不是很简洁,很有层次感呢?
首先! 我们恭喜一下自己,你的爬虫成功的把TesterHome的主页html抓下来,并返回给你,你成功了。(如果返回错误,请自行对比代码)
那么问题随之而来, 竟然返回了一个html ,这是什么鬼,我应该怎么样才能把这个html中我需要的内容获取出来?
容我卖个关子,今天就讲到这里, 下一张,我们会开始讲html的解析和json的解析(接口测试包含,简单讲解一下)
留一部分练习内容:
- 尝试获取Testerhome的相关文章
- 尝试获取任意一篇知乎的文章
如果遇到问题,可以在TesterHome的官方测试群@BJ-行者
,
19 个赞
举报
* 注:本文来自网络投稿,不代表本站立场,如若侵犯版权,请及时知会删除