本文共 621 字,大约阅读时间需要 2 分钟。
网络爬虫就是用程序帮助我们访问网络上的资源。我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用相同的HTTP协议访问网页。 这里我们使用Java的HTTP协议客户端HttpClient这个技术,来实现抓取网页数据。
1.1 GET请求
访问csdn官网,请求url地址 https://www.csdn.net/ 见1.2 带参数的Get请求
在慕课网中搜索学习视频,地址为: https://www.icourse163.org/search.htm?search=java#/ 见 Ctrl+N 查找类1.3 POST请求
使用POST请求访问CSDN官网 *仅一处变动: 创建HttpPost对象,设置url访问地址 HttpPost httpPost = new HttpPost(uriBuilder.build()); 见1.4 POST含参请求
在慕课网中使用POST含参请求搜索学习视频,地址为: https://www.icourse163.org/search url地址没有参数,参数search=java放在表单中进行提交 见1.5 连接池
如果每次请求都要创建 HttpClient ,会有频繁创建和销毁的问题,可以使用连接池来解决。 见1.6 请求参数
有时候因为网络,或者目标服务器的原因,请求需要更长的时间才能完成,我们需要自定义相关时间 见转载地址:http://yqhq.baihongyu.com/