curl是一个命令行下的web客户端,可以在命令行下执行常见的web访问、自动web请求等操作,之前的文章中虫虫曾经专门介绍过。本文我们来总结一下curl使用代理服务器的用法。
概述
curl(cURL)是一个用于传输数据的命令行工具,其诞生于20多年前,最早版本是在1998年。
curl支持以多种方式检索和发送数据,并输出到标准输出,可以无缝衔接标准unix管道使用。在绝大多数的*nix操作系统上都默认安装。curl支持各种协议,包括 HTTP/HTTPS、FTP和SCP。
Web代理服务器充当客户端和目标服务器之间的中介。客户端首先访问代理,然后代理执行它并将结果返回给客户端。
有些Web站点是有限制的,我们无法直接通过当前IP直接访问目标站点;还有一些站点对访问请求是有一定限制,而我们在请求数据时候为了请求速度也需要突破IP限制。通过使用代理服务,我们就可以突破上述限制。
curl代理设置
为演示需要,本文中示例中使用的代理将设置为本地机器上,使用端口5000。默认情况下,代理语句中唯一需要的部分是主机,默认端口80。我们将通过HTTP将数据传输到它,我们将明确指定完整性。为了方便,我们请求服务为httpbin。 Httpbin是一个开源的标准http服务显示,在请求/ip接口时候可以查看请求IP地址。
方法一:命令行参数
使用代理的第一个也是最简单的选项是使用命令行参数。Curl代理参数为-x(或者–proxy)。基本格式为:
-x, --proxy[protocol://]host[:port]
因此,要使用代理访问,可以使用:
其中,代理服务器的协议头,默认为http可以省略掉:
curl-x127.0.0.1:5000httpbin/ip
身份验证
此外,如果HTTP代理服务器也需要身份验证,可以使用 -U标志来指定它。
curl-Uuser:password--proxy127.0.0.1:5000httpbin/ip
某些代理服务器可能需要不同的身份验证方案。可以通过–proxy-anyauth指定curl以确定身份验证方案
curl-Uuser:password--proxy127.0.0.1:5000httpbin/ip--proxy-anyauth
如果认证密码中包含特殊字符,需要对其添加加上双引号(\”\”)。
curl-U \"user:p@assword\"--proxy 127.0.0.1:5000httpbin/ip
上面命令中直接用密码容易被泄露并且会被记录在history日志中,在命令行中通过只提供用户名,然后可以交互式的,根据curl提示输入密码。
curl-Uuser--proxy127.0.0.1:5000httpbin/ip>Enterproxypasswordforuser\'user\':
方法二:使用环境变量
可以使用环境变量配置实现curl使用代理服务器。curl允许通过设置变量为它支持的每个协议使用环境变量[scheme]_proxy。如果设置了这些,那么当使用对应协议时,curl将默认引入。对http和https协议:
exporthttp_proxy=\"127.0.0.1:5000\"exporthttps_proxy=\"127.0.0.1:5000\"
同样可以添加认证参数:
然后所有,curl http和https请求就会自动使用代理。
与以这种方式设置的所有环境变量一样,这些只是临时变量,shell会话结束或重新启动系统时删除。但是,为了使其在所有会话中可用,可以将其附加到profile文件中,或者对于个人可以在.bashrc 或 .zshrc文件添加,实现持久化的代理设置。
方法三:使用别名
配置代理的另一种更持久的方法是shell别名,如果总是需要以这种方式定期连接,这很有用。通过别名可以cur将调用替换为使用代理的版本,这其实和上面的方法二同理。
aliascurl=\"curl-x127.0.0.1:5000\"
方法四:使用.curlrc 配置
其实curl也支持个性化的配置参数配置,配置文件默认情况下在个人目录 ~/.curlrc(Windows上为 _curlrc),也可以指定其他文件路径。
在.curlrc配置文件中添加代理支持的方法为:
proxy= \"http://127.0.0.1:5000\"
实例:使用curl 提取网页的标题
最后举个更复杂的,我们使用unix管道将结合grep正则提取站点标题。
curl curl –silent baidu |grep -Eo \'
–silent参数可以去掉curl输出进度信息,对响应的内容用grep正则表达式中捕获标题。
结论
在本文中,我们介绍curl中使用代理服务器的各种方法,大家可以根据实际需要选择最合适方法。