linux curl是通过url语法在命令行下上传或下载文件的工具软件,它支持http,https,ftp,ftps,telnet等多种协议,常被用来抓取网页和监控Web服务器状态。
非常实用: Linux 使用curl查代理IP地址
1 | curl --connect-timeout 2 -x socks5://127.0.0.1:9050 ipinfo.io |
Linux curl用法举例
linux curl抓取网页:
抓取百度:
curl http://www.baidu.com
如发现乱码,可以使用iconv转码
curl http://iframe.ip138.com/ic.asp|iconv -fgb2312
iconv的用法请参阅:在Linux/Unix系统下用iconv命令处理文本文件中文乱码问题
Linux curl使用代理
linux curl使用http代理抓取页面:
curl -x 111.95.243.36:80 http://iframe.ip138.com/ic.asp|iconv -fgb2312
curl -x 111.95.243.36:80 -U aiezu:password http://www.baidu.com
使用socks代理抓取页面:
curl –socks4 202.113.65.229:443 http://iframe.ip138.com/ic.asp|iconv -fgb2312
curl –socks5 202.113.65.229:443 http://iframe.ip138.com/ic.asp|iconv -fgb2312
代理服务器地址可以从爬虫代理上获取。
linux curl处理cookies
接收cookies:
curl -c /tmp/cookies http://www.baidu.com #cookies保存到/tmp/cookies文件
发送cookies:
curl -b “key1=val1;key2=val2;” http://www.baidu.com #发送cookies文本
curl -b /tmp/cookies http://www.baidu.com #从文件中读取cookies
linux curl发送数据:
linux curl get方式提交数据:
curl -G -d “name=value&name2=value2” http://www.baidu.com
linux curl post方式提交数据:
curl -d “name=value&name2=value2” http://www.baidu.com #post数据
curl -d a=b&c=d&txt@/tmp/txt http://www.baidu.com #post文件
以表单的方式上传文件:
curl -F file=@/tmp/me.txt http://www.aiezu.com
相当于设置form表单的method=”POST”和enctype=’multipart/form-data’两个属性。
linux curl http header处理:
设置http请求头信息:
curl -A “Mozilla/5.0 Firefox/21.0” http://www.baidu.com #设置http请求头User-Agent
curl -e “http://pachong.org/" http://www.baidu.com #设置http请求头Referer
curl -H “Connection:keep-alive \n User-Agent: Mozilla/5.0” http://www.aiezu.com
设置http响应头处理:
curl -I http://www.aiezu.com #仅仅返回header
curl -D /tmp/header http://www.aiezu.com #将http header保存到/tmp/header文件
linux curl认证:
curl -u aiezu:password http://www.aiezu.com #用户名密码认证
curl -E mycert.pem https://www.baidu.com #采用证书认证
其他:
curl -# http://www.baidu.com #以“#”号输出进度条
curl -o /tmp/aiezu http://www.baidu.com #保存http响应到/tmp/aiezu
linux 使用curl小经验教训:
http请求地址的url要使用””括起来。当有存在多个参数使用&连接时可能会出错。
Linux下CURL常用命令
下载单个文件
默认将输出打印到标准输出中(STDOUT)中
curl http://www.centos.org
通过-o/-O选项保存下载的文件到指定的文件中:
-o:将文件保存为命令行中指定的文件名的文件中
-O:使用URL中默认的文件名保存文件到本地
#将文件下载到本地并命名为mygettext.html
curl -o mygettext.html http://www.gnu.org/software/gettext/manual/gettext.html
# 将文件保存到本地并命名为gettext.html
curl -O http://www.gnu.org/software/gettext/manual/gettext.html
同样可以使用转向字符”>”对输出进行转向输出
同时获取多个文件
curl -O URL1 -O URL2
若同时从同一站点下载多个文件时,curl会尝试重用链接(connection)。
通过-L选项进行重定向
默认情况下CURL不会发送HTTP Location headers(重定向).
当一个被请求页面移动到另一个站点时,会发送一个HTTP Loaction header作为请求,然后将请求重定向到新的地址上。
例如:访问google.com时,会自动将地址重定向到google.com.hk上。
curl http://www.google.com
<HTML>
<HEAD>
<meta http-equiv="content-type" content="text/html;charset=utf-8">
<TITLE>302 Moved</TITLE>
</HEAD>
<BODY>
<H1>302 Moved</H1>
The document has moved
<A HREF="http://www.google.com.hk/url?sa=p&hl=zh-CN&pref=hkredirect&pval=yes&q=http://www.google.com.hk/&ust=1379402837567135amp;usg=AFQjCNF3o7umf3jyJpNDPuF7KTibavE4aA">here</A>.
</BODY>
</HTML>
上述输出说明所请求的档案被转移到了http://www.google.com.hk。
这是可以通过使用-L选项进行强制重定向
让curl使用地址重定向,此时会查询google.com.hk站点
curl -L http://www.google.com
断点续传
通过使用-C选项可对大文件使用断点续传功能,如:
当文件在下载完成之前结束该进程
$ curl -O http://www.gnu.org/software/gettext/manual/gettext.html
############## 20.1%
#通过添加-C选项继续对该文件进行下载,已经下载过的文件不会被重新下载
1 | curl -C - -O http://www.gnu.org/software/gettext/manual/gettext.html |
对CURL使用网络限速
通过–limit-rate选项对CURL的最大网络使用进行限制
1 | # 下载速度最大不会超过1000B/second |
下载指定时间内修改过的文件
当下载一个文件时,可对该文件的最后修改日期进行判断,如果该文件在指定日期内修改过,就进行下载,否则不下载。
该功能可通过使用-z选项来实现:
#若yy.html文件在2011/12/21之后有过更新才会进行下载
1 | curl -z 21-Dec-11 http://www.example.com/yy.html |
CURL授权
在访问需要授权的页面时,可通过-u选项提供用户名和密码进行授权
1 | curl -u username:password URL |
#列出public_html下的所有文件夹和文件
1 | curl -u ftpuser:ftppass -O ftp://ftp_server/public_html/ |
下载xss.php文件
curl -u ftpuser:ftppass -O ftp://ftp_server/public_html/xss.php
上传文件到FTP服务器
通过 -T 选项可将指定的本地文件上传到FTP服务器上
1 | # 将myfile.txt文件上传到服务器 |
从标准输入获取内容保存到服务器指定的文件中
curl -u ftpuser:ftppass -T - ftp://ftp.testserver.com/myfile_1.txt
获取更多信息
通过使用 -v 和 -trace获取更多的链接信息
通过字典查询单词
查询bash单词的含义
curl dict://dict.org/d:bash
列出所有可用词典
curl dict://dict.org/show:db
在foldoc词典中查询bash单词的含义
curl dict://dict.org/d:bash:foldoc
为CURL设置代理
-x 选项可以为CURL添加代理功能
指定代理主机和端口
curl -x proxysever.test.com:3128 http://google.co.in
其他网站整理
保存与使用网站cookie信息
将网站的cookies信息保存到sugarcookies文件中
curl -D sugarcookies http://localhost/sugarcrm/index.php
使用上次保存的cookie信息
curl -b sugarcookies http://localhost/sugarcrm/index.php
传递请求数据
默认curl使用GET方式请求数据,这种方式下直接通过URL传递数据
可以通过 –data/-d 方式指定使用POST方式传递数据
1 | # GET |
也可以指定一个文件,将该文件中的内容当作数据传递给服务器端
curl –data @filename https://github.api.com/authorizations
注:默认情况下,通过POST方式传递过去的数据中若有特殊字符,首先需要将特殊字符转义在传递给服务器端,如value值中包含有空格,则需要先将空格转换成%20,如:
curl -d “value%201” http://hostname.com
在新版本的CURL中,提供了新的选项 –data-urlencode,通过该选项提供的参数会自动转义特殊字符。
curl –data-urlencode “value 1” http://hostname.com
除了使用GET和POST协议外,还可以通过 -X 选项指定其它协议,如:
curl -I -X DELETE https://api.github.cim
上传文件
curl –form “fileupload=@filename.txt” http://hostname/resource
QQ群:397745473