命令行下载网页

wget就是一个用于文件下载的命令行工具

安装

yum install wget

下载网页或远程文件

[root@mio-test ~]# wget http://1v20.com
--2014-08-26 19:37:12--  http://1v20.com/
Resolving 1v20.com... 122.114.50.171
Connecting to 1v20.com|122.114.50.171|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ndex.html.1

    [ <=>                                                  ] 7,659       --.-K/s   in 0s      

2014-08-26 19:37:13 (170 MB/s) - ndex.html.1saved [7659]

-O指定输出文件文件名,如果该名称已存在,则会覆盖这个文件

[root@mio-test ~]# wget http://1v20.com -O download.html

-o将下载信息写入一个文件

[root@mio-test ~]# wget http://1v20.com -o wget.log
[root@mio-test ~]#

-t 设置重试次数

重试3次后放弃下载

wget -t 3 URL

下载限速

wget默认会占用全部带宽进行下载,我们可以限制wget使用的带宽,保证服务器正常运行

将下载速度限制为1KB/s

[root@mio-test ~]# wget http://1v20.com --limit-rate 1K

断点续传

如果使用wget进行的下载在完成之前被中断,下次可以继续下载

wget -c URL

递归下载整个网站

wget有一个选项可以使其像爬虫一样以递归的方式收集网页上所有的URL链接,并逐个下载,这样一来,我们就能够下载一个网站的所有页面

-r 是递归

-l 是最大下载层级

wget -r -l 2 DEPTH http://www.baidu.com

访问需要认证的HTTP或FTP页面

使用—user和—password提供认证信息

wget —user username —password pass URL