CentOS OS インフラ

wgetコマンドでサイトを一括ダウンロードする方法とは?コマンドのオプションも紹介。

投稿日:2018年2月18日 更新日:

こんにちは!シミダイ(@shimidai2100)です。

今回はwebサイトをまるっとダウンロードできる「wget」コマンドについて記事を書いていこうと思います。

wgetコマンドはfacebookのマーク・ザッカーバーグを題材にした、「Social Network」でもwgetコマンドは出ていました。

wgetをとても便利なツールですが、闇雲に使うととても迷惑なツールなので今回の使い方をしっかりマスターしてください。

windowsではwgetコマンドを使用することができません。wgetを使用する場合は、「cygwin」をインストールする必要がありますので注意してください。


wgetコマンドとは?

wgetの正式名称は「GNU Wget」であり、ウェブサーバからコンテンツを取得するダウンローダーです。

名前からわかる通りGNUプロジェクトの一部のですが、名前の由来はワールド・ワイド・ウェブ(WWW)とプログラムの主要な機能であるデータ取得を意味する英語の「getゲット」から派生したものと言われています。

現在wgetはウェブ閲覧のために用いられるTCP/IPに基づいたもっともポピュラーなプロトコルである、HTTP、HTTPS及びFTP によるダウンロードが利用可能です。

wgetコマンドの使用例

ではwgetの記載方法について紹介します。

基本的な使い方(オプション無し)

まずは基本的な使い方です。

↓が実行例です。

指定したURLの全ファイルをダウンロード(オプション:-r -l 0)

指定したURLの全ファイルをダウンロードするために以下のオプションを付与させます。

  • -r :再帰ダウンロード
  • -l :最初のページから階層を辿る深さを指定します。0を指定すると全階層を辿ります。

↓が実行例です。

失敗してもダウンロードにやり直す(オプション:-c )

ダウンロードを途中で中断してしまい、再度やり直しをしたい場合に再ダウンロード時に「-c」オプションを用いる。

大きなファイルをダウンロードする時に使用することをオススメします。

  • -c :部分的にダウンロードしたファイルの続きから始める

ダウンロードの速度制限を行う(オプション:-limit-rate=)

ダウンロード速度を制限します。ダウンロードするサイト(サーバー)の負荷を減らすために使用することをオススメします。

  • -limit-rate= :ダウンロード速度を RATE に制限する

指定した拡張子だけダウンロードする(オプション:-A)

指定したファイル拡張子だけダウンロードすることができます。複数設定する場合には、カンマ区切りでファイル拡張子を指定します。

HTMLを表示するのに必要な画像やCSSなどもダウンロード(オプション:-p)

HTMLを表示するのに必要な画像・音声やCSSなどもダウンロード合わせてダウンロードすることができます。

  • -p:HTMLを表示するのに必要な画像・音声やCSSなどもダウンロード

ダウンロード毎に待ち時間を使う(オプション:-w N -random-wait)

1ファイルダウンロードする毎に待ち時間を掛けることは重要です。連続でサイトからダウンロードしようとするとサーバーに高負荷が掛かってしまうからです。

  • -w  N:ダウンロードごとにN秒待つ
  • -random-wait:-wで指定した数の0.5〜1.5倍の時間待つ

サイトをダウンロードする際の最適なオプション

私がおすすめするサイトをダウンロードするオプションは以下になります。

↓が実行例です。

wgetコマンドのオプション

その他のオプションについても残しておきます。

※そのうち日本語化します。。。

 

いかがでしたか?wgetは多くの機能があり、ともて強力なコマンドです。

またその他Linuxのコマンドをマスターすると多くの作業を効率的行えるのでオススメです。

スポンサードリンク

関連記事

-CentOS, OS, インフラ

Translate »

Copyright© shimidai2100 , 2018 All Rights Reserved.