Как скачать сайт с wget целиком на компьютер

Всем привет, в этой статье рассмотрим как скачать сайт с wget – так чтобы получить локальную копию сайта с рабочими ссылками.

скачать сайт с wget

Описание

Wget – это открыто распространяемая утилита для загрузки файлов из сети Интернет. Она поддерживает протоколы HTTP, HTTPS, и FTP, загрузку с серверов прокси по протоколу HTTP.

Wget может следовать по ссылкам страниц HTML и создавать локальные копии удаленных сайтов web, при этом возможно полное восстановление структуры папок сайта («recursive downloading» — рекурсивная загрузка). Во время такой работы Wget ищет файл с правами доступа для роботов (/robots.txt). Возможна также конвертация ссылок в загруженных файлах HTML для дальнейшего просмотра сайта в автономном режиме («off-line browsing»).

Проверка заголовков файлов: Wget может считывать заголовки файлов (это доступно по протоколам HTTP и FTP) и сравнивать их с заголовкам ранее загруженных файлов, после чего может загрузить новые версии файлов. Благодаря этому при использовании Wget можно реализовывать зеркальное хранение сайтов или набора файлов на FTP.

Wget разработан для медленных или нестабильных соединений: если во время загрузки возникнет проблема, то Wget будет пытаться продолжить загрузку файла. Если сервер, с которого загружается файл, поддерживает докачку файлов, то Wget продолжит загружать файл именно с того места, где оборвалась загрузка.

Версию для Windows можно скачать тут.

Как скачать сайт с wget

Нужно выполнить команду:

$ wget \
     -e robots=off \
     --recursive \
     --no-clobber \
     --page-requisites \
     --convert-links \
     --no-parent \
         http://example.com

Данная команда скачает сайт http://example.com в текущую папку.

Что означают параметры wget:

  • -e robots=off : не следовать файлу robots.txt при загрузке. Для избежания ошибок.
  • —recursive : Включить рекурсивную загрузку.
  • —no-clobber : Если при загрузке сайта связь оборвалась, то загрузка продолжится с места прерывания связи.
  • —page-requisites : Загружать все файлы, которые нужны для отображения страниц HTML. Например: рисунки, звук, каскадные стили.
  • —convert-links : После завершения загрузки конвертировать ссылки в документе для просмотра в автономном режиме.
  • —no-parent : Не подниматься выше начального адреса при рекурсивной загрузке.

Более подробная информация по параметрам wget тут.

5597