Вы используете устаревший браузер!

Страница может отображаться некорректно.

СпецНаз (специальные названия)

СпецНаз (специальные названия)

Другие выпуски этой рубрики (25)
  • добавить в избранное
    Добавить в закладки

Скрапинг

Прочитали: 1429 Комментариев: 121 Рейтинг: 100

Термин Big data («большие данные») и разговоры об их анализе сегодня на слуху. Анализ огромных массивов разноплановой информации полезен для самых различных целей. Но прежде чем что-то анализировать, это «что-то» необходимо собрать. А утечками (даже такими легальными, как это было в случае Facebook) пользоваться нельзя. Далеко не все заказчики готовы закрывать глаза на сомнительные источники информации.

В случае данных, размещенных в Интернете, на помощь приходит cкрапинг (от англ. scraping – «выскабливание», он же – краулинг, от англ. crawling – «переползание») – процесс поиска и скачивания данных с веб-страниц с помощью специальных роботов – скраперов/краулеров, которые имитируют поведение человека.

Современные сайты, как правило, не являются статическими – внешний вид страниц сайта зависит от операционной системы, которую использует пользователь, браузера, прав доступа к информации, ограничений законодательства, используемых плагинов и так далее. Поэтому просто зайти на некий ресурс и скачать с него всю информацию нельзя – на стороне пользователя после загрузки ресурсов сайта должны отработать скрипты, скачиваемые вместе с другими ресурсами и приводящие скачанную информацию в удобный для просмотра и использования вид.

Нужно имитировать пользователя, заходящего на некий сайт. Более того – пользователя, работающего на этом сайте. Зачем это нужно? А как иначе получить доступ к сайтам, скажем, требующим ввода пароля или «капчи»?

Практически так же действуют боты-пауки поисковых систем. Отличие – в их законопослушности. Так, сайты используют файлы robots.txt, содержимое которых показывает поисковому роботу, что определенные разделы сайта непубличны, т. е. их не нужно индексировать и отображать в результатах поиска. Но это – лишь правила вежливости, не более. Незаконопослушным скраперам никто не мешает игнорировать robots.txt и добывать любую информацию, в том числе приватную. Если же учесть, что подавляющее большинство использует пароли типа 12345678, то задача не выглядит невыполнимой.

Нашим девизом стала знаменитая фраза капитана Джека Воробья: «Бери всё и не отдавай ничего».

https://habr.com/company/ods/blog/346632/

Где это может использоваться? Например, конкуренты очень хотят получить контент чужого интернет-магазина, и не только получить, но еще и отслеживать изменения позиций и цен. Что это дает? Узнали о новых скидках – мгновенно ввели свои или провели акции.

— Извините, но воровать контент не хорошо!..

— Иди, я тебя расцелую, мой золотой.

http://setmefirst.ru/blog/web_scraping_chto_eto_takoe_i_s_chem_ego_edyat

Какие термины еще нужно знать, если мы говорим о сборе данных? В первую очередь – парсер, программа или набор программ, ответственных за первичный разбор данных.

— Сколько длится парсинг одного сайта?

— А сколько стоит одна таблетка? Смотря какие размеры имеет сайт, как долго сервер отвечает на запросы. На нашей практике некоторые сайты полностью парсились почти за неделю. Конкретно сайт «Строительные Советы» парсился 44 минуты 10 секунд, было получено 1550 записей при 1897 запросах.

И самое важное:

Напоследок, хотелось бы сказать пару слов о парсинге вообще и при помощи Тора в частности. Добывать себе данные — это стильно, модно и в принципе интересно, можно получить датасеты, которых еще никто никогда не обрабатывал, сделать что-то новое, посмотреть, наконец, на все мемы мира сразу. Однако не стоит забывать, что ограничения, введенные сервером, в том числе баны, появились не просто так, а в целях защиты сайта от недоброжелательных ковровых бомбардировок запросами и DDoS-атак. К чужому труду стоит относиться с уважением, и даже если у сервера никакой защиты нет, — это еще не повод неограниченно забрасывать его реквестами, особенно если это может привести к его отключению — уголовное наказание никто не отменял.

https://habr.com/company/ods/blog/346632/

#терминология #сайт #Интернет

Dr.Web рекомендует

Защититься от подобных сборщиков данных можно, хотя это и непросто. Скажем, можно при каждом обновлении переименовывать классы и переменные в файлах сайта. Можно отслеживать рост числа запросов определенного типа и блокировать их.

  • Защитите сайт от атак типа SQL injection.
  • Не формируйте имена папок и пути к ним так, чтобы механизм их генерации был предсказуем. Например, наличие путей типа /topic/11, /topic/12 и т. д. явно будет говорить о том, что можно выбрать данные, обратившись по ссылкам с аналогичными именами.
  • Формируйте вид страниц динамически, но не увлекайтесь этим – поисковые роботы могут не найти информацию, которую вы, наоборот, стремитесь распространить.
  • Не разрешайте большое количество поисковых запросов с одной страницы, ограничивайте количество и продолжительность сессий с одного IP-адреса или домена.
  • Для доступа к данным используйте надежные пароли и «капчу».
  • Не забывайте проверять логи сайта на предмет следов взлома.
  • Ограничьте список IP популярных прокси-сервисов, через которые к вам могут проникать «пользователи».
  • Если вы выявили подозрительного «пользователя», не сообщайте ему от этом – не стоит показывать, где именно он допустил прокол.
  • Оформите правила использования ресурсов сайта и не забывайте привлекать хороших юристов.

Не стоит думать, что если вы выполнили все требования, то вы в полной безопасности. Вполне возможно, что ОНИ выдумали что-то новенькое. Вашей команде следует постоянно анализировать поведение ваших пользователей и посетителей. К сожалению, данная процедура потребует затрат времени и финансовых ресурсов, но это жизненно необходимо для любого проекта.

https://itsvit.org/blog/metody-zashhity-ot-web-scraping/

Получайте Dr.Web-ки за участие в проекте

Каждая активность = 1 Dr.Web-ка

Оцените выпуск

Сделайте репост

Поставьте «Нравится»

Чтобы получать награды надо войти на страницу выпуска через аккаунт на сайте «Доктор Веб» (или создать аккаунт). Аккаунт должен быть связан с вашим аккаунтом в социальной сети. Видео о связывании аккаунта.


Нам важно ваше мнение

10 Dr.Web-ок за комментарий в день выхода выпуска или 1 Dr.Web-ка в любой другой день. Комментарии публикуются автоматически и постмодерируются. Правила комментирования новостей «Доктор Веб».

Чтобы оставить комментарий, нужно зайти через свой аккаунт на сайте «Доктор Веб». Если аккаунта еще нет, его можно создать.

Комментарии пользователей


 
На страницу: