×
Ruby on Rails: постинг твитов через Twitter API (04 нояб 2017)

Практикуемся в Ruby on Rails.

Вопрос Zonder Forward Parser. Парсинг поисковых систем

Больше
6 года 9 мес. назад - 6 года 9 мес. назад #1 от Aleksej
Aleksej создал эту тему: Zonder Forward Parser. Парсинг поисковых систем
Универсальный скрипт для парсинга поисковых систем, а также других сайтов, имеющих схожую с ПС многостраничную структуру. Вы легко можете настроить парсер на работу с любым сайтом, создав для него файл настроек, понимаемый скриптом. Подробнее о написании собственных настроек будет написано позже.

В базовый комплект Forward Parser входит следующий набор настроек:
  • yandex – извлечение URL сайтов из выдачи Яндекса
  • google – извлечение URL сайтов выдачи Гугла
  • rambler – извлечение URL сайтов выдачи Рамблера
  • mailru – извлечение URL сайтов из выдачи поиска Мэйлру
  • bing – извлечение URL сайтов из выдачи Bing
  • nigma – извлечение URL сайтов поисковой выдачи Нигмы
  • nigmasnippets - извлечение сниппетов из выдачи Нигмы
Настройки лежат в каталоге tunings, файлы дополнительных настроек необходимо помещать туда же.

Требования к ПО:

  1. PHP 4, 5
  2. cURL, iconv
Описание работы с Forward Parser:

Откройте index.php в браузере и укажите следующие настройки:

  • Сохранять результаты в файл – укажите имя файла, куда будут сохранены спарсенные данные. Он будет создан автоматически в каталоге data. Если файл с таким именем уже есть, то результаты будут записаны в конец файла.

  • Файл настроек – выберите из списка, о настройках было написано выше.

  • Список ключевых фраз – нужен для парсинга поисковиков, каждая фраза с новой строки. Скрипт парсит выдачу и сохраняет данные сначала для первой фразы, потом для второй и т.д.

  • Вы можете указать, надо ли сохранять спарсенные по каждой фразе данные в отдельные файлы, а также, надо ли удалять из них html-теги. Для этого поставьте галочку напротив соответствующего поля.

  • Страниц парсить – сколько страниц выдачи должен обработать парсер. Если это поле оставить пустым, то парсинг без ограничений.

  • Задержка – интервал времени между загрузкой веб-страниц.

  • После того как все настройки указаны, смело жмите на кнопку запуска. Полученные данные, как было указано выше, будут сохраняться в каталог data.

В следующем обновлении планируется:
  1. возможность парсинга по нескольким подмаскам (например, можно будет создать одну настройку сразу для сбора адресов, заголовков и сниппетов из выдачи)
  2. управление экспортом данных
  3. задание собственного формата экспорта.
Загрузить Zonder Forward Parser, а также - различные дополнения, всегда совершенно бесплатно возможно с домашней страницы проекта.
Последнее редактирование: 6 года 9 мес. назад от Aleksej.

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.