×
Покер бот на Ruby on Rails (12 сен 2018)

Третья ипостась покера на ruby. Искреннее спасибо всем, кто прислал замечания по предыдущим релизам.

Вопрос Zonder Forward Parser. Парсинг поисковых систем

Больше
7 года 8 мес. назад - 7 года 8 мес. назад #1 от Aleksej
Универсальный скрипт для парсинга поисковых систем, а также других сайтов, имеющих схожую с ПС многостраничную структуру. Вы легко можете настроить парсер на работу с любым сайтом, создав для него файл настроек, понимаемый скриптом. Подробнее о написании собственных настроек будет написано позже.

В базовый комплект Forward Parser входит следующий набор настроек:
  • yandex – извлечение URL сайтов из выдачи Яндекса
  • google – извлечение URL сайтов выдачи Гугла
  • rambler – извлечение URL сайтов выдачи Рамблера
  • mailru – извлечение URL сайтов из выдачи поиска Мэйлру
  • bing – извлечение URL сайтов из выдачи Bing
  • nigma – извлечение URL сайтов поисковой выдачи Нигмы
  • nigmasnippets - извлечение сниппетов из выдачи Нигмы
Настройки лежат в каталоге tunings, файлы дополнительных настроек необходимо помещать туда же.

Требования к ПО:

  1. PHP 4, 5
  2. cURL, iconv
Описание работы с Forward Parser:

Откройте index.php в браузере и укажите следующие настройки:

  • Сохранять результаты в файл – укажите имя файла, куда будут сохранены спарсенные данные. Он будет создан автоматически в каталоге data. Если файл с таким именем уже есть, то результаты будут записаны в конец файла.

  • Файл настроек – выберите из списка, о настройках было написано выше.

  • Список ключевых фраз – нужен для парсинга поисковиков, каждая фраза с новой строки. Скрипт парсит выдачу и сохраняет данные сначала для первой фразы, потом для второй и т.д.

  • Вы можете указать, надо ли сохранять спарсенные по каждой фразе данные в отдельные файлы, а также, надо ли удалять из них html-теги. Для этого поставьте галочку напротив соответствующего поля.

  • Страниц парсить – сколько страниц выдачи должен обработать парсер. Если это поле оставить пустым, то парсинг без ограничений.

  • Задержка – интервал времени между загрузкой веб-страниц.

  • После того как все настройки указаны, смело жмите на кнопку запуска. Полученные данные, как было указано выше, будут сохраняться в каталог data.

В следующем обновлении планируется:
  1. возможность парсинга по нескольким подмаскам (например, можно будет создать одну настройку сразу для сбора адресов, заголовков и сниппетов из выдачи)
  2. управление экспортом данных
  3. задание собственного формата экспорта.
Загрузить Zonder Forward Parser, а также - различные дополнения, всегда совершенно бесплатно возможно с домашней страницы проекта.
Последнее редактирование: 7 года 8 мес. назад пользователем Aleksej.

Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.