WPGrabber установка и настройка с примерами, скачать плагин бесплатно
19 июня 2020 WordPress
WPGrabber это парсер для WordPress, с помощью которого можно скачать и сохранить записи с абсолютно любого доступного веб-сайта. Обычно его применяют для парсинга каталога товаров или новостей. Плагин может полностью автоматизировать добавление контента на сайт. Можно настроить его автоматический запуск с определенной периодичностью, и плагин сам будет добавлять новые товары или записи, если они появятся на исходном сайте.
На сегодняшний день плагин давно перестал поддерживаться, а сайт разработчиков недоступен, но сам плагин прекрасно справляется со своими задачами.
Скачать WPGrabber бесплатно
Скачать проверенную версию вы можете отсюда совершенно бесплатно!
На данный момент эта версия устанавливается и работает на последней версии WordPress. У меня возникали незначительные баги при парсинге, например не обрезались изображения при включении данной функции, поэтому пришлось обрезать их с помощью стороннего софта. Но в целом плагин работает и помог справиться с задачей переноса тысяч товаров с одного сайта на другой.
Единственный минус WPGrabber это то, что плагин не умеет переходить по постраничке. Т.е. чтобы скормить ему новую порцию записей нужно изменить URL на 2 страницу, потом 3, 4… и т.д. С другой стороны если вам нужно получать только последние новые записи, то никаких проблем нет, видимо на это и рассчитывали разработчики этого плагина.
Установка и настройка
На установке я думаю не стоит заострять внимание, потому что WPGrabber устанавливается как и все другие плагины через меню добавить новый плагин → Загрузить плагин. После активации в левом меню админки появится раздел WPGrabber.
Перейдите в меню список лент. Здесь вы увидите несколько уже настроенных лент, которые вы можете протестировать, нажав на кнопку «Тест импорта».
Для создания новой ленты нажмите «Новая лента».
В интернет магазине https://onlyballs.com.ua/ вы можете купить качественные футбольные, баскетбольные и волейбольные мячи.
Перед вами откроется страница настроек. По началу все может показаться очень сложным, так как WPGrabber ищет контент с помощью регулярных выражений. На мой взгляд решение хорошее, но не очень надежное и довольно сложноватое. Думаю лучше было бы искать элементы через дерево DOM, как это реализовано в библиотеке phpQuery.
На вкладке основные укажите:
Наименование ленты — любое имя для новой ленты.
Тип ленты — HTML.
URL индексной страницы — страница исходного сайта, с которой надо парсить записи (например http://site.ru/catalog/).
Шаблон ссылок — здесь регулярное выражение для поиска ссылок на товары или новости (например /catalog/[\0-9a-zA-Zа-яёА-ЯЁ-]*/
). Об этом поговорим немного позже. С основами регулярных выражений вы можете ознакомиться в этой статье.
Шаблон заголовка — здесь так же регулярное выражение, но чаще всего используется такая конструкция, так как обычно заголовок находится на страницах в теге тайтл: <title>(.*?)</title>
Начальная точка полного текста — HTML-тег, с которого начинается часть с основным текстом (например <div class="content">
).
Конечная точка полного текста — HTML-тег, которым заканчивается часть с основным текстом (например </div><div class="footer">
).
Вот и все! Это основные настройки! Единственная сложность здесь может быть связана с созданием регулярного выражения для поиска ссылок. Я не буду углубляться в регулярные выражения, приведу лишь несколько распространенных примеров:
Пример 1:
Предположим, что ссылки новостей имеют вот такой вид: http://site.ru/news/novost-1/ Тогда сюда подойдет следующее регулярное выражение:
/news/[\w\d_-]/
[\w\d_-]
— это любой текст на латинице со знаками тире (-) и нижнего подчеркивания (_). Такие ссылки довольно распространенное явление.
Пример 2:
Чуть посложнее. Например ссылки состоят еще и из русских букв. Например: http://site.ru/категория/товар/ Такое встречается реже, но все же бывает. Тогда здесь подойдет примерно следующее регулярное выражение:
/[\0-9a-zA-Zа-яёА-ЯЁ\-]*/[\0-9a-zA-Zа-яёА-ЯЁ\-]*/
[\0-9a-zA-Zа-яёА-ЯЁ-]
— любая буква на кириллице или латинице и цифры от 0 до 9. Знак звездочки (*) означает любое количество символов.
Теперь вы можете нажать кнопку «Тест импорта» и посмотреть результат.
У плагина еще достаточно большое количество настроек. Вы можете изменять их по своему усмотрению. Хочу обратить ваше внимание еще на настройки на вкладке «Обработка». Здесь вы можете включить или отключить теги, которые будут сохраняться в тексте товаров или записей, а так же заменять какие-то части текста.
Например, мне надо будет изменить в полном тексте каждой сохраненной записи заголовок «Стоимость» на «Цена»:
Это самый простой способ замены, но здесь вы можете использовать регулярные выражения или совсем стереть текст или часть HTML-кода оставив в шаблоне замены пустую строку.
Заключение
Настройка и использование WPGrabber довольно непростая задача. Многие предлагают эту услугу за дополнительную плату. Но вы можете разобраться и самостоятельно, ведь большая часть настройки сводится к написанию нескольких строк регулярных выражений, а с опытом у вас уже будут свои заготовки. Надеюсь, эта статья поможет вам в этом!
Все это хорошо, но есть одно большое НО! Каким образом вывести все эти спарсеные новости на свой сайт, автоматом они не добавляются?! Как я только не пытался, и эту рубрику выводил на главную страницу, и в саму рубрику заходил, нет там этих новостей. При чем ни вы, ни разработчики об этом моменте ни слова не сказали. Как именно вывести на сайт эти импортированные новости?
Помогите, пожалуйста, с созданием регулярного выражения для поиска ссылок (выражение /[\d\w-_]{5,}/ не работает). В декабре было ок, а сейчас не работает.
попался я на ру.сом, думал все, писец сайту, хотел уже спецов просить, вроде сам бекапом вернул, правда пару статей потерял.
Ну как минимум back-door в файле init.php присутствует, так что не удивительно что сайты утекают и ломаются.
Где именно? Ещё не разу не было ничего подобного. На крайний случай можно парсить данные на тестовом сайте, потом перенести на боевой.
Здравствуйте. Какой смысл копировать не уникальный текст. Ведь Яндекс заблокирует. Или есть по этому поводу другое мнение?
WPGrabber самый бессмысленны плагин для вордпрес по копированию новостных лент.
Интервал копирования лент минимум 1 час и не более 3 лент, т.е 3 статьи. С таким интервалам публикации новостей ваш сайт никогда не попадет в Яндекс или Гугл новости. Среднее интервал публикации новости должен быть не более 10 минут.
WPGrabber не подписывает alt фото и теги в отличие от других плагинов.
Разработчик рекомендует своих хостинг провайдеров, на других якобы плагин не работает. Когда у других плагинов такой проблемы нет. Чтобы перенести сайт на другой хостинг иногда надо восстанавливать многие настройки, такие как виджеты, платежи, личный кабинет и т.д.
Даже при таком минимальном копировании плагин постоянно требует мелких настроек, где разработчик просит по 200-300 руб. не много но их придется платить постоянно.
Даже на рекомендованных разработчиком хостингах возникают ошибки, о чем сама тех. поддержка хостинга подтверждает.
С версией PHP 7.4 и выше корректно не работает. Даже раз в час не хочет копировать.
Плагин конфликтует с многими популярными другими плагинами.
С плюсов нет ничего. разве что на русском языке.
Плагин лишь на первый взгляд кажется бесплатным, на самом деле за его работу придется платить. Ленты для копирования самостоятельно настроить не возможно, а нужно обращаться к автору плагина, что и указано в настройках плагина. В отличие от других плагинов, где просто загружаешь ссылку на RRS канал или сайта для копирования, здесь такое не прокатит. На это плагин и сделан, чтобы тянуть с вас деньги, постоянно. По функционалу плагин бесполезный, нет защиты от копирования одних и тех же статей, копирования без фото и т.д. Очевидно одно, плагин разрабатывал студент, чтобы тянуть деньги с таких же студентов. Работу плагина протестировать не удалось, так как он не создан по функциональности для новостных сайтов. Все что можно скопировать этим плагином, так это мусор, который потом устанешь редактировать и удалять.
Классный плагин, жаль что не получается настроить.. он не такой обязательный, что бы за него платить
спасибо за подсказку с тире _-
Thank you for the good writeup. It in fact was a amusement account it.
Look advanced to far added agreeable from you! However, how can we communicate?