Парсер контента FDE Grabber 4.6
Дорогие друзья, уведомляем вас о том, что доступна для скачивания новая версия парсера контента FDE Grabber 4.6 Изменения, которые вошли в новую версию:
- Добавлена возможность указания замен регулярными выражениями, указания замен текста, указания DOM замен, указания использования хаков (микропрограмм для обработки контента/корректировки верстки и т.д.) до парсинга контента, до его получения. Данная возможность обеспечивает ещё более гибкую настройку парсера сайтов FDE Grabber:
При выводе списка хаков в настройках категорий источников хаки теперь группируются в блоки:
- При работе ручного крона теперь учитывается таймаут, по истечению которого, в случае не ответа сервера происходит перезапуск ручного крона. Это обеспечивает более стабильную работу ручного крона например тогда, когда ваш сервер работает через кеширующий прокси сервер nginx и nginx не дожидаясь ответа кроновского скрипта граббера по таймауту показывает ошибку "504 Gateway Time-out".
- При просмотре лога событий добавлен фильтр по дате:
- При просмотре статей добавлен вывод дополнительной информации о категории источников, источнике, адресе источника:
Настройка DOM шаблонов
Дорогие друзья, хоть мы и выпустили очень полезную и супер удобную возможность парсинга сайтов, с помощью DOM шаблонов, многие пользователи по-прежнему продолжают использовать простые шаблоны. Они тоже удобные и эффективные, но цель данной статьи познакомить вас поближе именно с DOM шаблонами парсинга статей.
Как мы писали ранее, в рамках пресс релиза выхода 4.4 версии парсера сайтов FDE Grabber, DOM – это аббревиатура от английского “Document Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент.
Чтобы иметь возможность смотреть DOM структуру документа статьи мы советуем вам установить бесплатное дополнение к браузеру FireFox - FireBug, для этого заходим через браузер FireFox на сайт https://addons.mozilla.org/ru/firefox/
Проводим поиск плагина, указывая в поисковом запросе "FireBug" https://addons.mozilla.org/ru/firefox/addon/firebug/?src=ss
Далее нажимаем на кнопку "Добавитиь в FireFox", добавляем плагин, перезапускаем браузер FireFox и пробуем его в действии.
Пусть для примера мы хотим составить DOM шаблон для парсинга страниц сайта https://warezed.ru/. Для этого открываем любую страницу с контентом, например https://warezed.ru/819-Nad-Severnym-morem-vot-vot-vzorvetsya-gaz.html через браузер FireFox, выделяем текст статьи:
Вызываем контекстное меню, кликая правой кнопкой мышки по выделенному тексту статьи:
В открывшейся панели ищем уникальный родительский элемент, содержащий полный текст статьи:
Мы видим, что полезный контент статьи полностью содержится в теге span со стилевым классом news
Поэтому мы можем составить наш DOM шаблон как span.news (это очень напоминает описание CSS стилей). Для уверенности в уникальности нашего шаблона мы можем пойти дальше и составить иерархическую цепочку, замечая, что элемент span.news является дочерним по отношению к элементу div.big-news, поэтому альтернативный DOM шаблон будет выглядеть так: div.big-news span.news (что опять-таки идентично CSS нотации описания стилей). Или даже так: body div.big-news span.news
В общем случае иерархическая DOM цепочка узлов может быть неограниченной.
В случае, когда стилевой класс указывается через пробел, например для атрибута class=″main left″ в теге div, который является дочерним по отношению к body мы не можем записать шаблон в виде body div.main left, так как интерпретатор граббера будет думать что div.main содержит в себе элемент left, что в корне неверно - для таких случаев нотация должна иметь вид: body>div.main left, то есть в этом случае мы иерархическую последовательность узлов разделяем не пробелами, а через символы ″>″.
Вот так, легко и непринуждённо мы можем составлять DOM шаблоны для парсера контента FDE Grabber. Обо всех особенностях их составления не поленитесь и дочитайте статью полностью ;-)
Для того, чтобы открыть панель FireBug также можно воспользоваться иконкой так, как показано на скриншоте ниже:
Как работает DOM парсинг на примере разбора содержимого статьи:
- указывается DOM шаблон
- FDE Grabber преобразует документ в иерархическое DOM дерево
- начинается поиск по указанному DOM шаблону необходимого нам элемента и в случае его нахождения мы получим полезный контент
<body> <div> <table> <tr> <td> <div class=″content″> полезное содержимое, которое мы хотим получить </div> </td> </tr> </table> </div> </body>Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body. Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“. Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content” Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555 ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i. width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие). Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон: id {preg} #news\-id\-\d+#is На скриншоте ниже приводится пример настройки граббера FDE Grabber под любой сайт, работающий на CMS DataLife Engine:

Вышла новая версия парсера статей FDE Grabber 4.5
Дорогие друзья! С радостью сообщаем о том, что выпущена новая версия системы импорта новостей FDE Grabber 4.5 О том, какие изменения были сделаны в новой версии читайте ниже:
- добавлена возможность массового изменения настроек категорий источников
- добавлена возможность массового изменения настроек источников
- у статей добавлен новый статус "в архиве"
- добавлена возможность помещать статьи сразу после публикации в архив, а также перемещать их через раздел "статьи"
- добавлена возможность получения страниц сжатых на стороне сервера (gzip, deflate и т.д.)
- улучшена система обхода защит от ботов на некоторых сайтах - теперь граббер в своём поведении ещё больше похож на обычный браузер клиента
- исправлены мелкие недочёты
Массовое изменение настроек категорий источников
При просмотре списка записей категорий в граббере имеется возможность выбора определённых категорий для совершения каких-то массовых действий. Так, если отметить галочками нужные нам записи:


Массовое изменение настроек выбранных источников
Изменение настроек источников происходит по полностью аналогичной схеме:


Когда это может понадобиться?
Не секрет, что настройки приходится иногда изменять, например изменился шаблон для парсинга или нужно изменить настройки каких-либо хаков и т.д. При использовании данной возможности массово изменить настройки теперь можно гораздо удобнее, быстрее и комфортнее!Статус статей "в архиве"
Новый статус призван оптимизировать использование дискового пространства на вашем хостинге. Так, если мы уже опубликовали статью в CMS, то в большинстве случаев хранить её полную копию в граббере (контент, картинки и т.д.) нет смысла, так, как это занимает драгоценное дополнительное дисковое пространство на вашем хостинге. Но и полностью удалять статью нельзя, так как если её удалить, то могут появляться дубли (граббер узнаёт о том получал ли уже данную статью по адресу и заголовку). Так вот, теперь новый статус "статья в архиве" позволяет экономно расходовать дисковое пространство на вашем хостинге - статья удаляется не полностью, а лишь частично: удаляется её контент и картинки, а нужный нам заголовок и адрес статьи остаются нетронутыми. Следует отметить, что по умолчанию статья при публикации не попадает в архив автоматически. Если вы желаете экономно расходовать дисковое пространство на своём хостинге, то требуется активировать опцию автоматического перемещения опубликованной статьи в архив:
Вышла новая версия парсера статей FDE Grabber 4.5, читать далее...
Граббинг сайтов без указания шаблонов. Возможно ли такое?
В FDE Grabber 4.4 появилась новая возможность для парсинга сайтов - бесшаблонный граббинг/парсинг. Теперь достаточно поставить галочку и система будет сама искать полезный контент:
Как показали тесты, система очень хорошо с этим справляется, и действительно, в большинстве случаев выдаёт ожидаемый результат.
Разумеется, как и прежде можно указывать шаблоны для тонкой профессиональной настройки парсера сайтов FDE Grabber.
Граббинг сайтов без указания шаблонов. Возможно ли такое?, читать далее...
Вышла новая версия FDE Grabber 4.4
- При настройке категории добавлена возможность указания минимального необходимого количества в статье картинок. Так, в случае когда количество изображений в статье меньше указанной величины, то статья будет удалена и не будет получена
- Добавлена возможность бесшаблонного парсинга новостей (статей). Это означает, что теперь в большинстве случаев можно получать полезный контент полного содержимого статьи вообще не составляя никакого шаблона!
- Появилась возможность DOM парсинга как содержимого статей так и источников.
- Появилась возможность DOM замен, наряду с обычными заменами и заменами, с помощью регулярных выражений
- указывается DOM шаблон
- FDE Grabber преобразует документ в иерархическое DOM дерево
- начинается поиск по указанному DOM шаблону необходимого нам элемента и в случае его нахождения мы получим полезный контент
<body> <div> <table> <tr> <td> <div class="content"> полезное содержимое, которое мы должны получить </div> </td> </tr> </table> </div> </body>Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body. Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“. Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content” Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555 ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i. width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие). Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон: id {preg} #news\-id\-\d+#is Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники. Итоги Как мы видим, теперь имеется возможность ещё более удобного указания шаблонов для парсинга и время на реализацию новых идей! Посмотреть демо версию системы импорта новостей FDE Grabber можно как и всегда на странице: https://fdegrabber.demo.fdstar.net/ логин: admin пароль: 123456
Вышла новая версия системы импорта новостей FDE Grabber 4.3
С радостью сообщаем о том, что вышла новая версия граббера сайтов FDE Grabber 4.3 Об изменениях/дополнениях: 1 - изменена система логирования. Теперь в лог записи попадают не одноязычной фразой, язык которой совпадает с языком интерфейса по умолчанию, а в виде параметров, что даёт возможность при просмотре лога показывать пояснение на текущем языке, выбранном админом 2 - добавлена возможность замен регулярными выражениями, а также обычных замен после основных преобразований контента (когда применять замену указывается при настройке категории) 3 - добавлены два хака для указания ссылки на источник. Можно настроить указание ссылок на источник по своему усмотрению и вкусу, изменив файл хака (хаки обязательно требуется сохранять в кодировке UTF-8) 4 - добавлен новый хак корректировки незакрытых тегов. Работает быстрее чем предыдущий.Поэтому именно он теперь используется в комплексном хаке "красивый контент" 5 - добавлена возможность предпросмотра статей в списке статей. Просмотр можно осуществлять как в виде HTML так и обычном, добавлена возможность быстрого ajax просмотра при наведении мышки на ссылку "просмотр" Теперь можно купить граббер в полностью автоматическом режиме, оплатив через систему WebMoney Transfer, подробности здесь: https://fde-cms.ru/buy_grabber.html Подробное описание системы импорта новостей FDE Grabber можно найти здесь: https://fdstar.net/fde-grabber.html Как обновить систему на новую версию? – зайти в персональный кабинет на нашем сайте https://fde-cms.com/ или https://fde-cms.ru/ - скачать дистрибутив версии 4.3* - следовать инструкции по обновлению, которая находится в корне дистрибутива (файл “how_to_update_from_4.2_to_4.3.txt”, текст сохранён в кодировке Windows-1251) Были вопросы о том, как это сделать, как скачать дистрибутив - ответ прост:
- логинимся на сайт https://fde-cms.com/ или https://fde-cms.ru/ (первый на английском языке, второй на русском)
- заходим в раздел лицензий: https://fde-cms.ru/do/my_licenses/. Если у вас ещё нет лицензии, то её можно купить на странице https://fde-cms.ru/do/order/ (требуется залогиниться)
- на странице лицензий находим нужный дистрибутив и нажимаем на ссылку "скачать" (смотрите скриншот ниже). Здесь требуется предостеречь: не нажимайте по несколько раз на эту ссылку - генерация дистрибутива довольно длительный процесс, поэтому требуется дождаться ответа сервера, в случае двойного нажатия сайт вас забанит и придётся писать в службу поддержки для разблокировки
Вышла новая версия системы импорта новостей FDE Grabber 4.3, читать далее...
FDE Grabber 4.2
Дорогие друзья, с радостью вам сообщаем о том, что вышла новая версия граббера: FDE Grabber 4.2 Изменения, которые были сделаны в новой версии и что появилось нового:
- добавлена возможность указания случайной публикации на один из выбранных сайтов при настройке источника в граббере: теперь вы можете публиковать получаемые новости с определённого источника или на все указанные сайты или случайно на один из указанных
- при настройке замен регулярными выражениями добавлена возможность указания замены в HTML списках новостей до получения краткой новости (только для html источников). Это даёт возможность более гибкой настройки и парсинга html источников
Новогодняя акция
Стартовала новогодняя акция

Новая версия системы импорта новостей FDE Grabber 4.1
Дорогие друзья, с радостью вам сообщаем о том, что вышла новая версия граббера: FDE Grabber 4.1
Какие изменения были сделаны в новой версии, что появилось нового?
- полностью изменена работа с датами получаемых новостей. Теперь вы можете настраивать дату публикуемой новости так, как этого требует ваш ресурс:
доступны несколько вариантов простановки дат:
a) из источника
б) дата, на момент граббинга источника
в) дата, на момент граббинга статьи
д) дата, на момент публикации
- изменён механизм флуктуации дат статей. Теперь вы можете устанавливать флуктуации на уровне настройки категории источников. Доступна установка параметра начального значения флуктуации дат (в секундах) и конечного, допускаются как положительные, так и отрицательные значения
- добавлен параметр фиксированного смещения даты (в секундах), который может установиться, также на уровне настройки категории источника
- JavaScript библиотека подсказок заменена на встроенный в jquery механизм
- теперь вы можете получать новости о нашей системе непосредственно находясь в админ центре граббера
- система теперь отображает актуальность версии и необходимость обновления
Как обновиться?
- зайти в персональный кабинет на нашем сайте https://fde-cms.com/ или https://fde-cms.ru/
- скачать дистрибутив
- следовать инструкции по обновлению, которая находится в корне дистрибутива
Новая версия системы импорта новостей FDE Grabber 4.1, читать далее...
FDE Grabber 4 уже доступен

- полнофункциональная мультисайтовость: публикация доступна из одного источника на неограниченное число сайтов (которые добавляются через админцентр) , работающих на любой из поддерживаемых CMS. Это означает, что мы не только ввели в новой версии мультисайтовость, но и отказались от привязок лицензий системы к CMS - теперь вы можете работать с любой поддерживаемой CMS в рамках одной лицензии!
- Однако, было введено ограничение запуска одной лицензии с 10 IP адресов *
- Чтобы компенсировать ограничение запуска с 10 IP адресов, мы пошли навстречу клиентам, постарались и сделали возможность удалённой публикации - это означает, что теперь вы сможете установить систему импорта новостей, например на локальный компьютер, и публиковать полученные статьи на неограниченное число своих сайтов, работающих на любом хостинге, где есть PHP. Локальная публикация, также, осталась и доступна.
- Полностью проведён редизайн и ребрендинг системы - это хорошо заметно тем, кто видел нашу систему раньше - она была серой и безликой
- Настройка всех параметров вынесена в админцентр
- Добавлено переключение языков админцентра FDE Grabber, в данный момент доступны русский, английский и украинский языки
- Ну и, конечно же, множество других вкусностей... ;-)
Новая версия FDE Grabber 4.0
Уважаемые клиенты. Рады сообщить, что подходит к завершению работа над новой системой лицензирования системы импорта статей FDE Grabber, которая вступит в силу с новой версии FDE Grabber 4.0 Поэтому, в ближайшее время вы сможете приобрести/обновиться до версии FDE Grabber 4.0 Новая система лицензирования предусматривает проверку лицензий через наш сервер, а также ограничение на запуск системы импорта новостей с 10 IP адресов в рамках одной лицензии. Список IP адресов вы сможете скорректировать в личном кабинете на нашем сайте; Ограничений на запуск по доменам по прежнему не будет
Зависимость от опции open_basedir в прошлом
Система импорта новостей FDE Grabber теперь может полноценно обходить редиректы даже при включенной в настройках интерпретатора PHP опции open_basedir. Суть заключается в том, что теперь граббер при получении контента проверяет код http заголовка и при наличии редиректов обходит их сам, не прибегая к CURL опции CURLOPT_FOLLOWLOCATION Примечательно, что нам удалось сделать обход редиректов при включенной опции open_basedir не только при получении контента, но и картинок
Зависимость от опции open_basedir в прошлом, читать далее...