Вышла новая версия FDE Grabber 4.4
- При настройке категории добавлена возможность указания минимального необходимого количества в статье картинок. Так, в случае когда количество изображений в статье меньше указанной величины, то статья будет удалена и не будет получена
- Добавлена возможность бесшаблонного парсинга новостей (статей). Это означает, что теперь в большинстве случаев можно получать полезный контент полного содержимого статьи вообще не составляя никакого шаблона!
- Появилась возможность DOM парсинга как содержимого статей так и источников.
- Появилась возможность DOM замен, наряду с обычными заменами и заменами, с помощью регулярных выражений
- указывается DOM шаблон
- FDE Grabber преобразует документ в иерархическое DOM дерево
- начинается поиск по указанному DOM шаблону необходимого нам элемента и в случае его нахождения мы получим полезный контент
<body> <div> <table> <tr> <td> <div class="content"> полезное содержимое, которое мы должны получить </div> </td> </tr> </table> </div> </body>Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body. Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“. Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content” Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555 ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i. width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие). Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон: id {preg} #news\-id\-\d+#is Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники. Итоги Как мы видим, теперь имеется возможность ещё более удобного указания шаблонов для парсинга и время на реализацию новых идей! Посмотреть демо версию системы импорта новостей FDE Grabber можно как и всегда на странице: https://fdegrabber.demo.fdstar.net/ логин: admin пароль: 123456