FDE Grabber 5.6 - отбираем только самое лучшее!

Дорогие друзья, извещаем вас о том, что доступна новая версия системы парсинга новостей FDE Grabber 5.6 О том, что было сделано и изменено в новой версии читайте ниже.

Изменён интерфейс редактора простых шаблонов, он стал ещё удобнее:

При настройке категории источников: При настройке источника:

Переписан движок простого парсинга, теперь он позволят полностью забыть о пробелах и переносах строк при составлении простого шаблона, а также предоставляет ряд удобных дополнительных возможностей:

  • Теперь можно использовать новые переменные:
    • {a} - соответствует ненужному, динамически изменяющемуся значению атрибута HTML дескриптора (соответствует регулярному выражению [^<>]*?)
    • {d} - соответствует ненужному, динамически изменяющемуся числу (соответствует регулярному выражению \d+)
  • При указании в шаблоне для простого парсинга переменной, например {description} теперь можно добавлять уточнения того, какой контент должен сохраниться в данную переменную, с помощью регулярных выражений: {переменная[регулярное выражение]}.
    • Пример 1: {description[[a-z\d\s\.]+]} означает, что в description может содержаться только текст, состоящий из латинских символов, цифр, пробельных символов и точки, иначе шаблон не подойдёт.
    • Пример 2: {null[\d+]} - ненужный контент, состоящий из последовательности цифр, аналог {d}
    • Пример 3: {null[[a-z]+]} - ненужный контент, состоящий из последовательности латинских символов (от регистра не зависит)

В настройках категории добавлено указание списка разрешённых хостов в ссылках исходной статьи

Эта важная и удобная функция даёт возможность фильтровать новостные статьи и оставлять только авторские. Принцип её работы заключается в том, что если в новостной статье содержатся ссылки на чужие сайты, то с большой долей вероятности, она не является авторской. Пример: пусть, нам требуется импортировать какие-либо новостные статьи с какого-либо сайта, для определённости его адрес: https://www.test.com/. И нам нужны только авторские новости с этого сайта, а не перепечатанные, то есть в которых не содержатся ссылки на третьи сайты-источники. В большинстве случаев авторские новости могут или вообще не содержать никаких ссылок или содержать ссылки на внутренние статьи, которые расположены в пределах хоста сайта-источника test.com или его поддоменов *.test.com, поэтому в настройках категории для осуществления фильтрации по данному принципу мы указываем список разрешённых хостов в ссылках исходной статьи: test.com, *.test.com Любая статья, содержащая в ссылках чужие хосты не будет сохранена граббером.

В настройках источника теперь можно конкретизировать какие адреса ссылок на статьи нам нужны, с помощью регулярного выражения

Пример: пусть нам требуется распарсить источник, в котором ссылки на статьи имеют вид https://test.com/news/* и https://test.com/articles/*. И нас интересуют только те статьи, адреса которых начинаются с https://test.com/news/, поэтому в настройках источника граббера, мы можем указать соответствующее уточнение, с помощью регулярного выражения: #^https://test\.com/news/#i Все статьи, адрес которых начинается с  https://test.com/news/ граббер сохранит, а остальные, например адрес которых начинается с  https://test.com/articles/ отбросит

В настройках категории источников добавлены новые поля, отвечающие за название сайта источника и за его адрес

Эти поля используются при простановке ссылок в статьях на сайты-источники:

Добавлен новый хак для простановки ссылок на сайт-источник в первом абзаце текста

Некоторые сайты позволяют перепечатку новостей, но при условии указания обратной ссылки, причём не где-либо, а именно не ниже первого абзаца статьи. Новый хак позволяет это сделать. Текст статьи без использования хака: Текст статьи с использованием хака:

Разделы сайта

Форум web-разработчиков

Последние записи