FDE Grabber 5.6 - отбираем только самое лучшее!
Дорогие друзья, извещаем вас о том, что доступна новая версия системы парсинга новостей FDE Grabber 5.6 О том, что было сделано и изменено в новой версии читайте ниже.
Изменён интерфейс редактора простых шаблонов, он стал ещё удобнее:
При настройке категории источников:

Переписан движок простого парсинга, теперь он позволят полностью забыть о пробелах и переносах строк при составлении простого шаблона, а также предоставляет ряд удобных дополнительных возможностей:
- Теперь можно использовать новые переменные:
- {a} - соответствует ненужному, динамически изменяющемуся значению атрибута HTML дескриптора (соответствует регулярному выражению [^<>]*?)
- {d} - соответствует ненужному, динамически изменяющемуся числу (соответствует регулярному выражению \d+)
- При указании в шаблоне для простого парсинга переменной, например {description} теперь можно добавлять уточнения того, какой контент должен сохраниться в данную переменную, с помощью регулярных выражений: {переменная[регулярное выражение]}.
- Пример 1: {description[[a-z\d\s\.]+]} означает, что в description может содержаться только текст, состоящий из латинских символов, цифр, пробельных символов и точки, иначе шаблон не подойдёт.
- Пример 2: {null[\d+]} - ненужный контент, состоящий из последовательности цифр, аналог {d}
- Пример 3: {null[[a-z]+]} - ненужный контент, состоящий из последовательности латинских символов (от регистра не зависит)
В настройках категории добавлено указание списка разрешённых хостов в ссылках исходной статьи
Эта важная и удобная функция даёт возможность фильтровать новостные статьи и оставлять только авторские. Принцип её работы заключается в том, что если в новостной статье содержатся ссылки на чужие сайты, то с большой долей вероятности, она не является авторской. Пример: пусть, нам требуется импортировать какие-либо новостные статьи с какого-либо сайта, для определённости его адрес: https://www.test.com/. И нам нужны только авторские новости с этого сайта, а не перепечатанные, то есть в которых не содержатся ссылки на третьи сайты-источники. В большинстве случаев авторские новости могут или вообще не содержать никаких ссылок или содержать ссылки на внутренние статьи, которые расположены в пределах хоста сайта-источника test.com или его поддоменов *.test.com, поэтому в настройках категории для осуществления фильтрации по данному принципу мы указываем список разрешённых хостов в ссылках исходной статьи: test.com, *.test.com
В настройках источника теперь можно конкретизировать какие адреса ссылок на статьи нам нужны, с помощью регулярного выражения
Пример: пусть нам требуется распарсить источник, в котором ссылки на статьи имеют вид https://test.com/news/* и https://test.com/articles/*. И нас интересуют только те статьи, адреса которых начинаются с https://test.com/news/, поэтому в настройках источника граббера, мы можем указать соответствующее уточнение, с помощью регулярного выражения: #^https://test\.com/news/#i
В настройках категории источников добавлены новые поля, отвечающие за название сайта источника и за его адрес
Эти поля используются при простановке ссылок в статьях на сайты-источники:
Добавлен новый хак для простановки ссылок на сайт-источник в первом абзаце текста
Некоторые сайты позволяют перепечатку новостей, но при условии указания обратной ссылки, причём не где-либо, а именно не ниже первого абзаца статьи. Новый хак позволяет это сделать. Текст статьи без использования хака:
