FDE Grabber 5.6 - отбираем только самое лучшее!

Дорогие друзья, извещаем вас о том, что доступна новая версия системы парсинга новостей FDE Grabber 5.6 О том, что было сделано и изменено в новой версии читайте ниже.

Изменён интерфейс редактора простых шаблонов, он стал ещё удобнее:

При настройке категории источников: При настройке источника:

Переписан движок простого парсинга, теперь он позволят полностью забыть о пробелах и переносах строк при составлении простого шаблона, а также предоставляет ряд удобных дополнительных возможностей:

  • Теперь можно использовать новые переменные:
    • {a} - соответствует ненужному, динамически изменяющемуся значению атрибута HTML дескриптора (соответствует регулярному выражению [^<>]*?)
    • {d} - соответствует ненужному, динамически изменяющемуся числу (соответствует регулярному выражению \d+)
  • При указании в шаблоне для простого парсинга переменной, например {description} теперь можно добавлять уточнения того, какой контент должен сохраниться в данную переменную, с помощью регулярных выражений: {переменная[регулярное выражение]}.
    • Пример 1: {description[[a-z\d\s\.]+]} означает, что в description может содержаться только текст, состоящий из латинских символов, цифр, пробельных символов и точки, иначе шаблон не подойдёт.
    • Пример 2: {null[\d+]} - ненужный контент, состоящий из последовательности цифр, аналог {d}
    • Пример 3: {null[[a-z]+]} - ненужный контент, состоящий из последовательности латинских символов (от регистра не зависит)

В настройках категории добавлено указание списка разрешённых хостов в ссылках исходной статьи

Эта важная и удобная функция даёт возможность фильтровать новостные статьи и оставлять только авторские. Принцип её работы заключается в том, что если в новостной статье содержатся ссылки на чужие сайты, то с большой долей вероятности, она не является авторской. Пример: пусть, нам требуется импортировать какие-либо новостные статьи с какого-либо сайта, для определённости его адрес: http://www.test.com/. И нам нужны только авторские новости с этого сайта, а не перепечатанные, то есть в которых не содержатся ссылки на третьи сайты-источники. В большинстве случаев авторские новости могут или вообще не содержать никаких ссылок или содержать ссылки на внутренние статьи, которые расположены в пределах хоста сайта-источника test.com или его поддоменов *.test.com, поэтому в настройках категории для осуществления фильтрации по данному принципу мы указываем список разрешённых хостов в ссылках исходной статьи: test.com, *.test.com Любая статья, содержащая в ссылках чужие хосты не будет сохранена граббером.

В настройках источника теперь можно конкретизировать какие адреса ссылок на статьи нам нужны, с помощью регулярного выражения

Пример: пусть нам требуется распарсить источник, в котором ссылки на статьи имеют вид http://test.com/news/* и http://test.com/articles/*. И нас интересуют только те статьи, адреса которых начинаются с http://test.com/news/, поэтому в настройках источника граббера, мы можем указать соответствующее уточнение, с помощью регулярного выражения: #^http://test\.com/news/#i Все статьи, адрес которых начинается с  http://test.com/news/ граббер сохранит, а остальные, например адрес которых начинается с  http://test.com/articles/ отбросит

В настройках категории источников добавлены новые поля, отвечающие за название сайта источника и за его адрес

Эти поля используются при простановке ссылок в статьях на сайты-источники:

Добавлен новый хак для простановки ссылок на сайт-источник в первом абзаце текста

Некоторые сайты позволяют перепечатку новостей, но при условии указания обратной ссылки, причём не где-либо, а именно не ниже первого абзаца статьи. Новый хак позволяет это сделать. Текст статьи без использования хака: Текст статьи с использованием хака:

FDE Grabber 5.6 - отбираем только самое лучшее!, читать далее...

FDE Grabber 5.5 - нотификация о событиях

Дорогие друзья, извещаем вас о том,что вышла новая версия системы импорта новостей FDE Grabber 5.5 Новые возможности:

  • В разделе настроек, во вкладке настроек файлов и картинок добавлено новое свойство "Максимальное количество символов в имени файла, без учёта префиксов и суффиксов":
Данное свойство отвечает за количество символов, которое будет отводиться под имена сохраняемых граббером файлов: Аналогичное свойство добавлено при добавлении и редактировании сайта, которое отвечает за количество символов в адресах статей:
  • Добавлена мультиязычная таблица транслитерации, которая включает в себя в данный момент кириллицу и латиницу
  • В настройках граббера добавлена новая вкладка "Почта", отвечающая за отправляемые через систему импорта новостей почтовые сообщения:
  • В настройках граббера добавлена новая вкладка "Уведомление об ошибках", отвечающая за нотификацию о возникающих при работе граббера проблемах
В данный момент система нотификации поддерживает следующие виды событий:
  1. Невозможность получить статьи, согласно указанному шаблону в настройках категории источников
  2. Невозможность получить список статей, согласно указанному шаблону в настройках источника
Когда может пригодиться данная система? Предположим, что вы настроили парсинг статей или новостей с определённого источника, но со временем на сайте источнике поменялся шаблон и указанный шаблон в настройках граббера перестал работать. Узнать об этом можно только лишь зайдя в граббер. Поскольку многие пользователи настроив граббер благополучно о нём забывают, со временем может сложиться ситуация, что новости перестают получаться. Для того, чтобы оперативнее реагировать на такие события и создана система нотификации о возникающих ошибках, связанных с парсингом статей. Для того, чтобы активировать систему нотификации в граббере требуется: 1 - настроить отправку почтовых сообщений во вкладке "Почта" 2 - включить галочку "Включить регулярное уведомление об ошибках" во вкладке "Уведомления об ошибках", а также указать почтовый ящик, на который будут отправляться данные уведомления 3 - поставить на крон запуск скрипта граббера "crontab_notification.php", с интервалом, например, каждый час  

FDE Grabber 5.5 - нотификация о событиях, читать далее...

Новая версия системы импорта новостей FDE Grabber 5.4

Дорогие друзья, с радостью сообщаем вам о том, что доступна для покупки и скачивания новая версия системы импорта новостей FDE Grabber 5.4 Изменения и дополнения:

  • В настройках граббера добавлен выбор временной зоны (часового пояса), в которой должна работать система:
Список доступен на всех поддерживаемых языках граббера: русский, английский, украинский
  • Добавлена возможность публикации в форум XenForo (http://xenforo.com/)
  • Добавлены хаки, позволяющие преобразовывать HTML код в BB коды. Данное преобразование работает не путём простой замены, а последовательности действий:
  1. построение на основе HTML кода DOM дерева
  2. произведение обратных преобразований, но не в HTML код, а в BB коды, на основе сопоставления HTML дескрипторов, их стилей и атрибутов BB кодам
Благодаря чему достигается наилучший результат.
Данные хаки можно выбирать при настройке категории:
  • При проведении теста категорий источников и источников теперь рядом с выбранным пунктом, для удобства пользователя отображается небольшая ссылка, позволяющая перейти к настройкам записи:
  • Исправлены мелкие недочёты и недоработки прошлых версий

Новая версия системы импорта новостей FDE Grabber 5.4, читать далее...

FDE Grabber 5.3 - возможность тестирования регулярных выражений

Дорогие друзья, извещаем вас о том, что доступна для покупки и скачивания новая версия системы импорта новостей FDE Grabber 5.3 Изменения и нововведения:

  • Добавлен модуль для тестирования регулярных выражений. В нём вы можете указать текст, указать какую замену регулярным выражением к нему применить, и посмотреть результат
  • Изменена система обновлений. Для того, чтобы обновиться до последней версии с любой из версий граббера, начиная с версии 4.0 достаточно всего лишь обновить файлы дистрибутива граббера, кроме конфига и запустить файл update.php.
  • В настройках путей граббера теперь можно указывать переменную {root}, которая определяется автоматически и соответствует полному пути к грабберу на  сервере. Так, вам теперь не потребуется узнавать полный путь к грабберу на сервере, чтобы его установить и  настроить
  • Исправлены мелкие недоработки и недочёты прошлых версий
Модуль для тестирования регулярных выражений Для тестирования замен в тексте, с помощью регулярных выражений требуется
  1. указать текст, на котором будем проводить тест, например www.test.ru
  2. указать регулярное выражение, например #test.ru#i
  3. указать замену, на что мы хотим заменить найденные вхождения текста; если  их требуется удалить, то это поле нужно оставить пустым
  4. нажать на кнопку "тестировать"
  5. в поле "" отобразится результат
 

FDE Grabber 5.3 - возможность тестирования регулярных выражений, читать далее...

FDE Grabber 5.2 - импорт новостей с возможностью четырёхсторонней обрезки изображений

Дорогие друзья, извещаем вас о том что доступна для покупки и скачивания новая версия системы импорта новостей и парсера контента FDE Grabber 5.2 Новый функционал и изменения:

  • Улучшена система работы с картинками - теперь граббер просчитывает все действия, которые будет производить с картинками наперёд, что позволяет более экономно расходовать серверные ресурсы.
  • Добавлена возможность четырёхсторонней обрезки (кроппинга) исходных сохраняемых изображений (например для обрезки вотермарков, более подробно читайте ниже)
  • При автоматическом определении кодировки статей теперь принимаются во внимание не только данные из HTML тега <META>, но и отправляемые сервером заголовки
  • Улучшен интерфейс настройки категорий источников, источников и сайтов - добавлены логические разделители
  • При тестировании настроек категории теперь, если не указать категорию источников, а только адрес статьи, которая уже находится в списке полученных статей, то категория выберется автоматически
  • При просмотре списка статей, а также самих статей в граббере сайтов добавлены кнопки теста категории источников

Четырёхсторонний кроппинг картинок

  При настройке категории источников теперь можно указать по сколько пикселей должен обрезать граббер у каждой из сторон исходного изображения. Обрезку можно назначить только если изображение превышает опорные размеры: Обрезка картинок в краткой новости и полной настраивается отдельно.

Зачем нужна обрезка изображений

  Когда сайт-донор добавляет на картинки вотермарки - небольшие картинки, наложенные на исходные, то это выглядит примерно следующим образом:
В правом нижнем углу на картинке находится вотермарк. Если вотермарки нежелательны, то для их удаления единственным возможным решением может быть только обрезка изображений. Если обрезать картинку снизу на высоту вотермарка, то картинка будет выглядеть так:
 Следует отметить, что FDE Grabber четырёхстороннюю обрезку производит у исходных картинок, а уже потом производит иные преобразования, манипулируя уже обрезанными картинками.  

FDE Grabber 5.2 - импорт новостей с возможностью четырёхсторонней обрезки изображений, читать далее...

Новая версия парсера контента FDE Grabber 5.1

Доступна для покупки и скачивания новая версия системы импорта новостей FDE Grabber 5.1

  • Новый механизм работы с динамическими списками
Полностью переработан и улучшен механизм для работы с динамическими списками. Для удобства теперь каждый элемент списка выделяется чередующимся цветом (зеброй). При изменении порядка/удалении/добавлении нового элемента зебра автоматически перерисовывается. Добавлены кнопки для удаления выбранных элементов списка: Добавлены области захвата элементов списка для последующего перетаскивания мышью на новое место, с целью изменения порядка следования элементов и их сортировки:
  • Поддержка импорта и сохранения изображений, внедрённых непосредственно в тело HTML документа
Теперь, если в статье, которую необходимо импортировать находится картинка, встроенная в тело документа, с помощью метода Base64 - FDE Grabber автоматически распознает картинку и сохранит. Пример такой картинки:
<img
src="data:image/gif;base64,R0lGODdhMAAwAPAAAAAAAP///ywAAAAAMAAw
AAAC8IyPqcvt3wCcDkiLc7C0qwyGHhSWpjQu5yqmCYsapyuvUUlvONmOZtfzgFz
ByTB10QgxOR0TqBQejhRNzOfkVJ+5YiUqrXF5Y5lKh/DeuNcP5yLWGsEbtLiOSp
a/TPg7JpJHxyendzWTBfX0cxOnKPjgBzi4diinWGdkF8kjdfnycQZXZeYGejmJl
ZeGl9i2icVqaNVailT6F5iJ90m6mvuTS4OK05M0vDk0Q4XUtwvKOzrcd3iq9uis
F81M1OIcR7lEewwcLp7tuNNkM3uNna3F2JQFo97Vriy/Xl4/f1cf5VWzXyym7PH
hhx4dbgYKAAA7"
alt="Good girl" />
  • Добавлена полноценная поддержка импорта контента с сайтов, расположенных в доменах, содержащих символы национальных алфавитов
Теперь FDE Grabber может полноценно импортировать контент с сайтов, находящихся в доменах вида россия.рф, москва.ru  и т.д.
  • Адреса, начинающиеся с // теперь автоматически воспринимаются как начинающиеся с http://
 

Новая версия парсера контента FDE Grabber 5.1, читать далее...

FDE Grabber 5: ещё умнее, надёжнее, безопаснее

Дорогие друзья, извещаем вас о том, что доступна для скачивания  и покупки новая версия системы импорта новостей FDE Grabber 5 Новые возможности:

  • добавлена система умного выравнивания картинок (в настройках категории источников), о том, как её использовать читайте далее
  • в настройках источников добавлена опция, в зависимости от которой краткую новость можно получить как из источника, так и из полной новости, путём обрезки по заданному количеству абзацев/символов/предложений
  • в настройках категории добавлена опция указания вставки в атрибуты alt и title изображений содержимого заголовка статьи (для SEO оптимизации)
  • в настройках категории добавлена возможность для картинок указать отступы от текста по вертикали и горизонтали (отдельно для кратких и полных новостей)
  • добавлена система подсказок для удобного и правильного указания кодировок сайтов
  • добавлена система проверки настроек сайтов, в которые планируется публиковать полученные статьи
  • добавлена система ограничения доступа по IP/подсетям
  • добавлена система транзитных ключей, позволяющая повысить безопасность при удалённой публикации
Теперь обо всём более подробно...  

Система умного выравнивания картинок

Данная система позволяет в зависимости от заданного опорного размера указывать разное выравнивание картинок в кратких и полных новостях. Пример: опорный размер задан как 300X300 (ширина 300 пикселов, высота 300 пикселов). При размере изображения меньше указанного размера мы можем указать выравнивание, например по левому краю. А при превышении заданного размера выравнивание, например поставить по центру. Таким образом получаемые новости будут смотреться гораздо красивее.  

Возможность получать краткую новость как из источника так и путём обработки полной новости

При настройке источника теперь можно указать как вы желаете получать краткую новость. По умолчанию она будет получаться из источника, но можно и переключить логику так, чтобы система импорта новостей получала её из полной новости. Кроме того, можно указать обрезку краткой новости по заданному количеству символов/параграфов/предложений. При любом типе обрезки система автоматически закрывает открытые HTML теги.    

Система подсказок при настройке сайта

При указании кодировки сайта система сама предложит варианты правильных кодировок, что позволит избежать досадных ошибок при настройке сайта. При выборе кодировки,  подсказанной системой все остальные поля кодировок заполнятся автоматически (если они были пустыми).  

Возможность проверки настроек сайта до использования

Возможности ограничения доступа к системе по заданным IP адресам/подсетям

Значения указываются через пробел. Если необходимо указать подсеть, то используется звёздочка, например: 46.8.2.* Параметр, в конфиге граббера config/dynamic.php, отвечающий за список разрешённых IP называется ALLOWED_IP. Если у вас изменится IP адрес, то для восстановления доступа можно отредактировать данный параметр.   В случае попытки доступа к системе с IP, не входящего в список доступ будет запрещён.

Возможность повысить безопасность, используя транзитные ключи

При транзитной публикации теперь можно указать секретный ключ при настройке сайта: И транзитный ключ при настройке самого граббера: В конфиге граббера config/dynamic.php параметр, отвечающий за транзитный ключ называется TRANSIT_KEY В случае, если ключи, указанные в настройках сайта и в настройках транзитной системы граббера не совпадут, то доступ к публикации будет заблокирован.  
При использовании граббера теперь необходимо обязательно сменить дефолтный пароль, иначе система откажется работать.
   

FDE Grabber 5: ещё умнее, надёжнее, безопаснее, читать далее...

Вышла новая версия FDE Grabber 4.9

Дорогие друзья, извещаем вас о том, что вышла очередная версия системы импорта новостей (парсера сайтов) FDE Grabber 4.9 Изменения и дополнения:

  • добавлена возможность экспорта настроек категорий источников, а также источников в специальный датафайл (о новом функционале читайте далее)
  • добавлена возможность импорта настроек категорий источников, а также источников из экспортированного ранее датафайла (о новом функционале читайте далее)
  • исправлены мелкие недочёты и недоработки прошлых версий
Экспорт настроек категорий источников (а также источников) в датафайл: В списке записей выбираем нужную и нажимаем на кнопку "экспорт" В открывшемся диалоговом окне выбираем "сохранить файл": И сохраняем настройки в файл Импорт настроек категорий источников (а также источников) из датафайла: В списке записей нажимаем на кнопку "импорт из файла" Выбираем файл и нажимаем на кнопку "импортировать": ЗАЧЕМ рязанскому крестьянину этот функционал?
  • функционал позволяет вести заработок на настройке категорий и источников, принимая заказы у своих знакомых
  • обмениваться настройками граббера со своими друзьями и знакомыми
  • позволяет организовать "быстрый старт" новичкам. С нашего демо сайта без проблем можно экспортировать нужную настройку и импортировать себе в граббер

FDE Grabber 5 не за горами - ждите сюрпризов ;-)

   

Вышла новая версия FDE Grabber 4.9, читать далее...

Выпущена новая версия парсера контента FDE Grabber 4.8

Дорогие друзья, уведомляем вас о том, что доступна для скачивания новая версия системы импорта новостей, парсера контента, граббера сайтов FDE Grabber 4.8 Новые возможности:

  • Введена полноценная система перелинковки (о том что это такое и для чего она нужна читайте далее)
  • В DOM шаблоны для получения контента в настройках категории источников граббера добавлена возможность указания номеров не уникальных элементов, но подходящих под указанный шаблон, из которых будет получаться полезный контент. Так, например, если вы указали DOM шаблон в виде BODY TABLE DIV, а на странице элементов, подходящих под этот шаблон больше одного, то теперь есть возможность указать порядковые номера этих элементов (через запятую или пробел), из которых граббер будет получать контент. Если соответствующее поле не заполнять, то граббер будет получать контент сразу из всех элементов, подходящих под указанный шаблон.
  • исправлены мелкие недочёты прошлых версий

Система перелинковки

В случае, если для вашего сайта активирована система перелинковки: То при публикации статей на него граббер будет её использовать. Система работает следующим образом:
  • Указывается адрес ссылки и возможные подписи к ней (через запятую). Кроме того, указывается сайт (добавленный  в граббер через раздел "сайты"), для которого будут проставляться ссылки.
  • В момент публикации, если в тексте статьи встречаются указанные текстовые подписи, то они будут замены на соответствующие ссылки.
При добавлении ссылки можно указать применение стеммера - таким образом отпадёт необходимость склонять по падежам указанные подписи. Кто-то предпочтёт потратить лишние 2-3 минуты и просклоняет подписи к ссылкам, а кто-то может включить использование стеммера.

Выпущена новая версия парсера контента FDE Grabber 4.8, читать далее...

Удалённая публикация в парсере контента FDE Grabber

Бывает, что необходимо поставить граббер на сервер, отличный от того, на котором находится сайт, куда требуется публиковать получаемые граббером статьи. Причины могут быть разные - желание централизовать управление наполнением сайтов, разгрузка ресурсов сервера, на котором находится сайт и т.д. В FDE Grabber публикацию полученных статей можно осуществлять как локальную так и удалённую. Локальная публикация — это такой режим работы граббера, когда он установлен на том же сервере, что и сайт, в который требуется публиковать полученные статьи. Удалённая публикация — это такой режим работы граббера, когда он установлен на другом сервере, отличном от того, на котором работает сайт, в который требуется публиковать полученные статьи. Если в случае локальной публикации всё понятно - ставится граббер рядом с сайтом, который требуется наполнять и поехали, то в случае удалённой публикации могут возникнуть вопросы. Для осуществления удалённой публикации нам потребуется при настройке сайта (в разделе граббера "сайты") отметить опцию «Удалённая публикация» и заполнить поле «URL транзитного файла». URL транзитного файла — это адрес транзитного файла копии граббера, которую потребуется установить на тот же сервер, где находится ваш сайт. Так, если ваш сайт, например, находится по адресу http://test.com/ и вы установили транзитную копию граббера в директорию fde, так, что URL граббера получился http://test.com/fde/. Тогда URL транзитного файла будет выглядеть так: http://test.com/fde/transit_publication.php Транзитную копию граббера не обязательно устанавливать полностью, запуская инсталлятор install.php. Если копия граббера будет использоваться только в транзитных целях, то достаточно отредактировать его конфигурационный файл /путь_к_корню_папки_системы_импорта_новостей_на_сервере/config/dynamic.php следующим образом: ‘FILES_DIR’ => ‘/путь_к_грабберу_на_сервере/uploads/files/’, ‘TMP_DIR’ => ‘/путь_к_грабберу_на_сервере/uploads/tmp/’, указав реальные пути и проставив на соответствующие папки права на запись. Больше ничем удалённая публикация не отличается от локальной - все остальные параметры сайта указываются так, как если бы граббер осуществлял локальную публикацию.

Удалённая публикация в парсере контента FDE Grabber, читать далее...

FDE Grabber на сервере с динамическим IP

Можно ли запускать FDE Grabber на сервере с динамическим IP? - ответ да. В рамках одной лицензии вы вправе запускать FDE Grabber на 10 разных IP, а также с основного домена. Это означает, что если вы привязали к своему серверу с динамическим IP какой-либо домен, то если указать этот домен, как основной в свойствах лицензии на систему импорта новостей, то вы сможете запускать на таком сервере FDE Grabber:

FDE Grabber на сервере с динамическим IP, читать далее...

FDE Grabber 4.7

Дорогие друзья, уведомляем вас о том, что вышла новая версия системы импорта новостей FDE Grabber 4.7 Новые возможности:

  • Добавлен модуль редактирования языковых файлов системы импорта новостей (о том как им пользоваться и зачем он вообще нужен читайте ниже)
  • Добавлен новый хак обхода редиректов (перенаправлений) в ссылках. Так, например, если в контенте существует ссылка, вида http://site.ru/?id=23123217, при переходе через которую вы перенаправляетесь например на страницу http://fdstar.net/,  то при активации хака система перейдёт по ссылке и заменит адрес на конечный результат: http://fdstar.net/ вместо того, который был вначале (http://site.ru/?id=23123217). Данный хак работает только с редиректами, отправляемыми через HTTP заголовки - если сайт использует другой тип перенаправления, например через метатег или с помощью javascript, то его использование не поможет.
  • Теперь при работе удалённой публикации файлы во временной папке на удалённом сервере не накапливаются, а сразу удаляются.
  • Добавлена поддержка нового типа движка DataLife Engine 9.6, (после выхода новой версии DLE старый файл публикации больше не подходит).
Что такое модуль для редактирования языковых файлов граббера Данный модуль нужен для коррекции возможных ошибок и недочётов в подписях и текстах FDE Grabber, а также как средство удобного перевода системы на другие языки. Если вы хотите помочь развитию системы, перевёв её на новый язык, то данный модуль поможет это сделать. Языковые файлы граббера находятся в папке languages. Под каждый поддерживаемый язык выделена отдельная подпапка, так например для русского языка выделена директория languages/russian, а для английского languages/english. При работе с модулем редактирования языковых файлов требуется проставить права на запись (например 0777) как на сами языковые папки, так и на их содержимое - языковые файлы. При создании нового языка требуется создать внутри папки languages новую директорию, в которой будут храниться языковые файлы нового языка. Например для украинского языка мы можем создать пустую папку languages/ukranian и выставить на неё права на запись, после чего воспользоваться модулем редактирования и переводов. Как пользоваться модулем редактирования и переводов языковых файлов системы импорта новостей FDE Grabber Для того, чтобы отредактировать какой либо язык или языки требуется зайти на главную страницу модуля, выбрать требуемый язык, при необходимости добавить для редактирования дополнительный язык, воспользовавшись кнопками "+" и "-". После чего нажать на кнопку "применить". Для редактирования какого либо файла требуется перейти, кликнув по соответствующей ссылке: После проведения перевода или редактирования сохранить результат, нажав на кнопку "изменить": Для того, чтобы увидеть свой перевод среди списка возможных для выбора языков: Потребуется очистить папку граббера "cache", сделав это или напрямую через файловую систему или с помощью функции "очистки кеша" в разделе "утилиты" граббера. Перед тем как это сделать убедитесь в том, что переведены все языковые файлы граббера иначе вы можете увидеть сообщения об ошибках.  

FDE Grabber 4.7, читать далее...

Разделы сайта

Форум web-разработчиков

Последние записи