FDE Grabber 6.5 - встроенный proxy checker и интерфейс для работы с прокси-серверами

Дорогие друзья, извещаем о том, что доступна для покупки и обновления новая версия системы импорта новостей FDE Grabber 6.5 Изменения и дополнения, вошедшие в новый релиз:

Добавлен web-интерфейс для работы с прокси-серверами

proxy_servers_interfaceИнтерфейс позволяет добавлять новые прокси сервера, редактировать, удалять, изменять их активность, а также имеется возможность массового добавления списка proxy-серверов:

add_new_proxy_server

добавление нового прокси-сервера

edit_proxy_serverредактирование прокси-сервера

mass_proxy_servers_additionмассовое добавление списка прокси-серверов

Добавлен (proxy-checker) прокси-чекер

Проверка прокси-серверов на доступность происходит непосредственно при граббинге (при работе кронтабов граббера). Так, если прокси-сервер окажется недоступным, то система его автоматически сделает неактивным. Для того, чтобы активировать эту функцию, потребуется зайти в настройки системы импорта новостей (вкладка "граббинг") и отметить галочку "Автоматически отключать прокси-сервер, если размер полученного через него контента при запуске кронтабов будет равен нулю": proxy_checker

Добавлены новые события, отвечающие за показ сообщений о доступности или недоступности прокси-серверов, а также исправлены мелкие недочёты и недоработки прошлых версий

FDE Grabber 6.5 - встроенный proxy checker и интерфейс для работы с прокси-серверами, читать далее...

FDE Grabber 6.4 - поддержка протокола XML-RPC для публикации материалов

Дорогие друзья, извещаем о том, что доступна для покупки/обновления новая версия системы импорта новостей FDE Grabber 6.4 Мы проделали большую работу и основным нововведением в новой версии граббера стала возможность публикации статей и новостей, а также связанных с ними файлов по протоколу XML-RPC Так, в настройках сайта добавлено два новых типа поддерживаемых систем:

  • XML-RPC MetaWeblog API
  • XML-RPC WordPress API
Среди данных, которые необходимо указать, при публикации по протоколу XML-RPC:
xml-rpcСледует отметить, что данный протокол поддерживается многими CMS и системами, и является единственным возможным средством публикации тогда, когда нет возможности получить непосредственный доступ к файлам и папкам системы, в которую необходима публикация. Вот неполный список систем и CMS, поддерживающих публикацию по протоколу XML-RPC:
  • WordPress, Wordpress MU, а также одноимённый сервис бесплатных блогов WordPress.com
  • Drupal
  • Joomla (при наличии специального модуля)
  • e107 (при наличии специального модуля)
  • DotNetNuke
  • TYPO3
  • и другие
Также, были внесены изменения в системе работы с сайтами в граббере, теперь, в зависимости от специфики выбранного типа CMS или сервиса появляются/исчезают соответствующие настройки.

FDE Grabber 6.4 - поддержка протокола XML-RPC для публикации материалов, читать далее...

FDE Grabber 6.3 - Поддержка HTTP аутентификации, новые возможности для составления шаблонов

Дорогие друзья, извещаем о том, что доступна для покупки и обновления новая системы импорта новостей FDE Grabber 6.3, которая содержит в себе ещё больше полезных новшеств и улучшений. Мы проделали большую работу, подготавливая данную версию и сделали процесс настройки ещё более удобным и универсальным. А теперь о том, что было сделано:

Добавлена возможность получения дополнительного контента, такого как: заголовок новости, дата, категория, краткое описание из полного содержимого. Для этого, в настройках категории источников введены соответствующие дополнительные параметры

При составлении DOM шаблона добавлено указание того, какой контент ему соответствует: dom_pattern Доступны для указания:
  • Полное описание
  • Заголовок
  • Краткое описание
  • Дата
  • Имя категории
При составлении простого шаблона добавлены новые параметры: simple_pattern {name} - соответствует заголовку статьи/новости; {short} - соответствует краткому описанию; {date} - соответствует дате; {category} - соответствует названию категории; Переработан функционал тестирования категории источников, добавлен вывод новых данных: category_testИзменена и улучшена логика поведения граббера новостей при определении подходящего шаблона для парсинга. Так, например, полное описание он может получить из одного подходящего шаблона, а, например дату из другого.

В настройках категории, а также настройках источников добавлена возможность указания логина и пароля для HTTP аутентификации:

http_authenticationКроме логина и пароля можно также указать метод шифрования, в данный момент поддерживаются следующие:
  • Basic
  • Digest
  • GSS Negotiate
  • NTLM
  • Любой
  • Любой безопасный

При отсутствующей иллюстрации в полученном тексте, теперь, граббер попытается её получить из метатегов:

<meta property="og:image" content="https://www.com.com/0063_11.jpg" />
<meta property="twitter:image" content="https://www.com.com/0063_11.jpg" />
<link rel="image_src" type="image/jpeg" href="https://www.com.com/0063_11.jpg"/>

В настройках категории источников граббера добавлена возможность указания диапазона, из которого будет выбрано случайное количество публикуемых фейковых комментариев:

random_fake_comments_range

Исправлены недочёты и недоработки прошлых версий, а также оптимизирован процесс парсинга.

FDE Grabber 6.3 - Поддержка HTTP аутентификации, новые возможности для составления шаблонов, читать далее...

FDE Grabber 6.2 - свобода наложения вотермарков на картинки

Дорогие друзья, извещаем о том, что доступна для покупки и обновления новая версия системы импорта новостей FDE Grabber 6.2 Изменения и дополнения:

В настройках категории источников добавлена возможность указания минимальной длины полной новости

В том случае, когда длина текста новости (без учёта HTML форматирования) меньше заданной, то инициируется ошибка и новость удаляется

min_full_news_length

В настройках источников добавлена возможность указания минимальной длины краткой новости

В том случае, когда длина текста новости (без учёта HTML форматирования) меньше заданной, то инициируется ошибка и новость удаляется

min_short_news_length

В настройках категории источников добавлена возможность указания того, на какие картинки должны накладываться вотермарки (водяные знаки):

watermarks   Данная настройка доступна отдельно для краткой и отдельно для полной новости. Среди возможных значений, можно указать:
  • не накладывать
  • накладывать на все картинки
  • накладывать только на картинки-превью
  • накладывать только на полные версии картинок
Что позволяет гораздо гибче вести настройку указания наложения на изображения водяных знаков. Внимание! Разные настройки наложения вотермарков на изображения для краткой и полной новости могут потребовать создания дополнительных изображений, что отразится на размере, занимаемом картинками, на диске вашего сервера.

В настройках сайтов, добавлена возможность указания минимальной длины ключевых слов

keywords
В некоторых CMS есть возможность указания связанных с новостью ключевых слов для метатега META. Граббер автоматически определяет ключевые слова и отправляет их при публикации.
Данная настойка позволяет отфильтровывать слишком короткие слова и оставлять только нужной длины.

Исправлены мелкие ошибки и недочёты в работе системы импорта новостей

FDE Grabber 6.2 - свобода наложения вотермарков на картинки, читать далее...

FDE Grabber 6.1 - возможность фильтрации картинок по наименьшему размеру

Дорогие друзья, извещаем о том, что доступна для покупки и бесплатного обновления новая версия системы импорта новостей FDE Grabber 6.1 Изменения и дополнения, вошедшие в релиз:

В настройках категории источников добавлена возможность фильтрации изображений по наименьшему размеру:

Теперь можно указать минимальную ширину и/или высоту, по которым можно отфильтровывать ненужные картинки. Среди возможных действий, когда изображение оказывается меньшим указанных размеров, можно указать:
  • удалять такие картинки из кода статьи
  • удалять статью
  • ничего не делать
Фильтрацию картинок можно осуществлять в краткой и полной новости отдельно.

При скачивании файлов и картинок добавлен функционал докачки при обрывах связи или тогда, когда сервер отдаёт их по частям (206 Partial Content)

Теперь, если при скачивании файла реальный размер отличается от задекларированного в заголовках сервера, с которого идёт скачивание, то граббер попытается докачать данный файл. Это, несомненно, значительно повышает процент успешно скачиваемых граббером файлов.

Обновлены хаки машинного перевода

Внимание! С 1 июля 2013 года Yandex Translate API вводит доступ к сервису перевода по ключу разработчика. Получить этот ключ можно бесплатно, на странице https://api.yandex.ru/key/form.xml?service=trnsl Если вы пользуетесь хаками машинного перевода, то вам потребуется обновить граббер, получить ключ разработчика, и указать его в настройках системы импорта новостей FDE Grabber.

Исправлены  ошибки и мелкие недоработки прошлых версий, внесены корректировки в HTML верстку системы

FDE Grabber 6.1 - возможность фильтрации картинок по наименьшему размеру, читать далее...

FDE Grabber 6 - возможность ведения публикации файлов и картинок через FTP протокол

Дорогие друзья, извещаем о том, что доступна для покупки и обновления новая версия системы импорта новостей FDE Grabber 6.0 В новой версии мы существенно переработали систему публикации, и теперь у вас появилась новая возможность, позволяющая вести публикацию полученных граббером файлов и картинок через FTP протокол. Таким образом, теперь есть возможность вести публикацию файлов и картинок тремя способами:

  • напрямую, в указанную папку, этот способ работает тогда, когда система импорта новостей установлена на том же сервере, куда идёт публикация
  • с помощью транзитной системы граббера, данный способ применим тогда, когда система импорта новостей установлена на одном сервере, а сайт, в который идёт публикация на другом
  • с помощью FTP протокола. Этот способ подходит для публикации файлов и картинок и когда граббер установлен на том же сервере и тогда, когда он установлен на отличном сервере от того, на котором расположен сайт, в который идёт публикация
Для того, чтобы включить публикацию через FTP протокол требуется в настройках сайта отметить галочку "" и заполнить дополнительные поля: Также, в новой версии системы импорта новостей улучшен обход антилич защиты сайтов от скачивания изображений и исправлены мелкие недочёты и недоработки прошлых версий.

FDE Grabber 6 - возможность ведения публикации файлов и картинок через FTP протокол, читать далее...

FDE Grabber 5.9 - возможность одновременной работы с сайтами в разных часовых поясах

fde grabber
  Дорогие друзья, извещаем о том, что вышла и доступна для покупки/обновления новая версия системы импорта новостей FDE Grabber 5.9 1 - Добавлена полноценная поддержка публикации полученных новостей на сайты в разных часовых поясах В настройках категории источников добавлена опция для выбора часового пояса источника: Также, опция для выбора часового пояса добавлена и в настройках сайта для публикации: Таким образом, вы сможете легко настроить граббер под самые необычные задачи, например когда источник работает в одном часовом поясе, граббер в другом, а сайт, в который идёт публикация в третьем Напоминаем, что выбор часового пояса, который используется для отображения дат в самом граббере указывается в разделе настроек системы: 2 - В настройках категории источников системы импорта новостей добавлена опция, позволяющая включить повышение резкости у картинок, после изменения их размера: 3 - В настройках категории источников граббера добавлена возможность указания произвольного содержимого атрибутов alt и title у картинок: 4 - Исправлены мелкие недочёты и недоработки прошлых версий

FDE Grabber 5.9 - возможность одновременной работы с сайтами в разных часовых поясах, читать далее...

FDE Grabber 5.8 - возможность скачивать прикреплённые к новости файлы

Дорогие друзья, извещаем о том, что доступна для покупки и скачивания новая версия системы импорта новостей FDE Grabber 5.8 Изменения и дополнения:

Возможность изменить права на необходимые файлы и папки из админцентра

В разделе "Утилиты" добавлена возможность исправления неправильно выставленных прав на необходимые файлы и папки:
"Попытаться исправить неправильно выставленные права на нужные файлы и папки"
В том случае, если скрипты системы импорта новостей запускаются от того же пользователя, которым были записаны на сервер файлы и папки граббера, то попытка исправления неправильно выставленных прав на файлы и папки будет успешной, в противном случае вам придётся выставить необходимые права вручную. При тестировании настроек сайта, в случае обнаружения неправильно выставленных прав на необходимые файлы и папки, граббер попытается их исправить.

Возможность скачивания прикреплённых к новостям файлов

В настройках системы импорта новостей добавлено указание списка разрешённых для загрузки на сервер типов файлов: Следует отметить, что в этом списке указывать расширения файлов jpeg, jpg, gif, png не нужно  - их граббер учитывает самостоятельно В настройках категории добавлена опция, включающая скачивание разрешённых типов  файлов на сервер Если её включить, то при необходимости можно также указать дополнительные опции: В том случае, когда ссылки на скачивание файлов не имеют расширений и невозможно заранее определить нужно ли скачивать файл по данной ссылке или нет, например https://test.com/download/3612783, то можно указать дополнительные шаблоны в виде регулярных выражений для распознавания ссылок на скачивание, например: #/download/\d+#i Расширения скачиваемых файлов граббер пробует определить по:
  • непосредственно расширению скачиваемого файла
  • заголовкам, отправляемым сервером
  • кроме того, при указании дополнительного сопоставления ссылок по шаблону можно указать расширение файла, которое будет использоваться, если его никаким другим способом определить не удалось
Для скачивания файлов был создан дополнительный кронтаб crontab_downloads.php, поэтому в разделе ручной крон появилась соответствующая кнопка: При включенной опции скачивания файлов, статья, после того, как будет получено её основное содержимое, не изменит свой статус на "ожидает публикации" до тех пор, пока не будут получены все прикреплённые файлы - только после скачивания последнего прикреплённого файла статью можно будет опубликовать.

Исправлены мелкие недочёты и недоработки прошлых версий

 

FDE Grabber 5.8 - возможность скачивать прикреплённые к новости файлы, читать далее...

FDE Grabber 5.7 - перевод новостей на другие языки

Дорогие друзья, извещаем вас о том, что доступна для покупки и скачивания новая версия системы импорта новостей FDE Grabber 5.7 Новые возможности:

Добавлены хаки для перевода новостей на другие языки:

  • Немецко-русский переводчик [Яндекс.Перевод]
  • Англо-русский переводчик [Яндекс.Перевод]
  • Испанско-русский переводчик [Яндекс.Перевод]
  • Французско-русский переводчик [Яндекс.Перевод]
  • Итальянско-русский переводчик [Яндекс.Перевод]
  • Украинско-русский переводчик [Яндекс.Перевод]
  • Русско-немецкий переводчик [Яндекс.Перевод]
  • Русско-английский переводчик [Яндекс.Перевод]
  • Русско-испанский переводчик [Яндекс.Перевод]
  • Русско-французский переводчик [Яндекс.Перевод]
  • Русско-итальянский переводчик [Яндекс.Перевод]
  • Русско-украинский переводчик [Яндекс.Перевод]
Указанные хаки используют бесплатное на данный момент API компании Yandex: Yandex Translate API. Перед использованием данных хаков необходимо ознакомиться с правилами использования API. В частности, Yandex позволяет переводить текст, в объёме 1 миллион символов в день, включая HTML разметку и пробелы. В граббере встроен счётчик, не допускающий превышение установленного лимита. Для оптимизации и сокращения количества запросов к Yandex Translate API настоятельно рекомендуется использовать хаки для перевода исключительно после основных преобразований контента, и применять одновременно к заголовку, полной и краткой новости: Пример новости без использования переводчика: Пример новости с использованием переводчика: P.S.: Google Translate API уже почти два года является платным решением, поэтому его использование мы даже не рассматривали.

В настройках источника граббера добавлена опция, позволяющая ограничить количество получаемых новостей в указанную единицу времени:

Так, теперь есть возможность указать, что мы желаем получать с определённого источника, например, не более 3 новостей в час.

В настройках сайта, для большего удобства, список доступных CMS теперь группируется по блокам:

FDE Grabber 5.7 - перевод новостей на другие языки, читать далее...

FDE Grabber 5.6 - отбираем только самое лучшее!

Дорогие друзья, извещаем вас о том, что доступна новая версия системы парсинга новостей FDE Grabber 5.6 О том, что было сделано и изменено в новой версии читайте ниже.

Изменён интерфейс редактора простых шаблонов, он стал ещё удобнее:

При настройке категории источников: При настройке источника:

Переписан движок простого парсинга, теперь он позволят полностью забыть о пробелах и переносах строк при составлении простого шаблона, а также предоставляет ряд удобных дополнительных возможностей:

  • Теперь можно использовать новые переменные:
    • {a} - соответствует ненужному, динамически изменяющемуся значению атрибута HTML дескриптора (соответствует регулярному выражению [^<>]*?)
    • {d} - соответствует ненужному, динамически изменяющемуся числу (соответствует регулярному выражению \d+)
  • При указании в шаблоне для простого парсинга переменной, например {description} теперь можно добавлять уточнения того, какой контент должен сохраниться в данную переменную, с помощью регулярных выражений: {переменная[регулярное выражение]}.
    • Пример 1: {description[[a-z\d\s\.]+]} означает, что в description может содержаться только текст, состоящий из латинских символов, цифр, пробельных символов и точки, иначе шаблон не подойдёт.
    • Пример 2: {null[\d+]} - ненужный контент, состоящий из последовательности цифр, аналог {d}
    • Пример 3: {null[[a-z]+]} - ненужный контент, состоящий из последовательности латинских символов (от регистра не зависит)

В настройках категории добавлено указание списка разрешённых хостов в ссылках исходной статьи

Эта важная и удобная функция даёт возможность фильтровать новостные статьи и оставлять только авторские. Принцип её работы заключается в том, что если в новостной статье содержатся ссылки на чужие сайты, то с большой долей вероятности, она не является авторской. Пример: пусть, нам требуется импортировать какие-либо новостные статьи с какого-либо сайта, для определённости его адрес: https://www.test.com/. И нам нужны только авторские новости с этого сайта, а не перепечатанные, то есть в которых не содержатся ссылки на третьи сайты-источники. В большинстве случаев авторские новости могут или вообще не содержать никаких ссылок или содержать ссылки на внутренние статьи, которые расположены в пределах хоста сайта-источника test.com или его поддоменов *.test.com, поэтому в настройках категории для осуществления фильтрации по данному принципу мы указываем список разрешённых хостов в ссылках исходной статьи: test.com, *.test.com Любая статья, содержащая в ссылках чужие хосты не будет сохранена граббером.

В настройках источника теперь можно конкретизировать какие адреса ссылок на статьи нам нужны, с помощью регулярного выражения

Пример: пусть нам требуется распарсить источник, в котором ссылки на статьи имеют вид https://test.com/news/* и https://test.com/articles/*. И нас интересуют только те статьи, адреса которых начинаются с https://test.com/news/, поэтому в настройках источника граббера, мы можем указать соответствующее уточнение, с помощью регулярного выражения: #^https://test\.com/news/#i Все статьи, адрес которых начинается с  https://test.com/news/ граббер сохранит, а остальные, например адрес которых начинается с  https://test.com/articles/ отбросит

В настройках категории источников добавлены новые поля, отвечающие за название сайта источника и за его адрес

Эти поля используются при простановке ссылок в статьях на сайты-источники:

Добавлен новый хак для простановки ссылок на сайт-источник в первом абзаце текста

Некоторые сайты позволяют перепечатку новостей, но при условии указания обратной ссылки, причём не где-либо, а именно не ниже первого абзаца статьи. Новый хак позволяет это сделать. Текст статьи без использования хака: Текст статьи с использованием хака:

FDE Grabber 5.6 - отбираем только самое лучшее!, читать далее...

Разделы сайта

Форум web-разработчиков

Последние записи