FDE Grabber 7.3 - новые возможности при тестировании настроек

Дорогие друзья, извещаем о том, что доступна для покупки, скачивания и тестирования новая версия системы импорта новостей FDE Grabber 7.3 В новой версии мы добавили возможность при тестировании настроек категорий источников, источников (RSS/Atom, а также HTML источников), а также пинге фидов указывать то, через какой прокси-сервер должны проводиться тесты, а также возможность указать, от имени какого сетевого интерфейса или через какой IP адрес требуется провести тот или иной тест: proxy_and_interfaceТаким образом, если нам необходимо удостовериться, что статья получается через тот или иной прокси-сервер и/или IP адрес, то можно указать их явно во время проведения теста, что несомненно должно стать  весьма удобной и полезной функцией. При проведении визуального теста с показом картинок - они также получаются и показываются с учётом указанных настроек, а также с учётом полученных cookie и заголовков, полностью аналогично тому, как это делает обычный браузер. В настройках категорий источников добавлена возможность получения картинки-иллюстрации из метатегов (в случае полного отсутствия картинок в теле новости): images_by_the_metaТак, если в содержимом полученной статьи не найдено ни одной картинки, то при активации данной опции граббер попытается получить картинку-иллюстрацию из метатегов, вида:

<meta property="og:image" content="http://www.com.com/0063_11.jpg" />
<meta property="twitter:image" content="http://www.com.com/0063_11.jpg" />
<link rel="image_src" type="image/jpeg" href="http://www.com.com/0063_1" />
Следует отметить, что граббер и ранее получал картинки из метатегов, но делал это по умолчанию - теперь же это можно включить или отключить. В новой версии исправлено множество недочётов и недоработок прошлых версий, оптимизирован функционал.  

FDE Grabber 7.3 - новые возможности при тестировании настроек, читать далее...

Совместимость FDE Grabber с другими CMS и системами

Дорогие друзья, напоминаем о том, что по нашим правилам, в случае, если требуется доработка системы импорта новостей FDE Grabber до совместимости (возможности ведения публикации) с какими-либо CMS или системами, то, в зависимости от некоторых обстоятельств это может быть осуществлено нами, как на платной, так и на бесплатной основе:

  • Если вы ещё не являетесь нашим клиентом, но желаете им стать, то доработка системы импорта новостей для ведения публикации в какую-либо массовую* CMS или какую-либо другую систему может быть осуществлена нами бесплатно, в  течение 5-10 рабочих дней после приобретения лицензии для FDE Grabber. Заявку на доработку можно подавать заблаговременно до покупки, а также, в течение 5 рабочих дней после покупки.
  • Если вы уже являетесь нашим клиентом или CMS не является массовой*, то доработка осуществляется на платной основе, в среднем, стоимость такой доработки составляет 44 USD.
* Массовость CMS, а также возможность доработки как таковой, определяется и рассматривается нами индивидуально.

Совместимость FDE Grabber с другими CMS и системами, читать далее...

FDE Grabber 5.3 - возможность тестирования регулярных выражений

Дорогие друзья, извещаем вас о том, что доступна для покупки и скачивания новая версия системы импорта новостей FDE Grabber 5.3 Изменения и нововведения:

  • Добавлен модуль для тестирования регулярных выражений. В нём вы можете указать текст, указать какую замену регулярным выражением к нему применить, и посмотреть результат
  • Изменена система обновлений. Для того, чтобы обновиться до последней версии с любой из версий граббера, начиная с версии 4.0 достаточно всего лишь обновить файлы дистрибутива граббера, кроме конфига и запустить файл update.php.
  • В настройках путей граббера теперь можно указывать переменную {root}, которая определяется автоматически и соответствует полному пути к грабберу на  сервере. Так, вам теперь не потребуется узнавать полный путь к грабберу на сервере, чтобы его установить и  настроить
  • Исправлены мелкие недоработки и недочёты прошлых версий
Модуль для тестирования регулярных выражений Для тестирования замен в тексте, с помощью регулярных выражений требуется
  1. указать текст, на котором будем проводить тест, например www.test.ru
  2. указать регулярное выражение, например #test.ru#i
  3. указать замену, на что мы хотим заменить найденные вхождения текста; если  их требуется удалить, то это поле нужно оставить пустым
  4. нажать на кнопку "тестировать"
  5. в поле "" отобразится результат
 

FDE Grabber 5.3 - возможность тестирования регулярных выражений, читать далее...

FDE Grabber на сервере с динамическим IP

Можно ли запускать FDE Grabber на сервере с динамическим IP? - ответ да. В рамках одной лицензии вы вправе запускать FDE Grabber на 10 разных IP, а также с основного домена. Это означает, что если вы привязали к своему серверу с динамическим IP какой-либо домен, то если указать этот домен, как основной в свойствах лицензии на систему импорта новостей, то вы сможете запускать на таком сервере FDE Grabber:

FDE Grabber на сервере с динамическим IP, читать далее...

Настройка DOM шаблонов

Дорогие друзья, хоть мы и выпустили очень полезную и супер удобную возможность парсинга сайтов, с помощью DOM шаблонов, многие пользователи по-прежнему продолжают использовать простые шаблоны. Они тоже удобные и эффективные, но цель данной статьи познакомить вас поближе именно с DOM шаблонами парсинга  статей. Как мы писали ранее, в рамках пресс релиза выхода 4.4 версии парсера сайтов FDE Grabber, DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент. Чтобы иметь возможность смотреть DOM структуру документа статьи мы советуем вам установить бесплатное дополнение к браузеру FireFox - FireBug, для этого заходим через браузер FireFox на сайт https://addons.mozilla.org/ru/firefox/ Проводим поиск плагина, указывая в поисковом запросе "FireBug" https://addons.mozilla.org/ru/firefox/addon/firebug/?src=ss Далее нажимаем на кнопку "Добавитиь в FireFox", добавляем плагин, перезапускаем браузер FireFox и пробуем его в действии. Пусть для примера мы хотим составить DOM шаблон для парсинга страниц сайта http://warezed.ru/. Для этого открываем любую страницу с контентом, например http://warezed.ru/819-Nad-Severnym-morem-vot-vot-vzorvetsya-gaz.html через браузер FireFox, выделяем текст статьи: Вызываем контекстное меню, кликая правой кнопкой мышки по выделенному тексту статьи: В открывшейся панели ищем уникальный родительский элемент, содержащий полный текст статьи: Мы видим, что полезный контент статьи полностью содержится в теге span со стилевым классом news Поэтому мы можем составить наш DOM шаблон как span.news (это очень напоминает описание CSS стилей). Для уверенности в уникальности нашего шаблона  мы можем пойти дальше и составить иерархическую цепочку, замечая, что элемент span.news является дочерним по отношению к элементу div.big-news, поэтому альтернативный DOM шаблон будет выглядеть так: div.big-news span.news (что опять-таки идентично CSS нотации описания стилей). Или даже так: body div.big-news span.news В общем случае иерархическая DOM цепочка узлов может быть неограниченной. В случае, когда стилевой класс указывается через пробел, например для атрибута class=″main left″ в теге div, который является дочерним по отношению к body мы не можем записать шаблон в виде body div.main left, так как интерпретатор граббера будет думать что div.main содержит в себе элемент left, что в корне неверно - для таких случаев нотация должна иметь вид: body>div.main left, то есть в этом случае мы иерархическую последовательность узлов разделяем не пробелами, а через символы ″>″. Вот так, легко и непринуждённо мы можем составлять DOM шаблоны для парсера контента FDE Grabber. Обо всех особенностях их составления не поленитесь и дочитайте статью полностью ;-) Для того, чтобы открыть панель FireBug также можно воспользоваться иконкой так, как показано на скриншоте ниже: Как работает DOM парсинг на примере разбора содержимого статьи:

  • указывается DOM шаблон
  • FDE Grabber преобразует документ в иерархическое  DOM дерево
  • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент
Как выглядит DOM шаблон В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery). Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:
<body>
	<div>
		<table>
			<tr>
				<td>
					<div class=″content″>
полезное содержимое,
которое мы хотим получить
					</div>
				</td>
			</tr>
		</table>
	</div>
</body>
Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body. Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“. Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content” Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555 ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i. width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие). Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон: id {preg} #news\-id\-\d+#is На скриншоте ниже приводится пример настройки граббера FDE Grabber под любой сайт, работающий на CMS DataLife Engine: Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники.

Настройка DOM шаблонов, читать далее...

Вышла новая версия парсера статей FDE Grabber 4.5

Дорогие друзья! С радостью сообщаем о том, что выпущена новая версия системы импорта новостей FDE Grabber 4.5 О том, какие изменения были сделаны в новой версии читайте ниже:

  • добавлена возможность массового изменения настроек категорий источников
  • добавлена возможность массового изменения настроек источников
  • у статей добавлен новый статус "в архиве"
  • добавлена возможность помещать статьи сразу после публикации в архив, а также перемещать их через раздел "статьи"
  • добавлена возможность получения страниц сжатых на стороне сервера (gzip, deflate  и т.д.)
  • улучшена система обхода защит от ботов на некоторых сайтах - теперь граббер в своём поведении ещё больше похож на обычный браузер клиента
  • исправлены мелкие недочёты
Рассмотрим более подробно новые возможности, которые появились в новой версии.

Массовое изменение настроек категорий источников

При просмотре списка записей категорий в граббере имеется возможность выбора определённых категорий для совершения каких-то массовых действий. Так, если отметить галочками нужные нам записи: Мы можем совершить над ними какие-то массовые действия: В списке действий теперь есть возможность массового изменения настроек у выбранных записей. Страница изменения настроек выглядит примерно следующим образом:

Массовое изменение настроек выбранных источников

Изменение настроек источников происходит по полностью аналогичной схеме:

Когда это может понадобиться?

Не секрет, что настройки приходится иногда изменять, например изменился шаблон для парсинга или нужно изменить настройки каких-либо хаков и т.д. При использовании данной возможности массово изменить настройки теперь можно гораздо удобнее, быстрее и комфортнее!

Статус статей "в архиве"

Новый статус призван оптимизировать использование дискового пространства на вашем хостинге. Так, если мы уже опубликовали статью в CMS, то в большинстве случаев хранить её полную копию в граббере (контент, картинки и т.д.) нет смысла, так, как это занимает драгоценное дополнительное дисковое пространство на вашем хостинге. Но и полностью удалять статью нельзя, так как если её удалить, то могут появляться дубли (граббер узнаёт о том получал ли уже данную статью по адресу и заголовку). Так вот, теперь новый статус "статья в архиве"  позволяет экономно расходовать дисковое пространство на вашем хостинге - статья удаляется не полностью, а лишь частично: удаляется её контент и картинки, а нужный нам заголовок и адрес статьи остаются нетронутыми. Следует отметить, что по умолчанию статья при публикации не попадает в архив автоматически. Если вы желаете экономно расходовать дисковое пространство на своём хостинге, то требуется активировать опцию автоматического перемещения опубликованной статьи в архив: Также в архив статьи можно перемещать вручную через раздел "статьи" в граббере Итоги. В целом это ожидаемое обновление и улучшение функционала системы импорта новостей FDE Grabber, обеспечивающее большую гибкость, удобство  и комфорт настройки.

Вышла новая версия парсера статей FDE Grabber 4.5, читать далее...

Работа FDE Grabber на сервере под управлением DirectAdmin

Если Вы владелец выделенного сервера (Dedicated Server) или пользователь виртуального выделенного сервера (VDS - Virtual Dedicated Server) или виртуального персонального сервера (VPS - Virtual Private Server) который работает под управлением панели DirectAdmin, то можете столкнуться с трудностью полноценного запуска системы FDE Grabber, так, как по умолчанию данная система добавляет PHP параметр open_basedir и safemode, в результате чего граббер не будет полноценно обходить редиректы при граббинге и/или сохранять полученные данные. Проблему можно решить зайдя в DirectAdmin-панель в качестве администратора (Admin Level)

Работа FDE Grabber на сервере под управлением DirectAdmin, читать далее...

Работа парсера FDE Grabber на сервере под управлением ISPmanager

Если Вы владелец выделенного сервера (Dedicated Server) или пользователь виртуального выделенного сервера (VDS - Virtual Dedicated Server) или виртуального персонального сервера (VPS - Virtual Private Server) который работает под управлением панели ISPmanager, то можете столкнуться с трудностью полноценного запуска системы FDE Grabber, так, как по умолчанию данная система добавляет домены и включает для них интерпретатор PHP как модуль web-сервера Apache. Проблема в том, что разработчики ISPmanager, при запуске интерпретатора PHP как модуля Apache добавляют PHP параметр open_basedir, в результате чего граббер не будет полноценно обходить редиректы при граббинге. Проблему можно решить в ISPmanager переключением запуска PHP как CGI. При этом, open_basedir будет отключён и система импорта новостей FDE Grabber будет работать полноценно.

Работа парсера FDE Grabber на сервере под управлением ISPmanager, читать далее...

Комфортный рерайт получаемых новостей

:-) В системе импорта новостей при настройке категории имеется возможность указать опцию: Модерация статей перед публикацией если выбрать "ДА", то получаемые статьи граббером будут складываться в Вашу CMS со статусом "требует модерации" и не будут появляться до тех пор на сайте, пока их не включить в админке CMS. При этом можно проводить качественный, причём довольно комфортный рерайт статьи, а потом лиш её публиковать.

Комфортный рерайт получаемых новостей, читать далее...

Разделы сайта

Форум web-разработчиков

Последние записи