Парсер контента FDE Grabber 4.6

Дорогие друзья, уведомляем вас о том, что доступна для скачивания новая версия парсера контента FDE Grabber 4.6 Изменения, которые вошли в новую версию:

  • Добавлена возможность указания замен регулярными выражениями, указания замен текста, указания DOM замен, указания использования хаков (микропрограмм для обработки контента/корректировки верстки и т.д.) до парсинга контента, до его получения. Данная возможность обеспечивает ещё более гибкую настройку парсера сайтов FDE Grabber:
  • При выводе списка хаков в настройках категорий источников хаки теперь группируются в блоки:
  • При работе ручного крона теперь учитывается таймаут, по истечению которого, в случае не ответа сервера происходит перезапуск ручного крона. Это обеспечивает более стабильную работу ручного крона например тогда, когда ваш сервер работает через кеширующий прокси сервер nginx и nginx не дожидаясь ответа кроновского скрипта граббера по таймауту показывает ошибку "504 Gateway Time-out".
  • При просмотре лога событий добавлен фильтр по дате:
  • При просмотре статей добавлен вывод дополнительной информации о категории источников, источнике, адресе источника:
Для того, чтобы обновить парсер контента FDE Grabber требуется зайти на сайт fde-cms.ru или fde-cms.com в раздел лицензий, скачать новую версию и следовать инструкции по обновлению в корне дистрибутива.

Парсер контента FDE Grabber 4.6, читать далее...

Настройка DOM шаблонов

Дорогие друзья, хоть мы и выпустили очень полезную и супер удобную возможность парсинга сайтов, с помощью DOM шаблонов, многие пользователи по-прежнему продолжают использовать простые шаблоны. Они тоже удобные и эффективные, но цель данной статьи познакомить вас поближе именно с DOM шаблонами парсинга  статей. Как мы писали ранее, в рамках пресс релиза выхода 4.4 версии парсера сайтов FDE Grabber, DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент. Чтобы иметь возможность смотреть DOM структуру документа статьи мы советуем вам установить бесплатное дополнение к браузеру FireFox - FireBug, для этого заходим через браузер FireFox на сайт https://addons.mozilla.org/ru/firefox/ Проводим поиск плагина, указывая в поисковом запросе "FireBug" https://addons.mozilla.org/ru/firefox/addon/firebug/?src=ss Далее нажимаем на кнопку "Добавитиь в FireFox", добавляем плагин, перезапускаем браузер FireFox и пробуем его в действии. Пусть для примера мы хотим составить DOM шаблон для парсинга страниц сайта http://warezed.ru/. Для этого открываем любую страницу с контентом, например http://warezed.ru/819-Nad-Severnym-morem-vot-vot-vzorvetsya-gaz.html через браузер FireFox, выделяем текст статьи: Вызываем контекстное меню, кликая правой кнопкой мышки по выделенному тексту статьи: В открывшейся панели ищем уникальный родительский элемент, содержащий полный текст статьи: Мы видим, что полезный контент статьи полностью содержится в теге span со стилевым классом news Поэтому мы можем составить наш DOM шаблон как span.news (это очень напоминает описание CSS стилей). Для уверенности в уникальности нашего шаблона  мы можем пойти дальше и составить иерархическую цепочку, замечая, что элемент span.news является дочерним по отношению к элементу div.big-news, поэтому альтернативный DOM шаблон будет выглядеть так: div.big-news span.news (что опять-таки идентично CSS нотации описания стилей). Или даже так: body div.big-news span.news В общем случае иерархическая DOM цепочка узлов может быть неограниченной. В случае, когда стилевой класс указывается через пробел, например для атрибута class=″main left″ в теге div, который является дочерним по отношению к body мы не можем записать шаблон в виде body div.main left, так как интерпретатор граббера будет думать что div.main содержит в себе элемент left, что в корне неверно - для таких случаев нотация должна иметь вид: body>div.main left, то есть в этом случае мы иерархическую последовательность узлов разделяем не пробелами, а через символы ″>″. Вот так, легко и непринуждённо мы можем составлять DOM шаблоны для парсера контента FDE Grabber. Обо всех особенностях их составления не поленитесь и дочитайте статью полностью ;-) Для того, чтобы открыть панель FireBug также можно воспользоваться иконкой так, как показано на скриншоте ниже: Как работает DOM парсинг на примере разбора содержимого статьи:

  • указывается DOM шаблон
  • FDE Grabber преобразует документ в иерархическое  DOM дерево
  • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент
Как выглядит DOM шаблон В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery). Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:
<body>
	<div>
		<table>
			<tr>
				<td>
					<div class=″content″>
полезное содержимое,
которое мы хотим получить
					</div>
				</td>
			</tr>
		</table>
	</div>
</body>
Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body. Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“. Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content” Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555 ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i. width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие). Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон: id {preg} #news\-id\-\d+#is На скриншоте ниже приводится пример настройки граббера FDE Grabber под любой сайт, работающий на CMS DataLife Engine: Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники.

Настройка DOM шаблонов, читать далее...

Вышла новая версия парсера статей FDE Grabber 4.5

Дорогие друзья! С радостью сообщаем о том, что выпущена новая версия системы импорта новостей FDE Grabber 4.5 О том, какие изменения были сделаны в новой версии читайте ниже:

  • добавлена возможность массового изменения настроек категорий источников
  • добавлена возможность массового изменения настроек источников
  • у статей добавлен новый статус "в архиве"
  • добавлена возможность помещать статьи сразу после публикации в архив, а также перемещать их через раздел "статьи"
  • добавлена возможность получения страниц сжатых на стороне сервера (gzip, deflate  и т.д.)
  • улучшена система обхода защит от ботов на некоторых сайтах - теперь граббер в своём поведении ещё больше похож на обычный браузер клиента
  • исправлены мелкие недочёты
Рассмотрим более подробно новые возможности, которые появились в новой версии.

Массовое изменение настроек категорий источников

При просмотре списка записей категорий в граббере имеется возможность выбора определённых категорий для совершения каких-то массовых действий. Так, если отметить галочками нужные нам записи: Мы можем совершить над ними какие-то массовые действия: В списке действий теперь есть возможность массового изменения настроек у выбранных записей. Страница изменения настроек выглядит примерно следующим образом:

Массовое изменение настроек выбранных источников

Изменение настроек источников происходит по полностью аналогичной схеме:

Когда это может понадобиться?

Не секрет, что настройки приходится иногда изменять, например изменился шаблон для парсинга или нужно изменить настройки каких-либо хаков и т.д. При использовании данной возможности массово изменить настройки теперь можно гораздо удобнее, быстрее и комфортнее!

Статус статей "в архиве"

Новый статус призван оптимизировать использование дискового пространства на вашем хостинге. Так, если мы уже опубликовали статью в CMS, то в большинстве случаев хранить её полную копию в граббере (контент, картинки и т.д.) нет смысла, так, как это занимает драгоценное дополнительное дисковое пространство на вашем хостинге. Но и полностью удалять статью нельзя, так как если её удалить, то могут появляться дубли (граббер узнаёт о том получал ли уже данную статью по адресу и заголовку). Так вот, теперь новый статус "статья в архиве"  позволяет экономно расходовать дисковое пространство на вашем хостинге - статья удаляется не полностью, а лишь частично: удаляется её контент и картинки, а нужный нам заголовок и адрес статьи остаются нетронутыми. Следует отметить, что по умолчанию статья при публикации не попадает в архив автоматически. Если вы желаете экономно расходовать дисковое пространство на своём хостинге, то требуется активировать опцию автоматического перемещения опубликованной статьи в архив: Также в архив статьи можно перемещать вручную через раздел "статьи" в граббере Итоги. В целом это ожидаемое обновление и улучшение функционала системы импорта новостей FDE Grabber, обеспечивающее большую гибкость, удобство  и комфорт настройки.

Вышла новая версия парсера статей FDE Grabber 4.5, читать далее...

Граббинг сайтов без указания шаблонов. Возможно ли такое?

В FDE Grabber 4.4 появилась новая возможность для парсинга сайтов - бесшаблонный граббинг/парсинг. Теперь достаточно поставить галочку и система будет сама искать полезный контент: Как показали тесты, система очень хорошо с этим справляется, и действительно, в большинстве случаев выдаёт ожидаемый результат. Разумеется, как и  прежде можно указывать шаблоны для тонкой профессиональной настройки парсера сайтов FDE Grabber.

Граббинг сайтов без указания шаблонов. Возможно ли такое?, читать далее...

Вышла новая версия FDE Grabber 4.4

Сообщаем о том, что вышла новая версия граббера статей и новостей FDE Grabber 4.4 Можно отметить, что с этой версии в системе импорта новостей FDE Grabber  начинается новая веха в истории развития. Было сделано множество изменений в плане улучшения производительности системы, а также реализовано немало новых идей… Какие изменения и дополнения в новой версии граббера?
  • При настройке категории добавлена возможность указания минимального необходимого количества в статье картинок. Так, в случае когда количество изображений в статье  меньше указанной величины, то статья будет удалена и не будет получена
  • Добавлена возможность бесшаблонного парсинга новостей (статей). Это означает, что теперь в большинстве случаев можно получать полезный контент полного содержимого статьи вообще не составляя никакого шаблона!
  • Появилась возможность DOM парсинга как содержимого статей так и источников.
  • Появилась возможность DOM замен, наряду с обычными заменами и заменами, с помощью регулярных выражений
А теперь непосредственно о самом главном, о DOM парсинге и о преимуществах, которые мы получаем, используя DOM шаблоны DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент. При этом технология DOM парсинга разработана нами самостоятельно, в стенах компании FDSTAR и не основывается ни на каких-либо чужих разработках. Как работает DOM парсинг на примере разбора содержимого статьи:
  • указывается DOM шаблон
  • FDE Grabber преобразует документ в иерархическое  DOM дерево
  • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент
Как выглядит DOM шаблон В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery). Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:
<body>
	<div>
		<table>
			<tr>
				<td>
					<div class="content">
полезное содержимое,
которое мы должны получить
					</div>
				</td>
			</tr>
		</table>
	</div>
</body>
Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body. Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“. Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content” Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555 ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i. width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие). Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон: id {preg} #news\-id\-\d+#is Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники. Итоги Как мы видим, теперь имеется возможность ещё более удобного указания шаблонов для парсинга и время на реализацию новых идей! Посмотреть демо версию системы импорта новостей FDE Grabber можно как и всегда на странице: http://fdegrabber.demo.fdstar.net/ логин: admin пароль: 123456

Вышла новая версия FDE Grabber 4.4, читать далее...

Вышла новая версия системы импорта новостей FDE Grabber 4.3

С радостью сообщаем о том, что вышла новая версия граббера сайтов FDE Grabber 4.3 Об изменениях/дополнениях: 1 - изменена система логирования. Теперь в лог записи попадают не одноязычной фразой, язык которой совпадает с языком интерфейса по умолчанию, а в виде параметров, что даёт возможность при просмотре лога показывать пояснение на текущем языке, выбранном админом 2 - добавлена возможность замен регулярными выражениями, а также обычных замен после основных преобразований контента (когда применять замену указывается при настройке категории) 3 - добавлены два хака для указания ссылки на источник. Можно настроить указание ссылок на источник по своему усмотрению и вкусу, изменив файл хака (хаки обязательно требуется сохранять в кодировке UTF-8) 4 - добавлен новый хак корректировки незакрытых тегов. Работает быстрее чем предыдущий.Поэтому именно он теперь используется в  комплексном хаке "красивый контент" 5 - добавлена возможность предпросмотра статей в списке статей. Просмотр можно осуществлять как в виде HTML так и обычном, добавлена возможность быстрого ajax просмотра при наведении мышки на ссылку "просмотр" Теперь можно купить граббер в полностью автоматическом режиме, оплатив через систему WebMoney Transfer, подробности здесь: http://fde-cms.ru/buy_grabber.html Подробное описание системы импорта новостей FDE Grabber можно найти здесь: http://fdstar.net/fde-grabber.html Как обновить систему на новую версию? – зайти в персональный кабинет на нашем сайте http://fde-cms.com/ или http://fde-cms.ru/ - скачать дистрибутив версии 4.3* - следовать инструкции по обновлению, которая находится в корне дистрибутива (файл “how_to_update_from_4.2_to_4.3.txt”, текст сохранён в кодировке Windows-1251) Были вопросы о том, как это сделать, как скачать дистрибутив - ответ прост:

  • логинимся на сайт http://fde-cms.com/ или http://fde-cms.ru/ (первый на английском языке, второй на русском)
  • заходим в раздел лицензий:   http://fde-cms.ru/do/my_licenses/. Если у вас ещё нет лицензии, то её можно купить на странице http://fde-cms.ru/do/order/ (требуется залогиниться)
  • на странице лицензий находим нужный дистрибутив и нажимаем на ссылку "скачать" (смотрите скриншот ниже). Здесь требуется предостеречь: не нажимайте по несколько раз на эту ссылку - генерация дистрибутива довольно длительный процесс, поэтому требуется дождаться ответа сервера, в случае двойного нажатия сайт вас забанит и придётся писать в службу поддержки для разблокировки

Вышла новая версия системы импорта новостей FDE Grabber 4.3, читать далее...

FDE Grabber 4.2

Дорогие друзья, с радостью вам сообщаем о том, что вышла новая версия граббера: FDE Grabber 4.2 Изменения, которые были сделаны в новой версии и что появилось нового:

  • добавлена возможность указания случайной публикации на один из выбранных сайтов при настройке источника в граббере: теперь вы можете публиковать получаемые новости с определённого источника или на все указанные сайты или случайно на один из указанных
  • при настройке замен регулярными выражениями добавлена возможность указания замены в HTML списках новостей до получения краткой новости (только для html источников). Это даёт возможность более гибкой настройки и парсинга html источников
Как обновить систему на новую версию? – зайти в персональный кабинет на нашем сайте http://fde-cms.com/ или http://fde-cms.ru/ - скачать дистрибутив версии 4.2 - следовать инструкции по обновлению, которая находится в корне дистрибутива (файл "how_to_update_from_4.1_to_4.2.txt")

FDE Grabber 4.2, читать далее...

Новогодняя акция

Стартовала новогодняя акция

Стоимость одной лицензии составляет всего $88.8
 
Только в период с 25 декабря 2011 года по 7 января 2012 года (включительно) стоимость одной лицензии системы импорта новостей FDE Grabber составляет всего 55.5 USD
Все, кто ещё не успел приобрести систему смогут это сделать с почти 30% скидкой:
старая стоимость: $88.8
новая (в период действия акции): $55.5

Новогодняя акция, читать далее...

Новая версия системы импорта новостей FDE Grabber 4.1

Дорогие друзья, с радостью вам сообщаем о том, что вышла новая версия граббера: FDE Grabber 4.1

Какие изменения были сделаны в новой версии, что появилось нового?

- полностью изменена работа с датами получаемых новостей. Теперь вы можете настраивать дату публикуемой новости так, как этого требует ваш ресурс:
доступны несколько вариантов простановки дат:
a) из источника
б) дата, на момент граббинга источника
в) дата, на момент граббинга статьи
д) дата, на момент публикации

- изменён механизм флуктуации дат статей. Теперь вы можете устанавливать флуктуации на уровне настройки категории источников. Доступна установка параметра начального значения флуктуации дат (в секундах) и конечного, допускаются как положительные, так и отрицательные значения

- добавлен параметр фиксированного смещения даты (в секундах), который может установиться, также на уровне настройки категории источника

- JavaScript библиотека подсказок заменена на встроенный в jquery механизм

- теперь вы можете получать новости о нашей системе непосредственно находясь в админ центре граббера

- система теперь отображает актуальность версии и необходимость обновления

Как обновиться?

- зайти в персональный кабинет на нашем сайте http://fde-cms.com/ или http://fde-cms.ru/
- скачать дистрибутив
- следовать инструкции по обновлению, которая находится в корне дистрибутива

Новая версия системы импорта новостей FDE Grabber 4.1, читать далее...

FDE Grabber 4 уже доступен

FDE Grabber 4.0
Дорогие друзья,  с  радостью сообщаем о том, что доступна для тестирования на нашем демо сайте (логин admin; пароль 123456) и покупки новая версия системы импорта новостей (граббер, парсер) FDE Grabber 4.0 Из нововведений, которые коснулись версии, кратко, нужно отметить следующие:
  • полнофункциональная мультисайтовость: публикация доступна из одного источника на неограниченное число сайтов (которые добавляются через админцентр) , работающих на любой из поддерживаемых CMS. Это означает, что мы не только ввели в новой  версии мультисайтовость, но и отказались от привязок лицензий системы к CMS - теперь вы можете работать с любой поддерживаемой CMS в рамках одной лицензии!
  • Однако, было введено ограничение запуска одной лицензии с 10 IP адресов *
  • Чтобы компенсировать ограничение запуска с 10 IP адресов, мы пошли навстречу клиентам, постарались и сделали возможность удалённой публикации - это означает, что теперь вы сможете установить систему импорта новостей, например на локальный компьютер, и публиковать полученные статьи на неограниченное число своих сайтов, работающих на любом хостинге, где есть PHP. Локальная публикация, также, осталась  и доступна.
  • Полностью проведён редизайн и ребрендинг системы - это хорошо заметно тем, кто видел нашу систему раньше - она была серой и безликой
  • Настройка всех параметров вынесена в админцентр
  • Добавлено переключение языков админцентра FDE Grabber, в данный момент доступны русский, английский и украинский языки
  • Ну и, конечно же, множество других вкусностей... ;-)
* список 10 IP адресов, с которых разрешён запуск граббера FDE Grabber можно отредактировать в любой момент, по своему усмотрению в личном кабинете, на нашем сайте

FDE Grabber 4 уже доступен, читать далее...

Новая версия FDE Grabber 4.0

Уважаемые клиенты. Рады сообщить, что подходит к завершению работа над новой системой лицензирования системы импорта статей FDE Grabber, которая вступит в силу с новой версии FDE Grabber 4.0 Поэтому, в ближайшее время вы сможете приобрести/обновиться до версии FDE Grabber 4.0 Новая система лицензирования предусматривает проверку лицензий через наш сервер, а также ограничение на запуск системы импорта новостей с 10 IP адресов в рамках одной лицензии. Список IP адресов вы сможете скорректировать в личном кабинете на нашем сайте; Ограничений на запуск по доменам по прежнему не будет

Новая версия FDE Grabber 4.0, читать далее...

Зависимость от опции open_basedir в прошлом

Система импорта новостей FDE Grabber теперь может полноценно обходить редиректы даже при включенной в настройках интерпретатора PHP опции open_basedir. Суть заключается в том, что теперь граббер при получении контента проверяет код http заголовка и при наличии редиректов обходит их сам, не прибегая к CURL опции CURLOPT_FOLLOWLOCATION Примечательно, что нам удалось сделать обход редиректов при включенной опции open_basedir не только при получении контента, но и картинок

Зависимость от опции open_basedir в прошлом, читать далее...

Разделы сайта

Форум web-разработчиков

Последние записи