• 17Май

    Бывает, что необходимо поставить граббер на сервер, отличный от того, на котором находится сайт, куда требуется публиковать получаемые граббером статьи. Причины могут быть разные — желание централизовать управление наполнением сайтов, разгрузка ресурсов сервера, на котором находится сайт и т.д.

    В FDE Grabber публикацию полученных статей можно осуществлять как локальную так и удалённую.

    Локальная публикация — это такой режим работы граббера, когда он установлен на том же сервере, что и сайт, в который требуется публиковать полученные статьи.

    Удалённая публикация — это такой режим работы граббера, когда он установлен на другом сервере, отличном от того, на котором работает сайт, в который требуется публиковать полученные статьи.

    Если в случае локальной публикации всё понятно — ставится граббер рядом с сайтом, который требуется наполнять и поехали, то в случае удалённой публикации могут возникнуть вопросы.

    Для осуществления удалённой публикации нам потребуется при настройке сайта (в разделе граббера «сайты») отметить опцию «Удалённая публикация» и заполнить поле «URL транзитного файла».

    URL транзитного файла — это адрес транзитного файла копии граббера, которую потребуется установить на тот же сервер, где находится ваш сайт.

    Так, если ваш сайт, например, находится по адресу http://test.com/ и вы установили транзитную копию граббера в директорию fde, так, что URL граббера получился http://test.com/fde/. Тогда URL транзитного файла будет выглядеть так: http://test.com/fde/transit_publication.php

    Транзитную копию граббера не обязательно устанавливать полностью, запуская инсталлятор install.php. Если копия граббера будет использоваться только в транзитных целях, то достаточно отредактировать его конфигурационный файл /путь_к_корню_папки_системы_импорта_новостей_на_сервере/config/dynamic.php следующим образом:

    ‘FILES_DIR’ => ‘/путь_к_грабберу_на_сервере/uploads/files/’,
    ‘TMP_DIR’ => ‘/путь_к_грабберу_на_сервере/uploads/tmp/’,

    указав реальные пути и проставив на соответствующие папки права на запись.

    Больше ничем удалённая публикация не отличается от локальной — все остальные параметры сайта указываются так, как если бы граббер осуществлял локальную публикацию.

    Метки: ,

  • 07Май

    Можно ли запускать FDE Grabber на сервере с динамическим IP?

    - ответ да.

    В рамках одной лицензии вы вправе запускать FDE Grabber на 10 разных IP, а также с основного домена. Это означает, что если вы привязали к своему серверу с динамическим IP какой-либо домен, то если указать этот домен, как основной в свойствах лицензии на систему импорта новостей, то вы сможете запускать на таком сервере FDE Grabber:

    Метки:

  • 03Май

    Дорогие друзья, уведомляем вас о том, что вышла новая версия системы импорта новостей FDE Grabber 4.7

    Новые возможности:

    • Добавлен модуль редактирования языковых файлов системы импорта новостей (о том как им пользоваться и зачем он вообще нужен читайте ниже)
    • Добавлен новый хак обхода редиректов (перенаправлений) в ссылках. Так, например, если в контенте существует ссылка, вида http://site.ru/?id=23123217, при переходе через которую вы перенаправляетесь например на страницу http://fdstar.net/,  то при активации хака система перейдёт по ссылке и заменит адрес на конечный результат: http://fdstar.net/ вместо того, который был вначале (http://site.ru/?id=23123217). Данный хак работает только с редиректами, отправляемыми через HTTP заголовки — если сайт использует другой тип перенаправления, например через метатег или с помощью javascript, то его использование не поможет.
    • Теперь при работе удалённой публикации файлы во временной папке на удалённом сервере не накапливаются, а сразу удаляются.
    • Добавлена поддержка нового типа движка DataLife Engine 9.6, (после выхода новой версии DLE старый файл публикации больше не подходит).

    Что такое модуль для редактирования языковых файлов граббера

    Данный модуль нужен для коррекции возможных ошибок и недочётов в подписях и текстах FDE Grabber, а также как средство удобного перевода системы на другие языки.

    Если вы хотите помочь развитию системы, перевёв её на новый язык, то данный модуль поможет это сделать.

    Языковые файлы граббера находятся в папке languages. Под каждый поддерживаемый язык выделена отдельная подпапка, так например для русского языка выделена директория languages/russian, а для английского languages/english.

    При работе с модулем редактирования языковых файлов требуется проставить права на запись (например 0777) как на сами языковые папки, так и на их содержимое — языковые файлы.

    При создании нового языка требуется создать внутри папки languages новую директорию, в которой будут храниться языковые файлы нового языка. Например для украинского языка мы можем создать пустую папку languages/ukranian и выставить на неё права на запись, после чего воспользоваться модулем редактирования и переводов.

    Как пользоваться модулем редактирования и переводов языковых файлов системы импорта новостей FDE Grabber

    Для того, чтобы отредактировать какой либо язык или языки требуется зайти на главную страницу модуля, выбрать требуемый язык, при необходимости добавить для редактирования дополнительный язык, воспользовавшись кнопками «+» и «-».

    После чего нажать на кнопку «применить«.

    Для редактирования какого либо файла требуется перейти, кликнув по соответствующей ссылке:

    После проведения перевода или редактирования сохранить результат, нажав на кнопку «изменить«:

    Для того, чтобы увидеть свой перевод среди списка возможных для выбора языков:

    Потребуется очистить папку граббера «cache«, сделав это или напрямую через файловую систему или с помощью функции «очистки кеша» в разделе «утилиты» граббера. Перед тем как это сделать убедитесь в том, что переведены все языковые файлы граббера иначе вы можете увидеть сообщения об ошибках.

     

    Метки:

  • 06Апр

    Дорогие друзья, уведомляем вас о том, что доступна для скачивания новая версия парсера контента FDE Grabber 4.6

    Изменения, которые вошли в новую версию:

    • Добавлена возможность указания замен регулярными выражениями, указания замен текста, указания DOM замен, указания использования хаков (микропрограмм для обработки контента/корректировки верстки и т.д.) до парсинга контента, до его получения. Данная возможность обеспечивает ещё более гибкую настройку парсера сайтов FDE Grabber:
    • При выводе списка хаков в настройках категорий источников хаки теперь группируются в блоки:
    • При работе ручного крона теперь учитывается таймаут, по истечению которого, в случае не ответа сервера происходит перезапуск ручного крона. Это обеспечивает более стабильную работу ручного крона например тогда, когда ваш сервер работает через кеширующий прокси сервер nginx и nginx не дожидаясь ответа кроновского скрипта граббера по таймауту показывает ошибку «504 Gateway Time-out».
    • При просмотре лога событий добавлен фильтр по дате:
    • При просмотре статей добавлен вывод дополнительной информации о категории источников, источнике, адресе источника:

    Для того, чтобы обновить парсер контента FDE Grabber требуется зайти на сайт fde-cms.ru или fde-cms.com в раздел лицензий, скачать новую версию и следовать инструкции по обновлению в корне дистрибутива.

    Метки: , ,

  • 03Апр

    Дорогие друзья, хоть мы и выпустили очень полезную и супер удобную возможность парсинга сайтов, с помощью DOM шаблонов, многие пользователи по-прежнему продолжают использовать простые шаблоны. Они тоже удобные и эффективные, но цель данной статьи познакомить вас поближе именно с DOM шаблонами парсинга  статей.

    Как мы писали ранее, в рамках пресс релиза выхода 4.4 версии парсера сайтов FDE Grabber, DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент.

    Чтобы иметь возможность смотреть DOM структуру документа статьи мы советуем вам установить бесплатное дополнение к браузеру FireFox — FireBug, для этого заходим через браузер FireFox на сайт https://addons.mozilla.org/ru/firefox/

    Проводим поиск плагина, указывая в поисковом запросе «FireBug» https://addons.mozilla.org/ru/firefox/addon/firebug/?src=ss

    Далее нажимаем на кнопку «Добавитиь в FireFox», добавляем плагин, перезапускаем браузер FireFox и пробуем его в действии.

    Пусть для примера мы хотим составить DOM шаблон для парсинга страниц сайта http://warezed.ru/. Для этого открываем любую страницу с контентом, например http://warezed.ru/819-Nad-Severnym-morem-vot-vot-vzorvetsya-gaz.html через браузер FireFox, выделяем текст статьи:

    Вызываем контекстное меню, кликая правой кнопкой мышки по выделенному тексту статьи:

    В открывшейся панели ищем уникальный родительский элемент, содержащий полный текст статьи:

    Мы видим, что полезный контент статьи полностью содержится в теге span со стилевым классом news

    Поэтому мы можем составить наш DOM шаблон как span.news (это очень напоминает описание CSS стилей). Для уверенности в уникальности нашего шаблона  мы можем пойти дальше и составить иерархическую цепочку, замечая, что элемент span.news является дочерним по отношению к элементу div.big-news, поэтому альтернативный DOM шаблон будет выглядеть так: div.big-news span.news (что опять-таки идентично CSS нотации описания стилей). Или даже так: body div.big-news span.news

    В общем случае иерархическая DOM цепочка узлов может быть неограниченной.

    В случае, когда стилевой класс указывается через пробел, например для атрибута class=″main left″ в теге div, который является дочерним по отношению к body мы не можем записать шаблон в виде body div.main left, так как интерпретатор граббера будет думать что div.main содержит в себе элемент left, что в корне неверно — для таких случаев нотация должна иметь вид: body>div.main left, то есть в этом случае мы иерархическую последовательность узлов разделяем не пробелами, а через символы ″>″.

    Вот так, легко и непринуждённо мы можем составлять DOM шаблоны для парсера контента FDE Grabber. Обо всех особенностях их составления не поленитесь и дочитайте статью полностью ;-)

    Для того, чтобы открыть панель FireBug также можно воспользоваться иконкой так, как показано на скриншоте ниже:

    Как работает DOM парсинг на примере разбора содержимого статьи:

    • указывается DOM шаблон
    • FDE Grabber преобразует документ в иерархическое  DOM дерево
    • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент

    Как выглядит DOM шаблон

    В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery).

    Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:

    <body>
    	<div>
    		<table>
    			<tr>
    				<td>
    					<div class=″content″>
    полезное содержимое,
    которое мы хотим получить
    					</div>
    				</td>
    			</tr>
    		</table>
    	</div>
    </body>

    Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content

    Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body.
    Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“.
    Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content

    Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555

    ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов

    Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i.
    width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие).

    Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон:

    id {preg} #news\-id\-\d+#is

    На скриншоте ниже приводится пример настройки граббера FDE Grabber под любой сайт, работающий на CMS DataLife Engine:

    Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники.

    Метки: ,

  • 12Мар

    Дорогие друзья!

    С радостью сообщаем о том, что выпущена новая версия системы импорта новостей FDE Grabber 4.5

    О том, какие изменения были сделаны в новой версии читайте ниже:

    • добавлена возможность массового изменения настроек категорий источников
    • добавлена возможность массового изменения настроек источников
    • у статей добавлен новый статус «в архиве»
    • добавлена возможность помещать статьи сразу после публикации в архив, а также перемещать их через раздел «статьи»
    • добавлена возможность получения страниц сжатых на стороне сервера (gzip, deflate  и т.д.)
    • улучшена система обхода защит от ботов на некоторых сайтах — теперь граббер в своём поведении ещё больше похож на обычный браузер клиента
    • исправлены мелкие недочёты

    Рассмотрим более подробно новые возможности, которые появились в новой версии.

    Массовое изменение настроек категорий источников

    При просмотре списка записей категорий в граббере имеется возможность выбора определённых категорий для совершения каких-то массовых действий. Так, если отметить галочками нужные нам записи:

    Мы можем совершить над ними какие-то массовые действия:

    В списке действий теперь есть возможность массового изменения настроек у выбранных записей. Страница изменения настроек выглядит примерно следующим образом:

    Массовое изменение настроек выбранных источников

    Изменение настроек источников происходит по полностью аналогичной схеме:

    Когда это может понадобиться?

    Не секрет, что настройки приходится иногда изменять, например изменился шаблон для парсинга или нужно изменить настройки каких-либо хаков и т.д.

    При использовании данной возможности массово изменить настройки теперь можно гораздо удобнее, быстрее и комфортнее!

    Статус статей «в архиве»

    Новый статус призван оптимизировать использование дискового пространства на вашем хостинге. Так, если мы уже опубликовали статью в CMS, то в большинстве случаев хранить её полную копию в граббере (контент, картинки и т.д.) нет смысла, так, как это занимает драгоценное дополнительное дисковое пространство на вашем хостинге. Но и полностью удалять статью нельзя, так как если её удалить, то могут появляться дубли (граббер узнаёт о том получал ли уже данную статью по адресу и заголовку). Так вот, теперь новый статус «статья в архиве»  позволяет экономно расходовать дисковое пространство на вашем хостинге — статья удаляется не полностью, а лишь частично: удаляется её контент и картинки, а нужный нам заголовок и адрес статьи остаются нетронутыми.

    Следует отметить, что по умолчанию статья при публикации не попадает в архив автоматически. Если вы желаете экономно расходовать дисковое пространство на своём хостинге, то требуется активировать опцию автоматического перемещения опубликованной статьи в архив:

    Также в архив статьи можно перемещать вручную через раздел «статьи» в граббере

    Итоги. В целом это ожидаемое обновление и улучшение функционала системы импорта новостей FDE Grabber, обеспечивающее большую гибкость, удобство  и комфорт настройки.

    Метки: ,

  • 15Фев

    В FDE Grabber 4.4 появилась новая возможность для парсинга сайтовбесшаблонный граббинг/парсинг. Теперь достаточно поставить галочку и система будет сама искать полезный контент:

    Как показали тесты, система очень хорошо с этим справляется, и действительно, в большинстве случаев выдаёт ожидаемый результат.

    Разумеется, как и  прежде можно указывать шаблоны для тонкой профессиональной настройки парсера сайтов FDE Grabber.

    Метки: ,

  • 15Фев

    Сообщаем о том, что вышла новая версия граббера статей и новостей FDE Grabber 4.4

    Можно отметить, что с этой версии в системе импорта новостей FDE Grabber  начинается новая веха в истории развития. Было сделано множество изменений в плане улучшения производительности системы, а также реализовано немало новых идей…

    Какие изменения и дополнения в новой версии граббера?

    • При настройке категории добавлена возможность указания минимального необходимого количества в статье картинок. Так, в случае когда количество изображений в статье  меньше указанной величины, то статья будет удалена и не будет получена
    • Добавлена возможность бесшаблонного парсинга новостей (статей). Это означает, что теперь в большинстве случаев можно получать полезный контент полного содержимого статьи вообще не составляя никакого шаблона!
    • Появилась возможность DOM парсинга как содержимого статей так и источников.
    • Появилась возможность DOM замен, наряду с обычными заменами и заменами, с помощью регулярных выражений

    А теперь непосредственно о самом главном, о DOM парсинге и о преимуществах, которые мы получаем, используя DOM шаблоны

    DOM – это аббревиатура от английскогоDocument Object Model”, что переводится на русский, как “Объектная Модель Документа”. Любой документ известной структуры с помощью DOM может быть представлен в виде дерева узлов, каждый узел которого представляет собой элемент, атрибут, текстовый, графический или любой другой объект. Узлы связаны между собой отношениями “родительский-дочерний”. Иными словами, система импорта новостей FDE Grabber теперь умеет построить из HTML кода документа иерархическое DOM дерево, состоящее из узлов, связанных между собой отношениями родитель-дочерний элемент. При этом технология DOM парсинга разработана нами самостоятельно, в стенах компании FDSTAR и не основывается ни на каких-либо чужих разработках.

    Как работает DOM парсинг на примере разбора содержимого статьи:

    • указывается DOM шаблон
    • FDE Grabber преобразует документ в иерархическое  DOM дерево
    • начинается поиск по указанному DOM шаблону необходимого нам элемента  и в случае его нахождения мы получим полезный контент

    Как выглядит DOM шаблон

    В DOM шаблоне указываются DOM элементы (узлы)  в виде иерархической последовательности (как и в CSS стилях или, например jquery).

    Рассмотрим пример. Пусть, полезный контент содержится в документе, который выглядит следующим образом:

    <body>
    	<div>
    		<table>
    			<tr>
    				<td>
    					<div class="content">
    полезное содержимое,
    которое мы должны получить
    					</div>
    				</td>
    			</tr>
    		</table>
    	</div>
    </body>

    Тогда мы можем выстроить некоторый шаблон, который будет выглядеть, например так: body div table div.content

    Последовательность body div table div.content означает, что мы ищем элемент div со стилевым классом “content“, который является дочерним по отношению к table, а table в свою очередь дочерним, по отношению к div, а div к body.
    Допускается указание идентификаторов, в виде div#id, где div - это элемент с идентификатором “id“.
    Кроме того, допускается указание любой общности элементов в виде “*”. Конструкция вида *.content означает любой элемент со стилевым классом “content

    Ну хорошо, скажете вы, но это не позволяет распознать контент в большинстве сайтов, работающих на популярном движке DLE. Контент там находится, обычно в блочных элементах с уникальным идентификатором, вида news-id-555555

    ДА! Именно поэтому мы сделали возможность указания дополнительного сопоставления атрибутов

    Например, id {preg} #content_\d+#i – это сопоставление значения атрибута id с указанным регулярным выражением #content_\d+#i.
    width {like} 100 – это сопоставление значения атрибута width со строковым значением “100” (не регулярное выражениие).

    Как несложно догадаться, для всех сайтов, работающих на DLE унас будет всего один универсальный шаблон:

    id {preg} #news\-id\-\d+#is

    Кроме поиска, по такой же схеме мы сделали возможность указания DOM замен. При этом можно заменить любой DOM элемент на указанную замену. Парсить с помощью DOM шаблонов в FDE Grabber можно не только полное содержимое статей, но и источники.

    Итоги

    Как мы видим, теперь имеется возможность ещё более удобного указания шаблонов для парсинга и время на реализацию новых идей!

    Посмотреть демо версию системы импорта новостей FDE Grabber можно как и всегда на странице:

    http://fdegrabber.demo.fdstar.net/

    логин: admin
    пароль: 123456

    Метки: , , ,

  • 27Янв

    С радостью сообщаем о том, что вышла новая версия граббера сайтов FDE Grabber 4.3

    Об изменениях/дополнениях:

    1 — изменена система логирования. Теперь в лог записи попадают не одноязычной фразой, язык которой совпадает с языком интерфейса по умолчанию, а в виде параметров, что даёт возможность
    при просмотре лога показывать пояснение на текущем языке, выбранном админом

    2 — добавлена возможность замен регулярными выражениями, а также обычных замен после основных преобразований контента (когда применять замену указывается при настройке категории)

    3 — добавлены два хака для указания ссылки на источник. Можно настроить указание ссылок на источник по своему усмотрению и вкусу, изменив файл хака (хаки обязательно требуется сохранять в кодировке UTF-8)

    4 — добавлен новый хак корректировки незакрытых тегов. Работает быстрее чем предыдущий.Поэтому именно он теперь используется в  комплексном хаке «красивый контент»

    5 — добавлена возможность предпросмотра статей в списке статей. Просмотр можно осуществлять как в виде HTML так и обычном, добавлена возможность быстрого
    ajax просмотра при наведении мышки на ссылку «просмотр»

    Теперь можно купить граббер в полностью автоматическом режиме, оплатив через систему WebMoney Transfer, подробности здесь: http://fde-cms.ru/buy_grabber.html

    Подробное описание системы импорта новостей FDE Grabber можно найти здесь: http://fdstar.net/fde-grabber.html

    Как обновить систему на новую версию?

    – зайти в персональный кабинет на нашем сайте http://fde-cms.com/ или http://fde-cms.ru/
    - скачать дистрибутив версии 4.3*
    - следовать инструкции по обновлению, которая находится в корне дистрибутива (файл “how_to_update_from_4.2_to_4.3.txt”, текст сохранён в кодировке Windows-1251)

    Были вопросы о том, как это сделать, как скачать дистрибутив — ответ прост:

    • логинимся на сайт http://fde-cms.com/ или http://fde-cms.ru/ (первый на английском языке, второй на русском)
    • заходим в раздел лицензий:   http://fde-cms.ru/do/my_licenses/. Если у вас ещё нет лицензии, то её можно купить на странице http://fde-cms.ru/do/order/ (требуется залогиниться)
    • на странице лицензий находим нужный дистрибутив и нажимаем на ссылку «скачать» (смотрите скриншот ниже). Здесь требуется предостеречь: не нажимайте по несколько раз на эту ссылку — генерация дистрибутива довольно длительный процесс, поэтому требуется дождаться ответа сервера, в случае двойного нажатия сайт вас забанит и придётся писать в службу поддержки для разблокировки

    Метки: , ,

  • 26Дек

    Дорогие друзья, с радостью вам сообщаем о том, что вышла новая версия граббера: FDE Grabber 4.2

    Изменения, которые были сделаны в новой версии и что появилось нового:

    • добавлена возможность указания случайной публикации на один из выбранных сайтов при настройке источника в граббере: теперь вы можете публиковать получаемые новости с определённого источника или на все указанные сайты или случайно на один из указанных
    • при настройке замен регулярными выражениями добавлена возможность указания замены в HTML списках новостей до получения краткой новости (только для html источников). Это даёт возможность более гибкой настройки и парсинга html источников

    Как обновить систему на новую версию?

    – зайти в персональный кабинет на нашем сайте http://fde-cms.com/ или http://fde-cms.ru/
    - скачать дистрибутив версии 4.2
    - следовать инструкции по обновлению, которая находится в корне дистрибутива (файл «how_to_update_from_4.1_to_4.2.txt»)

    Метки: , , ,

страница 1 из 3123