• 30Mar

    В данной статье мы постарались уместить полный цикл настройки граббера под импорт новостей с определённого сайта.

    Итак, допустим мы определились с тем, что хотим грабить с сайта http://warezed.ru/

    Что мы должны сделать в самом начале?

    В начале мы должны перейти по одному из адресов полных статей, допустим: http://warezed.ru/news/12604-V_Katare_otkrylsya_21_iy_sammit_LAG.html

    Read more…

    Tags: , , , , , , ,

  • 30Mar

    Для начала нам нужно себе уяснить что такое “пейджер

    Пейджер происходит от английского слова page и означает нумерацию страниц в виде ссылок:

    back  1  2  3  …  100 forward

    Да – пейджер, это просто общее название разбиения на страницы большого списка новостей.

    Очевидно, что каждая страница пейджера является для граббера HTML источником

    Предположим, что адреса страниц в пейджере выглядят примерно так:

    http://fdstar.com/page/1/

    http://fdstar.com/page/2/

    http://fdstar.com/page/3/

    http://fdstar.com/page/100/

    Тогда можно выявить некоторую закономерность и написать шаблон:

    http://fdstar.com/page/{page}/

    Для задействованиея этой функции в парсере новостей FDE Grabber требуется вместо обычного адреса HTML списка новостей указать шаблон вида http://fdstar.com/page/{page}/

    И указать диапазон значений, который будет принимать переменная  {page}. Также можно указать как положительное приращение, так и отрицательное для переменной {page}. В случае положительного приращения обход будет идти так: 1  2  3  … 100. Ну а в случае отрицательного: 100  99  98  …  1

    Tags: , ,

  • 30Mar

    В случае, если Вы используете выделенный сервер (Dedicated Server) или виртуальный выделенный сервер (VDS – Virtual Dedicated Server или VPS – Virtual Private Server), то его можно настроить как угодно под себя, и проблем с запуском системы публикации новостей FDE Grabber быть не может.

    Но вот что делать, если Вы пока не готовы использовать выделенный или виртуальный сервер, но всё-же хотите полноценно работать с граббером?

    - для этого просто нужно подобрать подходящий виртуальный хостинг.

    Мы подготовили небольшой список хостинг-провайдеров, на которых была успешно испытана система парсинга новостей FDE Grabber:

    http://peterhost.ru/

    http://agava.ru/

    http://masterhost.ru/

    данный список будет, со временем пополняться, и вы можете в этом нам помочь :-)

    Tags: , , , ,

  • 30Mar

    Что такое сron

    cron — демон-планировщик задач в UNIX-образных операционных системах, использующийся для периодического выполнения заданий в заданное время.

    Подробнее о нём можно узнать здесь: http://ru.wikipedia.org/wiki/Cron

    В парсере новостей FDE Grabber имеется 3 этапа импорта статей:

    1. кроновский скрипт путь_к_грабберу/crontab_feeds.php определяет один из доступных источников получения статей (RSS/Atom/HTML источник) и обновляет его.
      Если, при этом, имеются новые статьи (уникальность статьи определяется по названию), то статьи будут добавлены в качестве задания для получения
      По мере запуска данного кроновского скрипта, источники обновляются по кругу
      Каждому запуску скрипта соответствует одно обновление одного из доступных источников
    2. кроновский скрипт путь_к_грабберу/crontab_articles.php смотрит на задания для получения статей и получает статью.
      Одному запуску данного скрипта соответствует одно получение статьи
    3. кроновский скрипт путь_к_грабберу/fde_grabber_3/crontab_publicate.php публикует полученные статьи в вашу CMS

    наиболее оптимальными режимами обновления кроновских скриптом системы наполнения сайтов FDE Grabber являются такие:

    crontab_feeds.php – обновляем каждые 5 минут

    crontab_articles.phpобновляем каждые 2 минуты

    crontab_publicate.phpобновляем каждые 4 минуты

    Перед тем, как добавлять задания для запуска кроновских скриптов, нам потребуется выяснить путь к PHP интерпретатору на сервере.

    Узнать этот путь можно несколькими способами:

    1. посмотреть расположение файлов на диске, скорее всего потребуются права администратора сервера
    2. пойти на поклон к хостеру и спросить :-)
    3. если имеется доступ через SSH – выполнить в командной строке: whereis php
    4. выполнить один из следующих скриптов:

    <?php echo `whereis php`; ?>

    <?php echo exec(’whereis php’); ?>

    <?php echo system(’whereis php’); ?>

    Предположим, что мы выяснили путь к PHP интерпретатору на нашем сервере, и он выглядит так: /usr/bin/php

    Тогда, задания для запуска скриптов будут выглядеть так:

    */5 * * * * /usr/bin/php путь_к_грабберу/crontab_feeds.php > /dev/null 2>&1
    */2  * * * * /usr/bin/php
    путь_к_грабберу/crontab_articles.php > /dev/null 2>&1
    */4 * * * * /usr/bin/php
    путь_к_грабберу/crontab_publicate.php > /dev/null 2>&1


    Tags: , , ,

  • 30Mar

    Кроппинг картинок – это просто обрезка картинок, не более.

    Но эта функция в парсере новостей FDE Grabber оказалась как нельзя кстати. Дело в том, что многие люди хотят получить из своего сайта некое подобие новостного портала.

    В новостных сайтах список кратких новостей обычно включает иллюстрации совершенно одинаковых размеров. Пример такого сайта: http://warezed.ru/

    Мы видим, что все картинки обрезаны до определённого размера. Так вот, операция обрезки изображения называется кроппингом.

    И если вы тоже хотите задействовать в своём граббере эту функцию, то следуйте приведённым ниже инструкциям.

    Чтобы включить данную опцию в граббере, нужно перейти в раздел категорий и выбрать интересующую категорию. Среди настроек выбранной категории имеются:

    - разумеется нам придётся сохранять картинки на сервер, поэтому указываем “сохранять картинки на сервер”

    “Что делать с картинками больших размеров”

    -  здесь есть, на самом деле, два варианта для кроппинга. Один из них: “Уменьшать, обрезая до заданных размеров и делать ссылку на большую картинку”, а другой: “Уменьшать физически картинку, обрезая до заданных размеров”

    Также, нам потребуется указать размеры под которые будет производиться обрезка:

    Максимальная ширина картинки и Максимальная высота картинки

    Tags: , ,

  • 30Mar

    Синонимайзер – программа осуществляющая замену слов во введенном тексте на синонимы, находящиеся в базе данных.

    А зачем он нужен?

    Синонимайзер, благодаря заменам слов, делает текст псевдоуникальным

    Хорошо, тогда зачем нужен уникальный контент?
    Неуникальный контент является причиной бана сайта поисковой службой.
    Если сайт полностью состоит из неуникального контента и имеет несколько страниц, рано или поздно сайт попадет в бан поисковых систем. При размещении уникального контента сайт чаще мелькает в результатах поиска поисковых систем, а следовательно посещаемость сайта, также растет.
    Мало того, контент сайта должен быть не только уникальным, но еще и интереным для людей. При размещении интересных материалов на сайте, вы получите естественные внешние сылки на сайт, в результате чего у сайта не только вырастут параметры, но и вырастут позиции в поисковых системах по тематике материалов.

    В системе импорта новостей FDE Grabber имеется раздел “Синонимайзер”. Рассмотрим его.

    Подраздел: Редактирование синонимов

    В данном разделе вы можете редактировать синонимы в базе синонимайзера: добавлять/изменять/удалять

    Подраздел: Редактирование стоп-слов

    В данном разделе вы можете указывать стоп-слова для синонимайзера, такие как “железная дорога”, или, например “белый дом”. Для того, чтобы синонимайзер не заменил случайно “железная дорога” на “металлическая дорога”
    Внимание! Стоп-слов не может быть слишком много.
    Для функционирования работы стоп-слов, синонимайзер подгружает абсолютно все стоп-слова, содержащиеся в базе

    Подраздел: Базы синонимайзера

    В данном разделе вы можете импортировать/экспортировать базы данных для синонимайзера из файла/в файл
    При этом, файл синонимов должен иметь формат:

    слово_для_замены|синоним_1,синоним_2,синоним_3…
    слово_для_замены|синоним_1,синоним_2,синоним_3…
    слово_для_замены|синоним_1,синоним_2,синоним_3…
    слово_для_замены|синоним_1,синоним_2,синоним_3…

    Базовые версии баз данных для синонимайзера можно скачать отсюда:

    http://fdstar.net/download/synonymizer/english_utf8_syn_base_0.1.zip – база английских синонимов
    http://fdstar.net/download/synonymizer/russian_utf8_syn_base_0.1.zip – база русских синонимов

    Для импортирования базы данных синонимайзера, необходимо распаковать архив в директорию на вашем сервере путь_к_грабберу/uploads/synonymizer/import и в разделе импортирования баз для синонимайзера её импортировать.

    Процесс импортирования – довольно ресурсоёмок, и может занять некоторое время.

    Рекомендуется его проводить в то время, когда ваш сервер не сильно загружен, например, в ночное время.

    При импортировании файла базы синонимайзера, необходимо правильно указать кодировку, в которой он записан.

    Базовые версии файлов баз синонимайзера распространяются в кодировке UTF-8

    Подраздел: Тест синонимайзера

    В данном разделе вы можете протестировать работу синонимайзера. Для работы синонимайзера, необходима база синонимов.


    Tags: , ,