<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>FDE Grabber</title>
	<atom:link href="http://fde-grabber.ru/?feed=rss2" rel="self" type="application/rss+xml" />
	<link>http://fde-grabber.ru</link>
	<description>Импорт новостей</description>
	<lastBuildDate>Tue, 06 Apr 2010 10:17:40 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>Новая версия  FDE Grabber 4.0</title>
		<link>http://fde-grabber.ru/?p=69</link>
		<comments>http://fde-grabber.ru/?p=69#comments</comments>
		<pubDate>Tue, 06 Apr 2010 10:17:40 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Новости]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=69</guid>
		<description><![CDATA[Уважаемые клиенты. Рады сообщить, что подходит к завершению работа над новой системой лицензирования системы импорта статей FDE Grabber, которая вступит в силу с новой версии FDE Grabber 4.0 Поэтому, в ближайшее время вы сможете приобрести/обновиться до версии FDE Grabber 4.0 Новая система лицензирования предусматривает проверку лицензий через наш сервер, а также ограничение на запуск системы [...]]]></description>
			<content:encoded><![CDATA[<p>Уважаемые клиенты.</p>
<p>Рады сообщить, что подходит к завершению работа  над новой системой лицензирования системы импорта статей FDE Grabber, которая вступит в силу с  новой версии FDE Grabber 4.0</p>
<p>Поэтому, в ближайшее время вы сможете  приобрести/обновиться до версии FDE Grabber 4.0</p>
<p>Новая система  лицензирования предусматривает проверку лицензий через наш сервер, а  также ограничение на запуск системы импорта новостей с 10 IP адресов в  рамках одной лицензии. Список IP адресов вы сможете скорректировать в личном  кабинете на нашем сайте; Ограничений на запуск по доменам по прежнему  не будет</p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=69</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Зависимость от опции open_basedir в прошлом</title>
		<link>http://fde-grabber.ru/?p=62</link>
		<comments>http://fde-grabber.ru/?p=62#comments</comments>
		<pubDate>Thu, 06 Aug 2009 19:42:20 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Новости]]></category>
		<category><![CDATA[обход редиректов]]></category>
		<category><![CDATA[парсер контента]]></category>
		<category><![CDATA[парсер статей]]></category>
		<category><![CDATA[редиректы]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=62</guid>
		<description><![CDATA[Система импорта новостей FDE Grabber теперь может полноценно обходить редиректы даже при включенной в настройках интерпретатора PHP опции open_basedir. Суть заключается в том, что теперь граббер при получении контента проверяет код http заголовка и при наличии редиректов обходит их сам, не прибегая к CURL опции CURLOPT_FOLLOWLOCATION Примечательно, что нам удалось сделать обход редиректов при включенной [...]]]></description>
			<content:encoded><![CDATA[<p>Система импорта новостей FDE Grabber теперь может полноценно обходить редиректы даже при включенной в настройках интерпретатора PHP опции open_basedir.</p>
<p>Суть заключается в том, что теперь граббер при получении контента проверяет код http заголовка и при наличии редиректов обходит их сам, не прибегая к CURL опции CURLOPT_FOLLOWLOCATION</p>
<p>Примечательно, что нам удалось сделать обход редиректов при включенной опции open_basedir не только при получении контента, но и картинок</p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=62</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Работа FDE Grabber на сервере под управлением DirectAdmin</title>
		<link>http://fde-grabber.ru/?p=50</link>
		<comments>http://fde-grabber.ru/?p=50#comments</comments>
		<pubDate>Thu, 02 Apr 2009 04:20:08 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Советы]]></category>
		<category><![CDATA[DirectAdmin]]></category>
		<category><![CDATA[FDE Grabber]]></category>
		<category><![CDATA[open_basedir]]></category>
		<category><![CDATA[safemode]]></category>
		<category><![CDATA[парсер]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=50</guid>
		<description><![CDATA[Если Вы владелец выделенного сервера (Dedicated Server) или пользователь виртуального выделенного сервера (VDS &#8211; Virtual Dedicated Server) или виртуального персонального сервера (VPS &#8211; Virtual Private Server) который работает под управлением панели DirectAdmin, то можете столкнуться с трудностью полноценного запуска системы FDE Grabber, так, как по умолчанию данная система добавляет PHP параметр open_basedir и safemode, в [...]]]></description>
			<content:encoded><![CDATA[<p>Если Вы владелец выделенного сервера (Dedicated Server) или пользователь виртуального выделенного сервера (VDS &#8211; Virtual Dedicated Server) или виртуального персонального сервера (VPS &#8211; Virtual Private Server) который работает под управлением панели DirectAdmin, то можете столкнуться с трудностью полноценного запуска системы FDE Grabber, так, как по умолчанию данная система добавляет PHP параметр open_basedir и safemode, в результате чего граббер не будет полноценно обходить редиректы при граббинге и/или сохранять полученные данные.</p>
<p>Проблему можно решить  зайдя в DirectAdmin-панель в качестве администратора (Admin Level)</p>
<p><span id="more-50"></span></p>
<div style="text-align: center;"><a onclick="window.open('/fde/datas/2009/01/28/1233158960/php_safemode.jpg','newimagewindow');return false;" href="http://fdstar.net/fde/datas/2009/01/28/1233158960/php_safemode.jpg" target="_blank"><img title="Отключаем safemode и open_basedir в DirectAdmin (Отключаем safemode и open_basedir)" src="http://fdstar.net/fde/datas/2009/01/28/1233158960/fdethumb_php_safemode.jpg" border="0" alt="Отключаем safemode и open_basedir в DirectAdmin (Отключаем safemode и open_basedir)" width="450" height="327" /></a></div>
<p>Далее находим раздел “PHP Safemode Configuration” и устанавливаем в нужные позиции значения PHP Safemode и open_basedir для нужного домена</p>
<p>Для вступления изменений в силу требуется перезагрузить Apache</p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=50</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Работа парсера FDE Grabber на сервере под управлением ISPmanager</title>
		<link>http://fde-grabber.ru/?p=47</link>
		<comments>http://fde-grabber.ru/?p=47#comments</comments>
		<pubDate>Thu, 02 Apr 2009 04:04:34 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Советы]]></category>
		<category><![CDATA[FDE Grabber]]></category>
		<category><![CDATA[ISPmanager]]></category>
		<category><![CDATA[open_basedir]]></category>
		<category><![CDATA[safemode]]></category>
		<category><![CDATA[парсер]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=47</guid>
		<description><![CDATA[Если Вы владелец выделенного сервера (Dedicated Server) или пользователь виртуального выделенного сервера (VDS &#8211; Virtual Dedicated Server) или виртуального персонального сервера (VPS &#8211; Virtual Private Server) который работает под управлением панели ISPmanager, то можете столкнуться с трудностью полноценного запуска системы FDE Grabber, так, как по умолчанию данная система добавляет домены и включает для них интерпретатор [...]]]></description>
			<content:encoded><![CDATA[<p>Если Вы владелец выделенного сервера (Dedicated Server) или пользователь виртуального выделенного сервера (VDS &#8211; Virtual Dedicated Server) или виртуального персонального сервера (VPS &#8211; Virtual Private Server) который работает под управлением панели ISPmanager, то можете столкнуться с трудностью полноценного запуска системы FDE Grabber, так, как по умолчанию данная система добавляет домены и включает для них интерпретатор PHP как модуль web-сервера Apache.</p>
<p>Проблема в том, что разработчики ISPmanager, при запуске интерпретатора PHP как модуля Apache добавляют PHP параметр open_basedir, в результате чего граббер не будет полноценно обходить редиректы при граббинге.</p>
<p>Проблему можно решить в ISPmanager переключением запуска PHP как CGI.</p>
<p>При этом, open_basedir будет отключён и система импорта новостей FDE Grabber будет работать полноценно.</p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=47</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Комфортный рерайт получаемых новостей</title>
		<link>http://fde-grabber.ru/?p=40</link>
		<comments>http://fde-grabber.ru/?p=40#comments</comments>
		<pubDate>Mon, 30 Mar 2009 11:05:10 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Советы]]></category>
		<category><![CDATA[FDE Grabber]]></category>
		<category><![CDATA[модерация]]></category>
		<category><![CDATA[рерайт]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=40</guid>
		<description><![CDATA[В системе импорта новостей при настройке категории имеется возможность указать опцию: Модерация статей перед публикацией если выбрать &#8220;ДА&#8221;, то получаемые статьи граббером будут складываться в Вашу CMS со статусом &#8220;требует модерации&#8221; и не будут появляться до тех пор на сайте, пока их не включить в админке CMS. При этом можно проводить качественный, причём довольно комфортный [...]]]></description>
			<content:encoded><![CDATA[<p> <img src='http://fde-grabber.ru/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' />  В системе импорта новостей при настройке категории имеется возможность указать опцию:</p>
<p><strong>Модерация статей перед публикацией</strong></p>
<p>если выбрать &#8220;ДА&#8221;, то получаемые статьи граббером будут складываться в Вашу CMS со статусом &#8220;требует модерации&#8221; и не будут появляться до тех пор на сайте, пока их не включить в админке CMS.</p>
<p>При этом можно проводить качественный, причём довольно комфортный рерайт статьи, а потом лиш её публиковать.</p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=40</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Полный цикл настройки граббера</title>
		<link>http://fde-grabber.ru/?p=36</link>
		<comments>http://fde-grabber.ru/?p=36#comments</comments>
		<pubDate>Mon, 30 Mar 2009 10:38:37 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Документация]]></category>
		<category><![CDATA[FDE Grabber]]></category>
		<category><![CDATA[настройка граббера]]></category>
		<category><![CDATA[настройка парсинга]]></category>
		<category><![CDATA[парсер]]></category>
		<category><![CDATA[сигнатуры]]></category>
		<category><![CDATA[тюнинг]]></category>
		<category><![CDATA[шаблоны]]></category>
		<category><![CDATA[шинглы]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=36</guid>
		<description><![CDATA[В данной статье мы постарались уместить полный цикл настройки граббера под импорт новостей с определённого сайта. Итак, допустим мы определились с тем, что хотим грабить с сайта http://warezed.ru/ Что мы должны сделать в самом начале? В начале мы должны перейти по одному из адресов полных статей, допустим: http://warezed.ru/news/12604-V_Katare_otkrylsya_21_iy_sammit_LAG.html И заглянуть в HTML код статьи. В [...]]]></description>
			<content:encoded><![CDATA[<p>В данной статье мы постарались уместить полный цикл настройки граббера под импорт новостей с определённого сайта.</p>
<p>Итак, допустим мы определились с тем, что хотим грабить с сайта <a href="http://warezed.ru/">http://warezed.ru/</a></p>
<p>Что мы должны сделать в самом начале?</p>
<p>В начале мы должны перейти по одному из адресов полных статей, допустим: http://warezed.ru/news/12604-V_Katare_otkrylsya_21_iy_sammit_LAG.html</p>
<p><span id="more-36"></span>И заглянуть в HTML код статьи.</p>
<p>В категории источников системы импорта новостей FDE Grabber указываются настройки, согласно которым будет обрабатываться получаемый контент (содержимое).</p>
<p>Пожалуй самой значимой из настроек категории является настройка шаблона для парсинга.</p>
<p>Согласно данному шаблону будет после получения содержимого статьи (текста) производиться парсинг и извлечение полезного контента статьи.</p>
<p>В парсере FDE Grabber имеется возможность указать шаблон для двумя способами:</p>
<ol>
<li>с помощью регулярного выражения (требуется знание регулярных выражений)</li>
<li>указать простой шаблон без регулярных выражений (обычно это наиболее оптимальный вариант указания шаблона. Поэтому рассмотрим только его)</li>
</ol>
<p>допустим, что мы заглянули в HTML код каждой страницы со статьёй и увидели некоторую закономерность, а именно, шаблонность:</p>
<p>1-я статья:</p>
<p>http://warezed.ru/show_buisness/9276.html</p>
<p>код:</p>
<pre id="line80"><span style="color: #c0c0c0;"><strong>...&lt;<span class="start-tag">div</span><span class="attribute-name"> class</span>=<span class="attribute-value">"w_content"</span>&gt;
&lt;<span class="start-tag">div</span><span class="attribute-name"> id</span>=<span class="attribute-value">'news-id-9276'</span>&gt;В IX международном фестивале балета "Мариинский" примут участие ...
&lt;/<span class="end-tag">div</span>&gt;
&lt;/<span class="end-tag">div</span>&gt;
&lt;/<span class="end-tag">td</span>&gt;&lt;/<span class="end-tag">tr</span>&gt;&lt;<span class="start-tag">tr</span>&gt;&lt;<span class="start-tag">td</span>&gt;&amp;<span class="entity">nbsp;</span>&lt;/<span class="end-tag">td</span>&gt;&lt;/<span class="end-tag">tr</span>&gt;&lt;/<span class="end-tag">table</span>&gt;...</strong></span></pre>
<blockquote><p>10-я статья:</p>
<p>http://warezed.ru/economic/9275.html</p>
<p>код:</p></blockquote>
<pre id="line79"><strong><span style="color: #c0c0c0;">...&lt;<span class="start-tag">div</span><span class="attribute-name"> class</span>=<span class="attribute-value">"w_content"</span>&gt;
&lt;<span class="start-tag">div</span><span class="attribute-name"> id</span>=<span class="attribute-value">'news-id-9275'</span>&gt;Министры считают необходимой скорейшую активизацию новой модели...
&lt;/<span class="end-tag">div</span>&gt;
&lt;/<span class="end-tag">div</span>&gt;
&lt;/<span class="end-tag">td</span>&gt;&lt;/<span class="end-tag">tr</span>&gt;&lt;<span class="start-tag">tr</span>&gt;&lt;<span class="start-tag">td</span>&gt;&amp;<span class="entity">nbsp;</span>&lt;/<span class="end-tag">td</span>&gt;&lt;/<span class="end-tag">tr</span>&gt;&lt;/<span class="end-tag">table</span>&gt;...</span></strong></pre>
<p>Исходя из приведённых данных можно заметить шаблонную структуру:</p>
<pre id="line85"><span style="color: #c0c0c0;"><strong>&lt;<span class="start-tag">div</span><span class="attribute-name"> class</span>=<span class="attribute-value">"w_content"</span>&gt;
&lt;<span class="start-tag">div</span><span class="attribute-name"> id</span>=<span class="attribute-value">'news-id-{null}'</span>&gt;{description}&lt;/<span class="end-tag">div</span>&gt;
&lt;/<span class="end-tag">div</span>&gt;&lt;/<span class="end-tag">td</span>&gt;&lt;/<span class="end-tag">tr</span>&gt;&lt;<span class="start-tag">tr</span>&gt;&lt;<span class="start-tag">td</span>&gt;&amp;<span class="entity">nbsp;</span>&lt;/<span class="end-tag">td</span>&gt;&lt;/<span class="end-tag">tr</span>&gt;&lt;/<span class="end-tag">table</span>&gt;</strong></span></pre>
<p>Где <span class="attribute-value">{null}</span> &#8211; это произвольно изменяющееся ненужное нам содержимое, а <span class="attribute-value">{description}</span> &#8211; это как раз нужный нам контент.  Собственно, это и есть простой шаблон для категории граббера</p>
<p>Проверить правильность настройки шаблона категории можно в разделе “Тест категории”. Для этого требуется просто выбрать из списка нужную категорию для проведения теста, и указать адрес статьи, на которой будет проводиться тест, например http://warezed.ru/show_buisness/9276.html</p>
<p><strong>Всё, категорию мы добавили, что дальше?</strong></p>
<p>Когда мы добавили категорию с шаблоном для парсинга полезного контента &#8211; мы можем переходить к добавлению источника.</p>
<p>Источники могут быть трёх типов:</p>
<ol>
<li><strong>RSS источники</strong>, в данном случае списки статей будут импортироваться из RSS фидов, которые вещает сайт, с которого планируется получать контент</li>
<li><strong>Atom источники</strong>, в данном случае списки статей будут импортироваться из Atom фидов, которые вещает сайт, с которого планируется получать контент</li>
<li><strong>HTML источники</strong>, в данном случае списки статей будут импортироваться из обычных HTML страниц,  			на которых имеется список новостей</li>
</ol>
<p>Для того чтобы получать полное содержимое статей, граббер должен из полученного списка новостей переходить по каждому адресу и парсить страницу.</p>
<p>Для того, чтобы получить лишь часть страницы, необходимо указать границы получения полезного контента. Они задаются, с помощью регулярных выражений.</p>
<p>Для того, чтобы не было проблем с кодировкой полученных статей, указывайте её явно. Для того, чтобы наша система правильно переводила одну кодировку в другую, необходимо, чтобы на вашем сервере была доступна библиотека <strong>iconv</strong>.<br />
Список кодировок, для указания явно можно пополнять по своему усмотрению в файле ROOT/inc/charsets_list.php<br />
Для того, чтобы просмотреть список доступных кодировок в UNIX доступна команда <strong>iconv -l</strong><br />
Библиотека <strong>iconv</strong> может быть доступна как системная и/или как модуль для PHP.<br />
Если перекодирование работает при ручном тесте, но не работает из CRON, то кроновские скрипты граббера придётся запускать через <strong>wget</strong></p>
<p>Для того, чтобы граббер логинился на сайт, и мог, например, читать скрытый текст,  	можно указать POST параметры для логина.<br />
Пример:  	http://www.some-site.ru/index.php?username=ineedwarez&amp;password=ineedwarez<br />
Здесь параметры делятся на 2 части:</p>
<ol>
<li>http://www.some-site.ru/index.php &#8211; адрес страницы, на которой будет производиться логин на сайт</li>
<li>username=ineedwarez&amp;password=ineedwarez &#8211; непосредственно POST параметры</li>
</ol>
<p><strong>Рассмотрим RSS/Atom источник</strong></p>
<p>Как можно импортировать контент с RSS или Atom источников? Каков прицип работы?</p>
<p>В двух словах имеем вот что:</p>
<p>имеется постоянно обновляющийся список новостей (feed, фид) в котором, обычно есть следующая информация по каждой статье (обычно в фиде представлены 10-20 последних статей):</p>
<ol>
<li>адрес статьи</li>
<li>название статьи</li>
<li>краткое описание</li>
<li>дата</li>
</ol>
<p>этого нам достаточно, чтобы добавить задание для граббинга с подобного RSS/Atom источника.</p>
<p>При добавлении источника нужно указать адрес RSS/Atom фида и связанную с ним категорию CMS (ранее мы добавили категорию, теперь при добавлении нашего источника просто выбираем её из списка), куда будут помещаться полученные новости, а также категорию граббера, согласно которой будет происходить парсинг полного содержимого статей по заданному шаблону.</p>
<p>Проверить, что получает граббер с определённого RSS/Atom источника можно в разделе “Пинг RSS/Atom источника”</p>
<p><strong>HTML список новостей (HTML источник)</strong></p>
<p>Только что мы с вами рассмотрели импорт новостей с RSS/Atom источников. Пришло время познакомиться с граббингом с HTML источников.</p>
<p>Но перед этим нам нужно выяснить, что же такое HTML источник.</p>
<p>Для граббера FDE Grabber источник &#8211; это просто обновляющийся список новостей, в котором можно выявить следующие данные по каждой статье:</p>
<ol>
<li>адрес конечной статьи</li>
<li>название</li>
<li>краткое описание</li>
<li>возможно, некоторые другие дополнительные данные</li>
</ol>
<p>Очевидно, что HTML источник &#8211; это тот же RSS или Atom фид, только с нестандартным шаблоном парсинга. Поэтому, при использовании HTML источника нам придётся указывать шаблон для его парсинга.</p>
<p>HTML шаблон для HTML источника выявляется совершенно аналогично описанному способу выявления шаблона для категории, за тем лишь исключением, что теперь у нас имеется больше переменных:</p>
<p>{date} &#8211; дата; {name} &#8211; название; {link} &#8211; адрес к полному описанию статьи; {description} &#8211; краткое описание; {category} &#8211; категория публикации; {null} &#8211; ненужный контент;</p>
<p>Проверить правильность указания шаблона для парсинга HTML источника можно в разделе “Тест HTML источника”<br />
<strong>Хорошо, добавили источник, а дальше то что?</strong></p>
<p>Дальше запускаем процесс граббинга <img src='http://fde-grabber.ru/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=36</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Грабим по полной</title>
		<link>http://fde-grabber.ru/?p=33</link>
		<comments>http://fde-grabber.ru/?p=33#comments</comments>
		<pubDate>Mon, 30 Mar 2009 10:19:08 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Документация]]></category>
		<category><![CDATA[граббинг всего сайта]]></category>
		<category><![CDATA[обход пейджера]]></category>
		<category><![CDATA[пейджер]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=33</guid>
		<description><![CDATA[Для начала нам нужно себе уяснить что такое &#8220;пейджер&#8221; Пейджер происходит от английского слова page и означает нумерацию страниц в виде ссылок: back  1  2  3  …  100 forward Да &#8211; пейджер, это просто общее название разбиения на страницы большого списка новостей. Очевидно, что каждая страница пейджера является для граббера HTML источником Предположим, что адреса [...]]]></description>
			<content:encoded><![CDATA[<p>Для начала нам нужно себе уяснить что такое &#8220;<strong>пейджер</strong>&#8221;</p>
<p>Пейджер происходит от английского слова <strong>page </strong> и означает нумерацию страниц в виде ссылок:</p>
<p>back  1  2  3  …  100 forward</p>
<p>Да &#8211; пейджер, это просто общее название разбиения на страницы большого списка новостей.</p>
<p>Очевидно, что каждая страница пейджера является для граббера HTML источником</p>
<p>Предположим, что адреса страниц в пейджере выглядят примерно так:</p>
<p>http://fdstar.com/page/1/</p>
<p>http://fdstar.com/page/2/</p>
<p>http://fdstar.com/page/3/</p>
<p>…</p>
<p>http://fdstar.com/page/100/</p>
<p>Тогда можно выявить некоторую закономерность и написать шаблон:</p>
<p>http://fdstar.com/page/{page}/</p>
<p>Для задействованиея этой функции в парсере новостей FDE Grabber требуется вместо обычного адреса HTML списка новостей указать шаблон вида <strong>http://fdstar.com/page/{page}/</strong></p>
<p>И указать диапазон значений, который будет принимать переменная  {page}. Также можно указать как положительное приращение, так и отрицательное для переменной {page}. В случае положительного приращения обход будет идти так: 1  2  3  &#8230; 100. Ну а в случае отрицательного: 100  99  98  &#8230;  1</p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=33</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Подбираем хостинг</title>
		<link>http://fde-grabber.ru/?p=29</link>
		<comments>http://fde-grabber.ru/?p=29#comments</comments>
		<pubDate>Mon, 30 Mar 2009 10:08:51 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Документация]]></category>
		<category><![CDATA[граббер]]></category>
		<category><![CDATA[грабер]]></category>
		<category><![CDATA[парсер]]></category>
		<category><![CDATA[сервер]]></category>
		<category><![CDATA[хостинг]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=29</guid>
		<description><![CDATA[В случае, если Вы используете выделенный сервер (Dedicated Server) или виртуальный выделенный сервер (VDS &#8211; Virtual Dedicated Server или VPS &#8211; Virtual Private Server), то его можно настроить как угодно под себя, и проблем с запуском системы публикации новостей FDE Grabber быть не может. Но вот что делать, если Вы пока не готовы использовать выделенный [...]]]></description>
			<content:encoded><![CDATA[<p>В случае, если Вы используете выделенный сервер (Dedicated Server) или виртуальный выделенный сервер (VDS &#8211; Virtual Dedicated Server или VPS &#8211; Virtual Private Server), то его можно настроить как угодно под себя, и проблем с запуском системы публикации новостей FDE Grabber быть не может.</p>
<p>Но вот что делать, если Вы пока не готовы использовать выделенный или виртуальный сервер, но всё-же хотите полноценно работать с граббером?</p>
<p>- для этого просто нужно подобрать подходящий виртуальный хостинг.</p>
<p>Мы подготовили небольшой список хостинг-провайдеров, на которых была успешно испытана система парсинга новостей FDE Grabber:</p>
<p>http://peterhost.ru/</p>
<p>http://agava.ru/</p>
<p>http://masterhost.ru/</p>
<p>данный список будет, со временем пополняться, и вы можете в этом нам помочь <img src='http://fde-grabber.ru/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=29</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Полный автомат по крону</title>
		<link>http://fde-grabber.ru/?p=26</link>
		<comments>http://fde-grabber.ru/?p=26#comments</comments>
		<pubDate>Mon, 30 Mar 2009 10:04:03 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Документация]]></category>
		<category><![CDATA[crontab]]></category>
		<category><![CDATA[автоматизация]]></category>
		<category><![CDATA[крон]]></category>
		<category><![CDATA[парсер новостей]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=26</guid>
		<description><![CDATA[Что такое сron cron — демон-планировщик задач в UNIX-образных операционных системах, использующийся для периодического выполнения заданий в заданное время. Подробнее о нём можно узнать здесь: http://ru.wikipedia.org/wiki/Cron В парсере новостей FDE Grabber имеется 3 этапа импорта статей: кроновский скрипт путь_к_грабберу/crontab_feeds.php определяет один из доступных источников получения статей (RSS/Atom/HTML источник) и обновляет его. Если, при этом, имеются [...]]]></description>
			<content:encoded><![CDATA[<p><strong>Что такое сron</strong></p>
<p><strong>cron</strong> — демон-планировщик задач в UNIX-образных операционных системах, использующийся для периодического выполнения заданий в заданное время.</p>
<p>Подробнее о нём можно узнать здесь: http://ru.wikipedia.org/wiki/Cron</p>
<p>В <strong>парсере новостей FDE Grabber </strong>имеется 3 этапа импорта статей:</p>
<ol>
<li>кроновский скрипт <strong>путь_к_грабберу/crontab_feeds.php</strong> определяет один из доступных источников  			получения статей (RSS/Atom/HTML источник) и обновляет его.<br />
Если, при этом, имеются новые статьи (уникальность статьи определяется по названию), то статьи будут добавлены в качестве задания для получения<br />
По мере запуска данного кроновского скрипта, источники обновляются по кругу<br />
Каждому запуску скрипта соответствует одно обновление одного из доступных источников</li>
<li>кроновский скрипт <strong>путь_к_грабберу/</strong><strong>crontab_articles.php</strong> смотрит на задания для получения статей  			и получает статью.<br />
Одному запуску данного скрипта соответствует одно получение статьи</li>
<li>кроновский скрипт <strong>путь_к_грабберу</strong><strong>/fde_grabber_3/crontab_publicate.php</strong> публикует полученные статьи в вашу CMS</li>
</ol>
<p>наиболее оптимальными режимами обновления кроновских скриптом системы наполнения сайтов FDE Grabber являются такие:</p>
<p><strong>crontab_feeds.php &#8211; </strong>обновляем каждые<strong> </strong>5 минут</p>
<p><strong>crontab_articles.php</strong><strong> &#8211; </strong><strong></strong>обновляем каждые<strong> </strong>2 минуты</p>
<p><strong>crontab_publicate.php</strong><strong> &#8211; </strong><strong></strong>обновляем каждые<strong> </strong>4 минуты</p>
<p>Перед тем, как добавлять задания для запуска кроновских скриптов, нам потребуется выяснить путь к PHP интерпретатору на сервере.</p>
<p>Узнать этот путь можно несколькими способами:</p>
<ol>
<li>посмотреть расположение файлов на диске, скорее всего потребуются права администратора сервера</li>
<li>пойти на поклон к хостеру и спросить <img src='http://fde-grabber.ru/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </li>
<li>если имеется доступ через SSH &#8211; выполнить в командной строке: <strong>whereis php</strong></li>
<li>выполнить один из следующих скриптов:</li>
</ol>
<p style="padding-left: 90px;"><strong>&lt;?php echo `whereis php`; ?&gt; </strong></p>
<p style="padding-left: 90px;"><strong>&lt;?php echo exec(’whereis php’); ?&gt; </strong></p>
<p style="padding-left: 90px;"><strong>&lt;?php echo system(’whereis php’); ?&gt;</strong></p>
<p>Предположим, что мы выяснили путь к PHP интерпретатору на нашем сервере, и он выглядит так: <strong>/usr/bin/php</strong></p>
<p>Тогда, задания для запуска скриптов будут выглядеть так:</p>
<p><strong>*/5 * * * * /usr/bin/php </strong><strong>путь_к_грабберу/</strong><strong>crontab_feeds.php &gt; /dev/null 2&gt;&amp;1<br />
*/2  * * * * /usr/bin/php </strong><strong>путь_к_грабберу/</strong><strong>crontab_articles.php &gt; /dev/null 2&gt;&amp;1<br />
*/4 * * * * /usr/bin/php </strong><strong>путь_к_грабберу/</strong><strong>crontab_publicate.php &gt; /dev/null 2&gt;&amp;1</strong></p>
<p><strong><br />
</strong></p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=26</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Crop image. Что за зверь</title>
		<link>http://fde-grabber.ru/?p=19</link>
		<comments>http://fde-grabber.ru/?p=19#comments</comments>
		<pubDate>Mon, 30 Mar 2009 09:48:21 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Документация]]></category>
		<category><![CDATA[cropping]]></category>
		<category><![CDATA[обрезание]]></category>
		<category><![CDATA[обрезать картинку]]></category>

		<guid isPermaLink="false">http://fde-grabber.ru/?p=19</guid>
		<description><![CDATA[Кроппинг картинок &#8211; это просто обрезка картинок, не более. Но эта функция в парсере новостей FDE Grabber оказалась как нельзя кстати. Дело в том, что многие люди хотят получить из своего сайта некое подобие новостного портала. В новостных сайтах список кратких новостей обычно включает иллюстрации совершенно одинаковых размеров. Пример такого сайта: http://warezed.ru/ Мы видим, что [...]]]></description>
			<content:encoded><![CDATA[<p>Кроппинг картинок &#8211; это просто обрезка картинок, не более.</p>
<p>Но эта функция в парсере новостей FDE Grabber оказалась как нельзя кстати. Дело в том, что многие люди хотят получить из своего сайта некое подобие новостного портала.</p>
<p>В новостных сайтах список кратких новостей обычно включает иллюстрации совершенно одинаковых размеров. Пример такого сайта: <a href="http://warezed.ru/"><strong>http://warezed.ru/</strong></a></p>
<p>Мы видим, что все картинки обрезаны до определённого размера. Так вот, операция обрезки изображения называется кроппингом.</p>
<p>И если вы тоже хотите задействовать в своём граббере эту функцию, то следуйте приведённым ниже инструкциям.</p>
<p>Чтобы включить данную опцию в граббере, нужно перейти в раздел категорий и выбрать интересующую категорию. Среди настроек выбранной категории имеются:</p>
<p><strong>“<label for="images">Что делать с картинками</label>” </strong>- разумеется нам придётся сохранять картинки на сервер, поэтому указываем<strong> “сохранять картинки на сервер”</strong></p>
<p><strong>“Что делать с картинками больших размеров”</strong></p>
<p>-  здесь есть, на самом деле, два варианта для кроппинга. Один из них: <strong>“Уменьшать, обрезая до заданных размеров и делать ссылку на большую картинку”</strong>, а другой: <strong>“Уменьшать физически картинку, обрезая до заданных размеров”</strong></p>
<p>Также, нам потребуется указать размеры под которые будет производиться обрезка:</p>
<p><strong>Максимальная ширина картинки</strong> и <strong>Максимальная высота картинки</strong></p>
]]></content:encoded>
			<wfw:commentRss>http://fde-grabber.ru/?feed=rss2&amp;p=19</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
