Универсальный персональный сервис получения полнотекстовых RSS лент.
Админка доступна по скрытой ссылке http://URL/?admin - пароль по умолчанию 666666.
Используемые метода получения полного текста статьи:
- Readability - работает на 98% сайтов автоматически извлекая текст, но обычно оставляет после себя кучу мусора в коде. Установлен по умолчанию, никаких настроек не требует.
- Simple HTML DOM Parser - для настройки поиска используется синтаксис его метода find(). К сожалению падает на парсинге некоторых страниц...
- Ganon - DOM парсер аналогичный предыдущему, более толерантный к html коду, но менее гибкий поиск.
- RegEx - простой поиск по регулярному выражению. Используется PHP функция mb_ereg_search_regs(), синтаксис регулярного выражения аналогичный описанию этой функции, разделители ставить не надо. Возвращаются все найденные значения.
Фильтры используются для чистки полученого текста. Может быть указана просто подстрока которую надо удалить или же (при наличии разделителей /.../) - регулярное выражение. Фильтры указываются построчно и могут комбинироватся в любом порядке. Особенно полезны для чистки кода после Readability.
В случаи если в извлеченном коде ссылки на картинки относительные, можно указать строку с хостом, которая будет использована как префикс для всех найденных img src.