[Comm] фильтр/скрипт для обработки html файлов

Денис Черносов =?iso-8859-1?q?denis0=2Eru_=CE=C1_gmail=2Ecom?=
Вт Авг 5 12:27:22 MSD 2008


5 августа 2008 г. 11:51 пользователь Mikhail Kuligin <mail4network на gmail.com
> написал:

> > Поковыряй расширение altsearch для OpenOffice.org
> спасибо, altsearch пользуюсь...
> но altsearch не работает (вылетатет с ошибкой) когда включён режим
> отображения html :(
> если вернутся к визуальному режиму, то все ок (система branch 4.1)
>

А зачем вам этот режим для такой задачи? Открываем html-файл чем-нибудь типа
Kate (не забываем правильно указать кодировку, если отличается от системной
локали), выделяем всё, копируем в пустой документ ООо Writer, напускаем на
него заранее заготовленную группу altsearch, и копируем результат обратно в
Kate.
Самое трудное - сделать регулярные выражения и максимально эффективно их
выстроить по порядку. А потом их можно с небольшими изменениями использовать
и в vim и sed/awk через bash-скрипты и вообще как угодно.

Преимущество перед готовыми чужими скриптами - умопостижимость и, как
следствие, большая настраиваемость. Например, для xhtml не рекомендуется
использование тэгов <b> и <i>, их нужно заменять на <strong> и <em>. <hr> в
нотации xhtml правильно записывать, как <hr />. Все тэги и их атрибуты
должны быть в нижнем регистре. Порою требуется оставить некоторые атрибуты,
такие, как class или id. И т.д. и т.п.

А регулярные выражения, особенно поначалу выглядят шаманскими заклинаниями и
модифицировать чужие под свои нужды может оказаться дольше, чем составить
свои.
----------- следующая часть -----------
Вложение в формате HTML было удалено...
URL: <http://lists.altlinux.org/pipermail/community/attachments/20080805/34fe00cc/attachment-0002.html>


Подробная информация о списке рассылки community