[mdk-re] Re: [mdk-re] Re: офтопик - регулярные выражения

Anton Farygin =?iso-8859-1?q?rider_=CE=C1_altlinux=2Eru?=
Пт Июн 1 11:33:14 MSD 2001


Mikhail Zabaluev wrote:

> Hello Anton,
>
> On Fri, Jun 01, 2001 at 11:07:26AM +0400, Anton Farygin wrote:
> >
> > Andrey Brindeew wrote:
> >
> > > On Sun, 27 May 2001 19:01:30 +0400
> > > Anton Farygin <rider на altlinux.ru> wrote:
> > >
> > > AF> cat man_test.html |perl -p -e 's/(<)(.*?)(\n)/\1\2/gs''
> > > AF> Убирает первый перевод строки. А вот как убрать все последующие?
> > > AF> Убрать их вообще во всех тегах. Т.е. между "<" и ">"
> > > AF>
> > > AF> Запускать это выражения я буду в PHP. Соответсвенно перловые
> > > AF> конструкции не катят :-(
> > > AF>
> > > AF> Работают только регулярные выражения.
> > >
> > > Сэр собрался разбирать вложенные структуры регулярными выражениями?
> > > Оно политически неграмотно - эти самые регулярные выражения не для этого
> > > делались. Для html есть прекрасный (перловый) модуль HTML::Parser.
> > >
> >
> > А в PHP? ;-)
> > См. выше.
>
> Накопить все между уголками в строке и сделать над ней s/\n/ /g
> Тут есть одна тонкость - в общем случае, внутри значений атрибутов в
> кавычках тоже могут присутствовать ">". Так что нужно все же
> парсерообразное решение либо проверка содержимого уголков
> регвыражением, которое я без поллитры не напишу :).
>
> Вообще, на разбор HTML в промышленных масштабах лучше забить и рыть в
> сторону XML.

Чем в принципе я и делаю ;-)

А пока анализ идет так как и выше описано.

Rgds
Rider






Подробная информация о списке рассылки community