[mdk-re] Re: [mdk-re] Re: офтопик - регулярные выражения

Mikhail Zabaluev =?iso-8859-1?q?mhz_=CE=C1_alt-linux=2Eorg?=
Пт Июн 1 11:18:01 MSD 2001


Hello Anton,

On Fri, Jun 01, 2001 at 11:07:26AM +0400, Anton Farygin wrote:
>
> Andrey Brindeew wrote:
> 
> > On Sun, 27 May 2001 19:01:30 +0400
> > Anton Farygin <rider на altlinux.ru> wrote:
> >
> > AF> cat man_test.html |perl -p -e 's/(<)(.*?)(\n)/\1\2/gs''
> > AF> Убирает первый перевод строки. А вот как убрать все последующие?
> > AF> Убрать их вообще во всех тегах. Т.е. между "<" и ">"
> > AF>
> > AF> Запускать это выражения я буду в PHP. Соответсвенно перловые
> > AF> конструкции не катят :-(
> > AF>
> > AF> Работают только регулярные выражения.
> >
> > Сэр собрался разбирать вложенные структуры регулярными выражениями?
> > Оно политически неграмотно - эти самые регулярные выражения не для этого
> > делались. Для html есть прекрасный (перловый) модуль HTML::Parser.
> >
> 
> А в PHP? ;-)
> См. выше.

Накопить все между уголками в строке и сделать над ней s/\n/ /g
Тут есть одна тонкость - в общем случае, внутри значений атрибутов в
кавычках тоже могут присутствовать ">". Так что нужно все же
парсерообразное решение либо проверка содержимого уголков
регвыражением, которое я без поллитры не напишу :).

Вообще, на разбор HTML в промышленных масштабах лучше забить и рыть в
сторону XML.

-- 
Stay tuned,
  MhZ                                     JID: mookid на jabber.org
___________
When does summertime come to Minnesota, you ask?  Well, last year, I
think it was a Tuesday.




Подробная информация о списке рассылки community