[Comm] Mozilla, XWindow clipboard, тире и кавычки в русском тексте

=?iso-8859-1?q?antilopa=5Fgnu_=CE=C1_list=2Eru?= =?iso-8859-1?q?antilopa=5Fgnu_=CE=C1_list=2Eru?=
Вс Мар 20 18:12:19 MSK 2005


Здравствуйте!

Формулируя проблему более точно и аккуратно, возвращаюсь к вопросу
о копировании русского текста из Mozilla в GNU Emacs и некоторые
другие редакторы.
Место действия -- Master 2.4, локаль ru_RU.KOI8-R.

Проблема в том, что не получается скопировать русский текст,
_содержащий_также_ символы вроде кавычек-ёлочек и длинного тире, 
из Mozilla (или Galeon, Firefox) в Emacs. Но текст, не содержащий
таких символов (только кириллица, латиница, цифры и ascii-шные
знаки препинания), в Emacs вставляется нормально.

Единственного длинного тире или угловых кавычек в русском тексте 
достаточно, чтобы при вставке в Emacs он выглядел, например, так:
\u0422\u0438\u0440\u0435 \u2014 \u0432\u043e\u0442.
(а латинские буквы, если они есть в таком тесте, не коверкаются).


В отличие от этого, из Konqueror (и тоже из OpenOffice Writer) текст
в Emacs вставляется удовлетворительно: кириллица не коверкается, лишь
угловые кавычки и длинные тире превращаются в вопросительные знаки.




Пытаясь полнее "исследовать" ситуацию, наблюдаю вот что.

При копировании текста из Mozilla (также Galeon, Firefox):
во встроенный редактор Sylpheed-claws 1.0.1 (пересобранной в Мастере)
-- также как и в Emacs;
в Nedit -- не коверкается только латиница, всё прочее в виде \uЦИФРА;
в OpenOffice Writer, Kwrite, Kate -- текст вставляется без искажений.

При копировании текста из Konqueror:
во встроенный редактор Sylpheed-claws 1.0.1 -- также как и в Emacs;
в Nedit -- всё, кроме латиницы превращается в вопросительные знаки.
в OpenOffice Writer -- без искажений.

В xterm и aterm кириллица всегда копируется нормально, и из Mozilla, 
Galeon, Firefox, и из Konqueror. Если в копируемом тексте есть 
длинные тире и кавычки-ёлочки, то они пропадают, а остальной текст 
остаётся.
В Eterm -- как и в Nedit, кириллица из Mozilla превращается в \uЦИФРА,
а из Konqueror в вопросы.

xclip -o показывает в тексте, скопированном из Mozilla, Galeon, Firefox,
всю кириллицу в виде \uЦИФРА
В тексте, скопированном из Konqueror (либо из OpenOffice Writer)
xclip -o показывает всю кириллицу в виде вопросительных знаков.





В общем, вопросы:

1) Писать ли об этом в багзиллу? Если да, то на что вешать баг --
на Mozilla, или Emacs, или что-то, относящееся к GTK+2, или что-то,
относящееся к XFree86?

2) Что можно попытаться сделать для прояснения ситуации?
2a) Как посмотреть, что на самом деле находится в XWindow clipboard?

3) Что можно сделать, чтобы научить GNU Emacs воспринимать кириллицу,
скопированную в XWindow clipboard из Mozilla, даже когда там есть и
символы вроде кавычек-ёлочек и длинных тире?

4) Удастся ли кому-нибудь (при локали ru_RU.KOI8-R) скопировать текст
из прилагаемого htm-файла, отрытого Мозиллой|Галеоном|Firefox, в Emacs
или в Nedit (потеряв совсем или превратив во что-нибудь тире и кавычки,
но не потеряв и не исковеркав слова)?




P.S.
Мучающимся с такой же проблемой могу сообщить хоть и уродливый, но 
способ "объезда" -- скопированный из (Mozilla|Galeon|Firefox) текст
вставить в Kate, Kwrite или OOwriter, а уже оттуда в Emacs или в
сильфидин редактор. Но для вставки в Nedit не вижу даже такого 
объезда.

----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя     : TEST.htm
Тип     : application/octet-stream
Размер  : 255 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url     : <http://lists.altlinux.org/pipermail/community/attachments/20050320/60f228f2/attachment-0002.obj>


Подробная информация о списке рассылки community