[Comm] using statistical fingreprints for charset autodetect
Nick S. Grechukh
=?iso-8859-1?q?ngrechukh_=CE=C1_ua=2Efm?=
Пт Мар 4 23:21:03 MSK 2005
On Friday 04 March 2005 13:18, Nick S. Grechukh wrote:
> > > xcode/enca на cp1251 "Би-2" говорят koi8 и делают из него "аХ-2".
>>хотя с другой стороны если детектить не один тэг а всю пачку сразу...
> > А ты поштучно?
> так интереснее. вообще-то реализовал оба варианта, по крайней мере UTF8 в
> >Приколист...
> именно ;-) жастфорфан и все такое, заодно и C научился (блин, обленившись
> до админа, уже и забыл кайф программирования. третью ночь не сплю ;-)). а
> еще попробую статистику пар заюзать, как в xmms.
всех интересующихся автоугадавами прошу потестить:
http://gns-linux.narod.ru/autougadaf-0.2.tar.bz2
типа нейросеть, достаточно слова в две-три-четыре буквы.
два варианта баз: юзать для этого москва-петушки уже немодно, есть на выбор
статистика по Олегу Дивову (4Мб), или по "избранным изречениям Дзен" (7кб).
первое по идее надежнее, зато второе концептуальнее ;-).
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип : application/pgp-signature
Размер : 190 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url : <http://lists.altlinux.org/pipermail/community/attachments/20050304/728c40ca/attachment-0003.bin>
Подробная информация о списке рассылки community