[Comm] using statistical fingreprints for charset autodetect

Nick S. Grechukh ngrechukh на ua.fm
Пт Мар 4 23:21:03 MSK 2005


On Friday 04 March 2005 13:18, Nick S. Grechukh wrote:
> > > xcode/enca на cp1251 "Би-2"  говорят koi8 и делают из него "аХ-2". 
>>хотя с другой стороны если детектить не один тэг а всю пачку сразу...
> > А ты поштучно?
> так интереснее. вообще-то реализовал оба варианта, по крайней мере UTF8 в
> >Приколист...
> именно ;-) жастфорфан и все такое, заодно и C научился (блин, обленившись
> до админа, уже и забыл кайф программирования. третью ночь не сплю ;-)). а
> еще попробую статистику пар заюзать, как в xmms.
всех интересующихся автоугадавами прошу потестить:
http://gns-linux.narod.ru/autougadaf-0.2.tar.bz2
типа нейросеть, достаточно слова в две-три-четыре буквы.

два варианта баз: юзать для этого москва-петушки уже немодно, есть на выбор 
статистика по Олегу Дивову (4Мб), или по "избранным изречениям  Дзен" (7кб).
первое по идее надежнее, зато второе концептуальнее ;-).
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 190 bytes
Desc: not available
Url : http://lists.altlinux.ru/pipermail/community/attachments/20050304/728c40ca/attachment.bin


Подробная информация о списке рассылки Community