[Comm] using statistical fingreprints for charset autodetect
Nick S. Grechukh
ngrechukh на ua.fm
Пт Мар 4 23:21:03 MSK 2005
On Friday 04 March 2005 13:18, Nick S. Grechukh wrote:
> > > xcode/enca на cp1251 "Би-2" говорят koi8 и делают из него "аХ-2".
>>хотя с другой стороны если детектить не один тэг а всю пачку сразу...
> > А ты поштучно?
> так интереснее. вообще-то реализовал оба варианта, по крайней мере UTF8 в
> >Приколист...
> именно ;-) жастфорфан и все такое, заодно и C научился (блин, обленившись
> до админа, уже и забыл кайф программирования. третью ночь не сплю ;-)). а
> еще попробую статистику пар заюзать, как в xmms.
всех интересующихся автоугадавами прошу потестить:
http://gns-linux.narod.ru/autougadaf-0.2.tar.bz2
типа нейросеть, достаточно слова в две-три-четыре буквы.
два варианта баз: юзать для этого москва-петушки уже немодно, есть на выбор
статистика по Олегу Дивову (4Мб), или по "избранным изречениям Дзен" (7кб).
первое по идее надежнее, зато второе концептуальнее ;-).
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 190 bytes
Desc: not available
Url : http://lists.altlinux.ru/pipermail/community/attachments/20050304/728c40ca/attachment.bin
Подробная информация о списке рассылки Community