[Comm] Автораспознавание кодировки?

Денис Смирнов =?iso-8859-1?q?mithraen_=CE=C1_freesource=2Einfo?=
Вс Ноя 14 00:04:31 MSK 2004


On Sat, Nov 13, 2004 at 11:40:04PM +0300, Andrey Orlov wrote:

AO> Зачем хранить для всех? Достаточно хранить только для тех, которые значимы для задачи 
AO> выбора - а это существенно меньше, в том-то и пафос. 

Дык я совсем-совсем тупым алгоритмом это делал -- считал статистику, а
потом перемножал её на эталонную статистику для разных кодировок. Считал
суммы и делал выводы :)

А алгоритма для поиска более важных для принятия решения данных я не знаю.

AO> Можно даже до тетрад дойти - правда,
AO> в этом случае уже более правильно будет набирать статистику слогов: это языковой "кирпичик"
AO> близкого размера и с не очень большим разнообразием, кажется что-то порядка ~5000 (для русского языка), 
AO> впрочем, точно не помню

Ну это уж гораздо сложнее логика получается.

-- 
С уважением, Денис

http://freesource.info




Подробная информация о списке рассылки community