[Comm] Автораспознавание кодировки?
Денис Смирнов
=?iso-8859-1?q?mithraen_=CE=C1_freesource=2Einfo?=
Вс Ноя 14 00:04:31 MSK 2004
On Sat, Nov 13, 2004 at 11:40:04PM +0300, Andrey Orlov wrote:
AO> Зачем хранить для всех? Достаточно хранить только для тех, которые значимы для задачи
AO> выбора - а это существенно меньше, в том-то и пафос.
Дык я совсем-совсем тупым алгоритмом это делал -- считал статистику, а
потом перемножал её на эталонную статистику для разных кодировок. Считал
суммы и делал выводы :)
А алгоритма для поиска более важных для принятия решения данных я не знаю.
AO> Можно даже до тетрад дойти - правда,
AO> в этом случае уже более правильно будет набирать статистику слогов: это языковой "кирпичик"
AO> близкого размера и с не очень большим разнообразием, кажется что-то порядка ~5000 (для русского языка),
AO> впрочем, точно не помню
Ну это уж гораздо сложнее логика получается.
--
С уважением, Денис
http://freesource.info
Подробная информация о списке рассылки community