[devel] java dependencies
Alexey Tourbin
=?iso-8859-1?q?at_=CE=C1_altlinux=2Eru?=
Пт Июн 8 19:39:03 MSD 2007
Я переделал rpm-build-java (см. /people/at/packages/rpm-build-java.git).
Статус экспериментальный и недоделанный (подразумевает новый rpm-build,
которого пока нет в сизифе), но основные моменты продуманы.
Вкратце, я предлагаю реализовать поиск зависимостей на основе точной
информации из *.class файлов, и примерно с такой же гранулярностью (на уровне
*.class файлов, см. ниже насчет вложенных классов). Также можно сохранить
Provides зависимости на уровне *.jar файлов (для совместимости с JPackage),
но все Requires зависимости я предлагаю перевести на уровень *.class файлов.
(Для тех, кто совсем не в курсе, поясню, что *.jar файлы -- это zip-архивы,
которые содержат в себе много-много class-файлов -- байткод. Java умеет
смотреть в *.jar архивы как в обычные каталоги и отыскивать там class-файлы.
Но все реальные зависимости имеют место быть между class-файлами, а не
jar-архивами. Дальше можно не читать.)
Предлагаемый формат зависимостей имеет вид java(java.lang.Object).
Я пока не во всём разобрался, поэтому ищу специалистов по java (особенно по JVM).
Я прочитал спецификацию "VM Spec: The class File Format"
http://java.sun.com/docs/books/jvms/second_edition/html/ClassFile.doc.html
и буквально по этой спецификации написал на перле парсер class-файлов, который
в первом приближении умеет извлекать зависимости. Похожий парсер есть в
rpm/tools/javadeps.c, но мой парсер получился в несколько раз короче и проще,
так что написание с нуля я не считаю убитым временем.
Парсер называется jcf-reqprov (java class file, по аналогии с jcf-dump из gcc)
и умеет полностью парсить константный пул и таблицу классов (см. VM Spec).
Предыдущий предельно упрощенный парсер из java.req (egrep -hao 'L[a-zA-Z/_]+;')
делал совсем не то что нужно, хотя и выдавал какие-то зависимости.
Следующий вопрос адресован специалистам по JVM. Хотелось бы не просто парсить
константный пул и таблицу классов, а дополнить парсер семантикой зависимостей,
чтобы можно было сказать, в чем именно состоит зависимость на некоторый класc
(например, суперкласс, суперинтерфейс и т.п.). Поддержка семантики
зависимостей в первом приближении мной уже продумана, но пока как следует не
работает. Мне хотелось бы знать, в каких именно случаях JVM ЗАГРУЖАЕТ другой
class-файл, когда видит на него ссылку. Например, если некоторый метод умеет
брать аргумент с типом некоторого другого объекта:
ThisClass.Method(arg=OtherClass)
означает ли это, что JVM сразу же, в процессе начальной обработки
(компиляции) ThisClass, будет также (физически) загружать и OtherClass?
Или же загрузка OtherClass в некотором смысле откладывается, то есть,
например, происходит по факту вызова ThisClass.Method(arg) откуда-то ещё?
Другими словами, семантика зависимостей нужна для того, чтобы отделить существенные
зависимости, без которых точно нельзя обойтись при начальной загрузке данного
class-файла, от вторичных зависимостей, загрузка которых, возможно, является
необязательной, т.е. они сами по себе загружаются откуда-то ещё. Этим я пытаюсь
сказать, что в rpm-зависимостях у rpm-пакета нужно писать только реально
необходимые классы, а не просто все имена классов, которые удается извлечь
неким нехитрым способом (с помощью dumb парсера).
Перехожу к техническим подробностям. Я также переделал java.req и сделал
комплементарный java.prov. Первый положительный результат: поиск Requires
зависимостей в пакете j2se1.5-sun-1.5.0.11-alt4 дал нулевой результат -- все
Requires взаимно уничтожаются с Provides, т.е. зависимости замкнуты.
Несколько менее положительным результатом следует считать размер as-is Provides
зависимостей у этого же пакета -- около 440K (всего около 10000 классов). При
этом уже используется одна довольно сильная оптимизация -- исключение т.н.
private классов (см. VM Spec). Впрочем, использование ещё двух эвристических
оптимизаций (хаков) позволило уменьшить список Provides до 120K (всего около
3000 классов в Provides), что уже более приемлемо, хотя и на грани.
Сгруппируем список as-is provides пакета j2se1.5-sun по префиксам:
$ cut -d. -f-2 prov |sort |uniq -c |sort -n |tail
207 java(java.util
215 java(sun.text
258 java(sun.nio
322 java(sun.awt
327 java(sun.io
385 java(java.awt
399 java(sun.security
536 java(org.omg
851 java(javax.swing
3456 java(com.sun
$
Отсюда видно, что первая эвристическая оптимизация списка provides должна
состоять в том, чтобы исключить (взаимно уничтожить) зависимости вида
java(com.sun.*) и java(sun.*). Такие зависимости, по идее, относятся к
особенностям реализации и не должны выходить за рамки этой реализации.
Другая менее очевидная оптимизация, которая позволяет сократить размер
зависимостей ещё примерно на 20%, состоит во взаимном уничтожении зависимостей
"с долларом". Зависимости типа java(Class$Subclass) появляются, когда файл
Class логически содержит в себе вложенный (полностью объявленный и
реализованный) класс Subclass. В таком случае зависимость на Class$Subclass
должна полностью сводиться на Class. Эта оптимизация несколько ухудшает
гранулярность зависимостей, особенно с учетом того, что в java нет средств
версионирования классов. Однако избавление от bloat (излишнего груза)
представляется скорее привлекательным. Зависимости "с долларом" кажутся
всё же не слишком органичными (ну, не очень красивыми) для rpm-пакетов.
----------- следующая часть -----------
Было удалено вложение не в текстовом формате...
Имя : =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Тип : application/pgp-signature
Размер : 189 байтов
Описание: =?iso-8859-1?q?=CF=D4=D3=D5=D4=D3=D4=D7=D5=C5=D4?=
Url : <http://lists.altlinux.org/pipermail/devel/attachments/20070608/9696e87b/attachment-0001.bin>
Подробная информация о списке рассылки Devel