РЕЦЕНЗИЯ на выпускную квалификационную работу студента 4 курса Шалымова Романа Сергеевича, обучающегося по направлению 010500 (02.03.03) (математическое обеспечение и администрирование информационных систем) Тема выпускной квалификационной работы: Разработка файловой системы с поддержкой дедупликации данных С ростом объемов доступной для обработки информации растет потребность в эффективном хранении данных. Одной из важных задач, которую приходится решать несмотря на развитие современных хранилищ данных, это задача дедупликации, то есть нахождения и исключения избыточности данных посредством удаления копий файлов или блоков на дисковом хранилище. Перед Шалымовым Романом Сергеевичем была поставлена задача проектирования и реализация файловой системы на уровне модуля ядра с поддержкой inline дедупликации данных для семейства операционных систем с ядром Linux. К сожалению, в тексте очень коротко обсуждается актуальность данной тематики, в том числе выбор именно inline методов дедупликации. В рамках выпускной квалификационной работы Шалымов Р.С. провел обзор существующих файловых систем с поддержкой дедупликации данных; изучил необходимые интерфейсы виртуальной файловой системы ядра Linux; разработал архитектуру файловой системы с поддержкой блочной дедупликации данных; реализовал утилиты создания дисковой разметки и драйвер спроектированной файловой системы; а также провел экспериментальное сравнение предложенного решения с файловой системой ext4. Задача в своем объеме соответствует бакалаврской выпускной квалификационной работе. Текст работы достаточно структурирован, лаконичен, хорошо иллюстрирован схемами. В рамках работы выполнено необходимое количество вычислительных экспериментов, результаты которых отображены в таблицах и на графике. В работе были выявлены следующие недостатки по существу работы, насколько о ней можно судить по представленному тексту: · Обзор существующих решении слишком лаконичен, в нем, во-первых, в конце не хватает выводов о том, почему ни одно из перечисленных решений не подходит, во-вторых, следовало пусть очень кратко, но упомянуть работы исследовательского сообщества, например, работу Liquid: A Scalable Deduplication File System for Virtual Machine Images. · В начале раздела 3 делается предположение «Поскольку dedupfs имеет специальное назначение для хранения больших файлов, а также с целью упрощения дальнейшей программной реализации было решено ограничить максимальное количество создаваемых файлов числом 128.», кажется, что важно сказать, будет ли в принципе работать файловая система при нарушении этого предположения. · В разделе 4 не хватает обоснования некоторых аспектов проводимых экспериментов: o Почему сравнение производилось с файловой системой ext4, а не с файловыми системами, описанными в обзоре? В тексте нет даже ссылки на информацию об этой файловой системе, в том числе на наличие в ней какой-либо поддержки дедупликации. o Почему в работе сопоставляется только скорость работы с файловой системой и нет оценок по качеству дедупликации, то есть проценту выигрыша в объемах? o Кажется, что при оценке консистентности, было бы полезным провести эксперименты с разными объемами файлов. o Результаты в таблицах 3 и 4 представлены без какого-либо, пусть и короткого анализа или выводов. · В разделе 5 с результатами не хватает выводов, рекомендаций по использованию системы или возможных направлений ее развития. · Кажется, что работа проводилась в спешке, так как текст содержит множество неаккуратных формулировок, грамматических и пунктуационных ошибок, например: o стр. 4 «Цель дедупликации заключается в том, чтобы разместить большее количество данных на меньшем пространстве.» - при такой постановке цели дедупликации не вполне понятно, чем дедупликация отличается от сжатия. o стр. 4 «множество линков на единственный образ» - правильнее использовать вполне устоявшийся термин русского языка. o стр. 9 и далее во всем тексте «айноды(inodes)» - возможно, лучше использовать «индексные дескрипторы». o стр. 12 «Более детальное описание методов и полей структур можно прочитать в соответствующих книгах [4],[5]» - пропущена точка в конце предложения. o Раздел 3 не очень хорошо структурирован, в первой его части можно выделить смысловые подразделы, которые упростили бы восприятие материала, например, «Ключевые особенности», «Доступ к блокам». o Название раздела 4 «Апробация» не вполне соответствует принятому в научной среде понимаю, скорее всего, это раздел стоило назвать «Экспериментальный анализ». Несмотря на список перечисленных недостатков, считаю, что выпускная квалификационная работа Шалымова Романа Сергеевича соответствует основным требованиям, предъявляемым к выпускной квалификационной работе бакалавра, и заслуживает оценки «отлично». Ярыгина Анна Сергеевна, ст.преподаватель кафедры информационно-аналитических систем СПбГУ