Информация о статье

2022 г., Том 27, № 3, с.46-65

Белов В.А., Ильин Д.Ю., Никульчев Е.В.

Оценка эффективности обработки больших объемов данных в реляционных и колоночных форматах

Эффективное хранение данных — одна из важнейших задач при проектировании любой информационной системы. Рост потребностей в обработке больших объемов данных спровоцировал появление большого количества средств для их хранения. В связи с этим возникает необходимость выбора форматов хранения на этапе проектирования. Выбор форматов влияет на параметры вычислительной среды (объем, время обработки данных), а также аппаратных ресурсов.

Статья посвящена разработке методики оценки эффективности обработки больших данных в зависимости от выбора реляционного или колоночного формата. Представлено исследование двух популярных способов хранения и обработки больших данных: реляционная база данных PostgreSQL и хранение в файлах колоночного формата Apache Parquet с обработкой с помощью фреймворка Apache Hive.

[полный текст] [ссылка на elibrary]

Ключевые слова: большие данные, форматы хранения данных, реляционные базы данных, PostgreSQL, Apache Hive

doi: 10.25743/ICT.2022.27.3.005

Библиографическая ссылка:
Белов В.А., Ильин Д.Ю., Никульчев Е.В. Оценка эффективности обработки больших объемов данных в реляционных и колоночных форматах // Вычислительные технологии. 2022. Т. 27. № 3. С. 46-65
Главная| Цели| Редколлегия| Содержание| Поиск| Подписка| Правила| Контакты
ISSN 1560-7534
© 2024 ФИЦ ИВТ, Новосибирск