Зачем проходить тест на профессию «Big Data Engineer»?
Выбор профессии — одно из важнейших решений в жизни. Этот бесплатный онлайн-тест поможет определить, обладаете ли вы ключевыми качествами для работы Big Data Engineer.
За 3 минуты вы получите:
- Оценку пригодности к профессии по шкале от 0 до 100%
- Разбор сильных сторон и зон роста
- Персональные рекомендации по развитию
- Актуальную информацию о зарплате: 100 000 ₽
- Подборку проверенных курсов для обучения профессии
Тест основан на анализе требований работодателей к специалистам уровня Junior и Middle. Результаты носят рекомендательный характер и помогут сделать осознанный выбор.
Вопросы и ответы о тесте на профессию «Big Data Engineer»
Вы запускаете ETL-пайплайн на Spark, который обрабатывает 10 ТБ данных. После часа работы процесс падает с OutOfMemoryError. Ваши действия?
Варианты ответа: Увеличиваю количество партиций и настраиваю spark.sql.shuffle.partitions, проверяю наличие skew-ключей и добавляю salting, Увеличиваю executor memory в конфигурации и перезапускаю задачу, Переписываю весь код на Pandas, чтобы избежать проблем Spark.
Проджект-менеджер просит загрузить CSV-файл от клиента в HDFS «как есть», не проверяя данные. Вы замечаете, что в файле есть строки с разделителями внутри полей. Ваши действия?
Варианты ответа: Объясняю риски (повреждение данных, сбой парсинга) и предлагаю написать скрипт для предварительной очистки и валидации, Загружаю файл как есть, но добавляю предупреждение в документацию, Загружаю файл без изменений — менеджер сказал «как есть».
Ваш кластер Hadoop неожиданно теряет DataNode. Репликация данных настроена на 3, но одна из реплик хранилась на упавшей ноде. Ваши действия?
Варианты ответа: Проверяю health-статус Namenode, запускаю fsck для оценки повреждений, восстанавливаю недостающие блоки из других реплик и добавляю новую ноду в кластер, Перезагружаю упавшую ноду и надеюсь, что она поднимется, Удаляю все данные на этой ноде и перезапускаю Hadoop dfsadmin -report.
Вы разрабатываете потоковую обработку на Kafka Streams. Прод-система начинает терять сообщения при пиковой нагрузке, хотя consumer group настроена. Ваши действия?
Варианты ответа: Анализирую lag consumer-ов, проверяю настройки acks и min.insync.replicas, увеличиваю количество партиций и оптимизирую retention policy, Добавляю ещё один consumer в группу, чтобы увеличить пропускную способность, Перезапускаю Kafka-брокеры с дефолтными настройками.
Коллега-аналитик просит вас «быстро» выгрузить 500 ГБ логов из Hive в Excel. Ваши действия?
Варианты ответа: Объясняю, что Excel не предназначен для такого объёма, предлагаю выгрузить агрегированные данные через HiveQL или использовать Parquet + Jupyter, Выгружаю в CSV и говорю аналитику открыть его частями, Запускаю экспорт в Excel и надеюсь, что файл откроется.