Тест: подходит ли вам профессия «Big Data Engineer»? Пройдите бесплатно

Увеличиваю количество партиций и настраиваю spark.sql.shuffle.partitions, проверяю наличие skew-ключей и добавляю salting →

Увеличиваю executor memory в конфигурации и перезапускаю задачу →

Переписываю весь код на Pandas, чтобы избежать проблем Spark →

🎯

Задание 2 из 10

Проджект-менеджер просит загрузить CSV-файл от клиента в HDFS «как есть», не проверяя данные. Вы замечаете, что в файле есть строки с разделителями внутри полей. Ваши действия?

Объясняю риски (повреждение данных, сбой парсинга) и предлагаю написать скрипт для предварительной очистки и валидации →

Загружаю файл как есть, но добавляю предупреждение в документацию →

Загружаю файл без изменений — менеджер сказал «как есть» →

Проверяю health-статус Namenode, запускаю fsck для оценки повреждений, восстанавливаю недостающие блоки из других реплик и добавляю новую ноду в кластер →

Перезагружаю упавшую ноду и надеюсь, что она поднимется →

Удаляю все данные на этой ноде и перезапускаю Hadoop dfsadmin -report →

Анализирую lag consumer-ов, проверяю настройки acks и min.insync.replicas, увеличиваю количество партиций и оптимизирую retention policy →

Добавляю ещё один consumer в группу, чтобы увеличить пропускную способность →

Перезапускаю Kafka-брокеры с дефолтными настройками →

Объясняю, что Excel не предназначен для такого объёма, предлагаю выгрузить агрегированные данные через HiveQL или использовать Parquet + Jupyter →

Выгружаю в CSV и говорю аналитику открыть его частями →

Запускаю экспорт в Excel и надеюсь, что файл откроется →

Анализирую план выполнения (DAG), нахожу ключи с перекосом, добавляю salting и настраиваю adaptive query execution →

Увеличиваю ресурсы (executors, memory) и перезапускаю задачу →

Переписываю джоб на MapReduce — он медленнее, но стабильнее →

Использую Kafka как брокер, Spark Structured Streaming или Flink для обработки, настраиваю exactly-once семантику и retention по времени →

Использую RabbitMQ и простой Python-скрипт для записи в БД →

Пишу всё на Node.js и сохраняю в MongoDB — это быстро и просто →

Запускаю проверку чек-сумм, изолирую повреждённые файлы, восстанавливаю их из бэкапа или реплик, документирую инцидент →

Копирую все файлы как есть, а повреждённые помечаю в логе →

Пропускаю повреждённые файлы — 95% данных достаточно →

Предлагаю создать новую таблицу с нужным полем, переключить пайплайны постепенно, используя versioning и тестовую среду →

Добавляю поле напрямую и предупреждаю команду о возможных проблемах →

Отказываю — «таблицу менять нельзя, работайте с тем, что есть» →

🎯

Задание 10 из 10

Ночной батч-процесс не завершился из-за ошибки в Python-скрипте (деление на ноль). Данные за сегодня не обновлены. Утро понедельника, отчётность ждут. Ваши действия?

Исправляю скрипт (добавляю проверку на ноль), перезапускаю батч с корректными данными, добавляю алертинг и unit-тесты для защиты от повторения →

Перезапускаю тот же скрипт, но с try-except, чтобы пропустить проблемные строки →

Вручную правлю данные в БД, чтобы отчёт сошёлся →

Тест: подходит ли вам профессия «Big Data Engineer»?

Зачем проходить тест на профессию «Big Data Engineer»?

🎮 Квест: Профессия «Big Data Engineer»

Вопросы и ответы о тесте на профессию «Big Data Engineer»

Настройки доступности

Тест: подходит ли вам профессия «Big Data Engineer»?

Зачем проходить тест на профессию «Big Data Engineer»?

🎮 Квест: Профессия «Big Data Engineer»

Вопросы и ответы о тесте на профессию «Big Data Engineer»

Похожие профессии и тесты