Собеседование на позицию Data Scientist: 46 типичных вопросов. Часть 2

30. Что такое «проклятие размерности» (curse of dimensionality)? (Тема: Данные)

«Проклятие размерности» – это явления, которые возникают при анализе данных с большим количеством признаков (данных высокой размерности), которых не возникает в обычных двухмерном и трехмерном пространстве. Общая тема: при росте размерности разреженность растет так быстро, что рассчитать все значения, необходимые для модели, становится практически нереально из-за нехватки вычислительной мощности. Нужно отметить, что в пространствах очень высокой размерности Евклидово расстояние между двумя элементами настолько мало, что любые методы или методы машинного обучения, требующие расчета дистанции между двумя точками, перестают работать. (Это одна из причин, по которым для распознавания образов большой размерности предпочитают сверточные нейронные сети).

31. Что такое полнота (recall) и точность (precision)? (Тема: Показатели классификации)

Полноту можно описать как «процент реально истинных результатов, которые наша модель правильно распознала». Точность можно описать как «процент реально истинных результатов среди тех, которые наша модель посчитала истинными».

32. Как бы вы справились с разными формами сезонности при моделировании временных рядов? (Тема: Временные ряды).

В реальных данных временных рядов (например, количества плюшевых мишек, закупаемых на фабрике игрушек) часто встречаются различные виды сезонности, которые могут пересекаться друг с другом. Годичная сезонность, вроде пика перед Рождеством и летнего спада, может сочетаться с месячной, недельной или даже дневной сезонностью. Это делает временной ряд нестационарным, поскольку среднее значение переменной различно для разных периодов времени.

Лучший способ удаления сезонности из данных – это дифференцирование временного ряда. Это процесс получения разности между датой x и x минус период сезонности, которым может быть год, месяц, или что-нибудь другое. При этом первый период сырых данных теряется, поскольку из них нечего вычитать.

33. Часто считается, что Ложный Негативный результат хуже, чем Ложный Позитивный. Можете ли вы привести пример, когда Ложный Позитивный результат хуже Ложного Негативного? (Тема: Показатели классификации, Организация)

Вот один пример из многих. Предположим, компания электронной торговли решила подарить чек на $1000 клиентам, которые, по ее мнению, купят товаров не менее чем на $5000. Если модель, используемая компанией, выдаст Ложный Негативный результат, она (ошибочно) не пошлет чек данному клиенту, поскольку считает, что он не потратит $5000 на товары. Хотя это далеко не идеально, компания не потеряет на этом денег. А вот если компания пошлет чек клиенту c Ложным Позитивным результатом (для которого модель ошибочно утверждает, что он купит на $5000), она потеряет на этом деньги.

34. В чем разница между тестовым и валидационным наборами данных? (Тема: Данные, Организация)

Тестовый набор данных используется для оценки качества модели после ее обучения. Валидационный набор используется в процессе обучения для выбора гиперпараметров и предотвращения переобучения на тренировочном наборе.

35. В каких случаях вы бы предпочли использовать SVM, а не Случайный Лес (и наоборот)? (Тема: Алгоритмы)

И SVM, и Случайный Лес – мощные алгоритмы классификации. Если данные хорошо очищены и не содержат выбросов, SVM будет хорошим выбором. В противном случае, Случайный Лес может суметь адаптироваться к этим данным. SVM (особенно с широким поиском параметров) потребляет намного больше вычислительной мощности, чем Случайные Леса, так что при нехватке памяти Случайный Лес будет предпочтительнее. Случайный Лес также предпочтителен для задач мультиклассовой классификации, тогда как SVM предпочтителен для задач высокой размерности, таких, как классификация текста.

36. Что такое ансамбли, и чем они полезны? (Тема: Алгоритмы)

Ансамбли – это группы алгоритмов, которые «голосуют» для принятия финального решения. Ансамбли успешны, поскольку слабые стороны одной модели могут быть компенсированы сильными сторонами других моделей, это значит, что успешные модели должны быть диверсифицированы. Это также значит, что модели, входящие в ансамбль, должны иметь разные слабые стороны. Исследования показали, что правильно созданные ансамбли дают лучшие результаты, чем одиночные классификаторы.

37. Какие методы можно использовать для заполнения пропущенных данных, и каковы последствия невнимательного заполнения данных? (Тема: Очистка данных)

Данные из реального мира часто имеют пропуски. Есть множество методов для их заполнения. Полное «лечение» – это процесс удаления каждой строки, содержащей значение NA. Это допустимо, если значений NA не очень много, они задевают не очень много строк, и данных достаточно – в противном случае, мы можем потерять что-нибудь важное. В данных из реального мира удаление любых строк, содержащих NA, может привести к потере наблюдаемых паттернов в данных.

Если полное удаление пропусков невозможно, существует множество методов их заполнения – такие, как заполнение средним значением, медианой или модой. Какой из них лучше, зависит от контекста.

Другой метод – это использовать k ближайших соседей (KNN), чтобы определить ближайших соседей строки с пропущенными данными и использовать среднее значение, медиану или моду для этих соседей. Это обеспечивает большую настраиваемость и управляемость, чем можно добиться использованием статистических значений.

Если метод заполнения пропусков реализован неаккуратно, оно может привести к ошибке выборки – любая модель хороша настолько, насколько хороши ее исходные данные, и если данные отклоняются от реальности, то же самое будет с моделью.

38. Каковы основные предположения о данных, которые должны быть сделаны перед их передачей в модель линейной регрессии? (Тема: Алгоритмы)

Данные должны иметь нормальное остаточное распределение, статистическую зависимость ошибок и линейность.

39. В чем разница между Байесовской оценкой решения и Методом максимального правдоподобия? (Тема: Алгоритмы)

При Байесовской оценке решения модель обладает определенными знаниями о данных (априори). Может быть несколько значений параметров, описывающих данные, и, следовательно, мы можем искать несколько параметров, например, 5 альф и 5 гамм, которые это делают. В результате Байесовской оценки решения мы получим множество моделей, чтобы делать множество предсказаний (по одной для каждой пары параметров с теми же значениями априори). Таким образом, если нужно сделать предсказание для новых данных, оно рассчитывается как взвешенная сумма предсказаний имеющихся моделей.

Метод максимального правдоподобия не принимает во внимание значение априори, так что он аналогичен Байесовской модели, использующей какое-то фиксированное значение априори.

40. В каких случаях вы бы использовали MSE и MAE? (Тема: Метрики точности)

Среднеквадратичная ошибка (Mean Squared Error, MSE) используется чаще, поскольку она «подсвечивает» большие ошибки. Поскольку производная от x2 равна 2x, чем больше x, тем больше разность между x и x-1. Однако, иногда выбирают Среднюю ошибку по модулю (Mean Absolute Error, MAE), поскольку она выдает результат, который проще интерпретировать. Таким образом, MSE может быть лучше, если вам просто нужно сравнивать модели друг с другом, но не нужно интерпретировать саму метрику, но если нужно интерпретировать результат метрики, лучше использовать MAE (например, модель в среднем ошибается на $4).

41. Что показывает P-значение о данных? (Тема: Статистика)

P-значение используется для проверки значимости результатов после статистического теста гипотезы. P-значения помогают анализирующему делать выводы и всегда находятся в диапазоне между 0 и 1.

P-значение, превышающее 0.05, обозначает недостаточные доказательства против нулевой гипотезы – а это значит, что нулевая гипотеза не может быть отвергнута.
P-значение, меньшее 0.05, обозначает сильные доказательства против нулевой гипотезы – это значит, что нулевая гипотеза может быть отвергнута.
P-значение, равное 0.05, находится на границе, то есть мы не можем сделать уверенного вывода о том, можно ли отвергнуть нулевую гипотезу.

42. Что такое ROC-кривая? Что такое AUC? (Тема: Метрики точности)

ROC-кривая – это кривая роста процента истинно позитивных результатов по мере роста процента ложных позитивных результатов. Полностью случайное предсказание будет изображаться прямой диагональной линией (черная штриховая линия на рисунке). Оптимальная модель будет как можно более близкой к оси y и к линии «y=1».

Одна из метрик того, насколько близка кривая ROC к этим линиям – AUC, или площадь под кривой (Area Under Curve). Чем выше AUC, тем лучше работает модель.

43. Что такое PCA, и чем он может помочь? (Тема: Алгоритмы)

Метод главных компонент (Principal Component Analysis, PCA) – метод сокращения размерности путем нахождения n ортогональных векторов, представляющих наибольшую вариантность из данных, где n – это размерность, до которой пользователь хочет сократить данные. Эти n векторов служат измерениями для новых данных.

PCA может помочь ускорить работу алгоритмов машинного обучения или визуализировать данные слишком большой размерности.

44. Объясните дилемму смещения-дисперсии (bias-variance tradeoff) и приведите примеры алгоритмов с высоким и низким смещением. (Тема: Алгоритмы)

Смещение (bias) – это ошибка, внесенная в вашу модель из-за чрезмерного упрощения алгоритма машинного обучения, которое может привести к недообучению. В процессе обучения модели делаются упрощенные предположения, чтобы сделать целевую функцию более простой для понимания. Алгоритмы машинного обучения с низким смещением включают деревья решений, KNN и SVM. Высоким смещением, в частности, отличаются линейная и логистическая регрессия.

Дисперсия (variance) – это ошибка, внесенная в вашу модель сложным алгоритмом машинного обучения, при котором модель усваивает также и шум из тренировочного набора данных, что приводит к плохой точности на тестовом наборе данных. Это может привести к высокой чувствительности и переобучению.

Обычно, по мере усложения модели вы увидите снижение ошибки вследствие уменьшения смещения модели. Однако, это происходит только до определенной точки – и если вы будете усложнять свою модель дальше, в конце концов вы ее переобучите.

45. Почему нелинейная функция Softmax часто бывает последней операцией в сложной нейронной сети? (Тема: Нейронные сети)

Потому, что она принимает вектор действительных чисел и возвращает распределение вероятностей. Какой бы вектор x ни подали на ее вход (неважно, положительных или отрицательных), на выходе будет набор чисел, пригодный в качестве распределения вероятностей: каждый элемент выходного значения будет неотрицательным, и их сумма будет равна 1.

46. Что такое векторизация TF/IDF? (Тема: NLP)

TF/IDF – это сокращение для Term Frequency/Inverse Document Frequency. Это числовая статистика, которая должна отражать, насколько данное слово важно для документа, являющегося частью набора документов. Она часто используется в качестве взвешивающего множителя при получении информации и извлечении текста. Значение TF/IDF увеличивается пропорционально количеству появлений этого слова в документе, но уменьшается пропорционально частоте использования этого слова во всем наборе документов, что помогает компенсировать тот факт, что некоторые слова в принципе встречаются чаще других.

На сколько вопросов вы ответили правильно? Эти вопросы относились к широкому диапазону тем, от нейронных сетей до очистки данных, от SVM до NLP, и от показателей классификации до статистики. Они должны хорошо показать, насколько вы знакомы с концепциями Data Science.

https://t.me/ai_machinelearning_big_data

Источник

Сайт