алгоритмы машинного обучения

Пределы машинного обучения: причины ограничений

Для анализа огромных наборов данных машинное обучение полагается на алгоритмы. В настоящее время машинное обучение не способно обеспечить такой вид искусственного интеллекта, как в кино. Даже наилучшие алгоритмы не могут думать, чувствовать, обладать любой формой самосознания или иметь свободу выбора. На что машинное обучение способно, так это выполнять прогнозирующую аналитику намного быстрее, чем любой человек. В результате машинное обучение может помочь людям работать эффективнее. Да, искусственный интеллект в текущем состоянии способен выполнить выдающийся анализ, но смысл его результатов все еще должны осознавать люди, они же принимают необходимые моральные и этические решения на его основании. По существу, машинное обучение обеспечивает лишь часть обучения искусственного интеллекта, и эта часть ничуть не готова создать искусственный интеллект того вида, который вы видите в фильмах.

Основная причина несоответствия между обучением и интеллектом — в человеческом предположении, что простой способности машины справляться со своей работой уже достаточно для сознания. Это предположение ничем не подтверждено для машинного обучения. То же самое происходит, когда люди полагают, что компьютер преднамеренно создает для них проблемы. Компьютер не имеет эмоций и поэтому действует только на основании предоставленных данных и инструкций для их обработки. Истинный искусственный интеллект получится только тогда, когда компьютеры, наконец, смогут подражать следующей сложной комбинации, используемой в природе.

  • Генетика. Медленное обучение из поколения в поколение.
  • Обучение. Быстрое обучение на базе организованных источников.
  • Исследование. Спонтанное обучение на базе средств массовой информации и общения между собой.

Кроме того факта, что машинное обучение состоит из математических функций, оптимизированных для определенной цели, пределы машинного обучения обусловливают и другие недостатки. Необходимо учесть три важных предела:

  • Представление. Представление некоторых проблем с использованием математических функций не всегда просто, особенно для таких комплексных проблем, как имитация работы человеческого мозга. В настоящее время машинное обучение может решать отдельные специфические задачи, подразумевающие ответы на такие простые вопросы, как «Что это такое?», «Сколько стоит?» и «Что будет дальше?»
  • Переобучение. Алгоритму машинного обучения может казаться, что он изучает то, о чем вы просили, но фактически это не так. Их внутренние функции по большей части только запоминают данные, но не учатся на них. Переобучение происходит, когда ваш алгоритм учится на ваших данных слишком много и достигает момента создания функций и правил, которых в действительности не существует.
  • Нехватка эффективного обобщения из-за ограниченных данных. Алгоритм изучает то, что вы ему даете. Если снабдить алгоритм плохими или недостоверными данными, он поведет себя неожиданным образом.

Что касается представления, отдельный обучаемый алгоритм может узнать много разных вещей, но не каждый алгоритм подходит для определенных задач. Некоторые алгоритмы являются достаточно общими, они могут играть в шахматы, распознавать лица в Facebook и диагностировать рак у пациентов. Алгоритм ограничивает поступающие данные, и ожидаемым результатом этих данных в любом случае будет функция, но функция, специфическая для задач такого вида, для которого предназначен алгоритм.

Тайна машинного обучения — в обобщении. Однако в обобщении кроются проблемы переобучения и смещенных данных. Задача в том, чтобы обобщить функцию вывода так, чтобы эти проблемы не повлияли на данные учебных примеров. Рассмотрим, к примеру, фильтр спама. Скажем, что ваш словарь содержит 100 000 слов. Учебный набор данных, ограниченный 4000 или 5000 словосочетаний, должен создать обобщенную функцию, способную затем найти спам в 1 000 000 комбинациях, которые функция будет встречать при работе с фактическими данными. В таких условиях алгоритму будет казаться, что он изучил правила языка, но в действительности это не так. Алгоритм может правильно реагировать на ситуации, подобные использованным при обучении, но в совершенно новых ситуациях окажется некомпетентным. Или могут неожиданно проявиться пристрастия из-за вида использованных при обучении данных.

Например, компания Microsoft обучала свой искусственный интеллект, Тау, общаться с людьми через Twitter, а также учиться на их ответах. К сожалению, общение пошло неправильно, поскольку пользователи научили Тау нецензурной речи, поставив под вопрос совершенство любого искусственного интеллекта на базе технологий машинного обучения. Проблема была в том, что алгоритму машинного обучения были плохо поданы данные, без фильтрации, что привело в результате к переобучению. Переобучение привело к выбору неправильного набора функций для общего представления мира способом, который должен был бы избежать нетолерантности, такой как нецензурная речь. Другой обучаемый беседе с людьми искусственный интеллект, заслуженный Mitsuku 2, не подвержен таким рискам, как Тау, поскольку его обучение строго контролируется как анализом данных, так и человеком.