статистика и машинное обучение

Машинное обучение: поиск правды в вероятностях

На некоторых веб-сайтах утверждается, что статистика и машинное обучение — это две совершенно разные технологии. Например, складывается впечатление, что эти две технологии не только различны, но и совершенно враждебны одна другой. Хотя статистика демонстрирует скорее теоретический подход к задачам, а машинное обучение просто основано на данных, у статистики и машинного обучения есть много общего. Кроме того, статистика представляет одну из пяти научных школ, делающих машинное обучение возможным.

Статистика часто использует вероятности, а, следовательно, она присуща и машинному обучению, и искусственному интеллекту. Не все задачи похожи на игру в шахматы или Го, позволяющие предпринимать большое, но ограниченное количество действий. Если вы хотите узнать, как будет перемещаться робот в коридоре, переполненном людьми, или создать беспилотный автомобиль, успешно участвующий в дорожном движении, вам стоит учесть, что у некоторых планов не всегда будет единственный результат, что возможно множество результатов, каждый со своей вероятностью. В некотором смысле вероятность поддерживает системы искусственного интеллекта в их рассуждении, принятии решений и выработке того, что кажется наилучшим, самым рациональным выбором, несмотря на неопределенность. Неопределенность может возникать по различным причинам, и искусственный интеллект должен быть осведомлен об уровне неопределенности, чтобы эффективно использовать вероятности.

Некоторые ситуации нельзя прогнозировать с уверенностью, поскольку они случайны по своей природе. Подобные ситуации изначально являются стохастическими. Например, при игре в карты вы не можете знать, какие карты окажутся на руках после сдачи.

Даже если ситуация не случайна, не факт, что ни один из ее аспектов не создаст неопределенности по мере развития событий. Например, робот, попавший в коридор с людьми, не может знать намеченный путь каждого человека, но может сделать предположение об этом на основании частичного наблюдения за их поведением. Как и с любым предположением, у робота есть шанс оказаться как правым, так и неправым.

Ограниченность записывающих данные аппаратных средств и приближения при их обработке обусловливают некоторую неопределенность результатов, полученных на их основании. Измерение нередко подвержено ошибкам из-за используемых инструментальных средств и способа измерения. Кроме того, люди зачастую подвержены когнитивным пристрастиям и легко становятся жертвой иллюзий или предвзятости. Точно так искусственный интеллект ограничен качеством полученных данных. Приближения и ошибки ввода привносят неопределенность в каждый алгоритм.