Анализ данных важен для искусственного интеллекта. Фактически никакой современный искусственный интеллект невозможен без визуализации, очистки, преобразования и моделирования данных прежде, чем передовые алгоритмы вступят в игру и поднимут значимость информации на куда более высокий уровень, чем прежде.
В начале, когда искусственный интеллект состоял просто из алгоритмических решений и экспертных систем, ученые и эксперты тщательно готовили передаваемые ему данные. Поэтому, если некто хотел, например, чтобы алгоритм сортировал информацию, эксперт по данным помещал данные в списки или другие структуры данных, которые могли содержать информацию и позволять манипулировать ею желательным образом. Затем эксперты по данным собирали и организовывали данные так, чтобы их содержимое и форма были точно такими, как ожидалось, согласно конкретной цели, для которой они были созданы. Манипулирование известными данными в специфической форме налагало серьезные ограничения, поскольку обработка данных требовала много времени и энергии; а, следовательно, алгоритмы получали меньше информации, чем доступно сегодня.
Сегодня внимание сместилось с создания данных на их подготовку для анализа. Дело в том, что различные источники уже производят данные в таких больших количествах, что в них уже можно найти все нужное без необходимости создавать данные для задачи специально. Представьте, например, что искусственный интеллект должен контролировать дверцу для домашнего животного в двери жилого дома, чтобы впускать вашего кота или собаку, но не других животных. Современные алгоритмы искусственного интеллекта обучаются на основании специфических для задачи данных, а значит, предстоит обработка больших количеств изображений с примерами собак, котов и других животных. Вероятнее всего, такой огромный набор изображений поступит из Интернета, возможно, с социальных сайтов или поисковиков изображений. Ранее выполнение подобной задачи означало, что алгоритмы используют лишь несколько изображений, чтобы получить исходные данные о форме, размере и отличительных характеристиках животных. Недостаток данных означал возможность выполнения весьма ограниченных задач. Фактически нет никаких примеров того, что искусственный интеллект мог контролировать дверь для животных, используя классические алгоритмы или экспертные системы.
Анализ данных приходит на помощь современным алгоритмам, предоставляя информацию об изображениях, полученных из Интернета. Анализ данных позволяет искусственному интеллекту отобрать изображения по размеру, разнообразию, количеству цветов, слов в их подписях и т.д. Это этап проверки данных, и в данном случае он необходим для их очистки и преобразования.
Например, анализ данных может помочь определить фотографию животного, ошибочно помеченную, как кот, и преобразовать изображения так, чтобы использовать одинаковый формат цвета и одинаковый размер.