Многие люди привыкли к идее, что приложения начинают работу с получения данных на входе, а затем предоставляют некий результат. Например, программист мог бы создать функцию Add, которая получает как ввод два значения, например, 1 и 2, а затем возвращает результат, 3. Выводом этого процесса является значение. В прошлом написание программы означало понимание того, как функция должна манипулировать данными, чтобы получить заданный результат при определенных входных данных. Машинное обучение осуществляет переворот в этом процессе. В данном случае вы знаете входные данные, это 1 и 2. Вы также знаете, что желаемый результат — 3. Однако вы не знаете, какую функцию применить, чтобы получить желаемый результат. Обучение предоставляет алгоритм со всякого рода примерами входных данных и ожидаемыми результатами для этих входных данных. Затем алгоритм использует заданный ввод, чтобы создать функцию. Другими словами, обучение — это процесс, в ходе которого обучаемый алгоритм сопоставляет с данными гибкую функцию. Выводом обычно является вероятность определенного класса или числового значения.
Чтобы дать общее представление о происходящем в ходе учебного процесса, вообразите ребенка, учащегося отличать деревья от других объектов. Прежде чем ребенок сможет сделать это самостоятельно, учитель показывает ему изображения деревьев, отображающие все факты, отличающие дерево от других объектов. К таким фактам могут относиться материал дерева, его части и расположение. Ребенок вырабатывает представление о том, как выглядит дерево, в отличие от изображений других объектов, таких как предметы мебели, которые тоже состоят из древесины, но не имеют других характеристик, схожих с характеристиками дерева.
Классификатор машинного обучения работает точно так. Он формирует свои когнитивные способности, создавая математические формулировки, включающие все заданные средства, способом, который определяет функцию, способную отличить один класс от другого. Предположим, что существует некая математическая формулировка, целевая функция, способная выразить характеристики дерева. В таком случае классификатор машинного обучения может искать свое представление как ее реплику или приближение. Способность выразить такую математическую формулировку является возможностью представления классификатора.
С математической точки зрения вы можете выразить процесс представления в машинном обучении, используя сопоставление эквивалентного термина. Сопоставление происходит, когда вы обнаруживаете конструкцию функции, наблюдая ее вывод. Успешное сопоставление в машинном обучении подобно ребенку, усваивающему идею объекта. Ребенок понимает абстрактные правила, следующие из фактов реального мира, поэтому, когда ребенок видит дерево, например, он сразу его узнает.
Такое представление возможно потому, что у алгоритма обучения есть множество внутренних параметров, эквивалентных памяти алгоритма для идей, которые лучше всего подходят для ассоциации средств с классами ответа. Размерности и тип внутренних параметров разграничивают вид целевых функций, которые алгоритм может изучать. Чтобы выяснить скрытую целевую функцию, механизм оптимизации алгоритма во время обучения изменяет значения параметров, начиная с их исходных значений.
Во время оптимизации алгоритм ищет возможные варианты комбинаций параметров, чтобы найти ту, при которой возможно правильное сопоставление средств и классов при обучении. Этот процесс вычисляет множество возможных целевых функций — потенциальных кандидатов из числа тех, которые может предположить обучающий алгоритм. Набор всех потенциальных функций, которые смог обнаружить обучающий алгоритм, является пространством гипотез. Вы можете вызвать результирующий классификатор с его параметрами для набора гипотез в ходе машинного обучения, чтобы сказать, что алгоритм установил параметры для репликации целевой функции и теперь готов определить правильные классификации.
Пространство гипотез должно содержать все варианты параметра всех алгоритмов машинного обучения, которые вы хотите попробовать сопоставить с неизвестной функцией при решении проблемы классификации. У различных алгоритмов могут быть разные пространства гипотез. Действительно имеет значение то, что пространство гипотез содержит целевую функцию.
Можете считать эту фазу временем, когда ребенок экспериментирует со многими разными творческими идеями, накапливая знания и опыт, чтобы получить представление о дереве. Естественно, на этой фазе задействованы родители, и они предоставляют корректные исходные данные об окружающей среде. В машинном обучении кто-то должен предоставить правильные алгоритмы обучения, некие не учебные параметры, выбрать набор примеров для изучения, а также выбрать сопутствующие примерам средства. Подобно тому, как ребенок не всегда может научиться различать, что правильно и что неправильно, если он остается в изоляции, алгоритмы машинного обучения нуждаются в людях, чтобы учиться успешно.