Накопление данных не является современным явлением; люди накапливали данные на протяжении многих столетий. Независимо от текстовой или числовой формы информации люди всегда ценили данные, описывающие окружающий мир, и продолжают использовать их для прогресса цивилизации. Данные значимы сами по себе. Используя их, человечество может изучать критически важную информацию и передавать ее потомкам.
Люди лишь недавно узнали, что данные могут содержать куда больше информации, чем кажется на первый взгляд. Если данные находятся в соответствующей числовой форме, к ним можно применить специальные методики, разработанные математиками и статистиками. Эти методики анализа данных позволяют извлечь из них куда больше информации. Кроме того, даже простой анализ данных позволяет извлечь из них осмысленную информацию, а подвергнув данные более совершенному анализу, с использованием алгоритмов машинного обучения можно предсказывать будущее, классифицировать информацию и эффективно принимать решения.
Анализ данных и машинное обучение позволяют перейти на следующий уровень использования данных, теперь — для разработки более умного искусственного интеллекта. Эта глава посвящена анализу данных. Она демонстрирует применение данных в качестве инструмента обучения при решении сложных проблем искусственного интеллекта, таких как правильная рекомендация товара клиенту, понимание разговорного языка и языкового перевода, автоматизация вождения автомобиля и многие другие.
Наше время называют веком информации не просто потому, что сейчас накоплено богатое разнообразие данных, но и потому, что общество достигло определенной зрелости в анализе данных и извлечении из них информации. Такие компании, как Alphabet, Amazon, Apple, Facebook и Microsoft, построили свой бизнес на данных. Они не просто собирают и хранят данные, полученные в результате цифровых процессов; они знают, как, используя точный и сложный анализ данных, сделать их такими же ценными, как нефть. Компания Google, например, собирает данные не только из веба вообще, но, между прочим, и из собственного поискового механизма.
Вы, возможно, уже встречали в новостях, журналах или на конференциях расхожую фразу “Данные — это новая нефть”. Она подразумевает, что данные могут сделать компанию богатой, но для этого придется тяжело и эффективно работать. Хотя эту концепцию использовали многие и сделали ее невероятно успешной, именно британский математик Клайв Хамбли впервые приравнял данные к нефти на основании своей практики с данными о потребителях в розничном секторе. Хамбли известен тем, что был среди основателей британской торговой компании Dunnhumby; его идеи также легли в основу программы дисконтных карт Tesco. В 2006 году Хамбли также подчеркнул, что данные — это не просто деньги, которые падают с неба; чтобы сделать их полезными, требуются усилия. Подобно тому, как нельзя непосредственно использовать неочищенную нефть, данные также следует существенно переработать, чтобы они приобрели значимость.
Самые простые преобразования данных — это анализ данных; вы можете считать его простым химическим преобразованием, которым нефть очищается на заводе прежде, чем стать ценным топливом или пластмассой. Используя подходящий анализ данных, вы можете заложить фундамент для более сложных аналитических процессов. Анализ данных, в зависимости от контекста, сводится к большому количеству возможных операций, иногда специфичных для конкретной отрасли или задачи. Все эти преобразования можно отнести к четырем основным категориям, концептуально отличающимся происходящим во время анализа.
Преобразование
Изменяет внешний вид данных. Термин преобразование применим к разным процессам, хотя данные, как правило, помещает в упорядоченные ряды и столбцы — матричный формат. Например, вы не можете эффективно обработать данные о товарах, купленных в супермаркете, прежде чем поместите каждого клиента в отдельный ряд и добавите купленные товары в один столбец в пределах этого ряда в виде числовых элементов, содержащих значения количества или платы. Чтобы сделать набор данных подходящим для алгоритма, могут также потребоваться специальные числовые преобразования, такие как масштабирование, вычисление среднего, минимального и максимального значений.
Чистка
Исправление дефектных данных. В зависимости от средств сбора данных могут возникнуть различные проблемы с отсутствием информации, выбросами значений из диапазона или просто неправильными значениями. Например, данные из супермаркета могут содержать ошибки, если у товаров неправильные ценники. Некоторые данные могут быть подложными, т.е. созданными специально, чтобы исказить заключение. Например, у товара могут быть поддельные отзывы в Интернете, которые изменят его ранг. Чистка помогает удалить подложные случаи из данных и сделать заключение объективней.
Проверка
Проверка данных. Анализ данных — это по большей части человеческая работа, хотя программное обеспечение играет в ней важную роль. Люди могут легко распознавать шаблоны и выявлять странные элементы данных. Поэтому анализ данных подразумевает множество статистических выкладок и графических представлений, таких как у Health InfoScape от MIT Senseable City Lab и General Electric, позволяющих сразу схватить информативное содержимое. Например, на основании обработанных данных из 72 миллионов медицинских записей можно увидеть, как взаимосвязаны болезни.
Моделирование
Выявление отношений между элементами в данных. Для решения этой задачи необходимы такие статистические инструменты, как корреляции, t-проверки, линейная регрессия и многие другие, позволяющие определить, действительно ли одно значение не зависит от другого или они взаимосвязаны. Например, анализируя продажи супермаркета, вы можете прийти к мнению, что люди, покупающие подгузники, имеют тенденцию покупать и пиво. Статистический анализ считает эти два товара взаимосвязанными, поскольку они многократно обнаруживаются в одних и тех же корзинах.
Магии в анализе данных нет. Вы осуществляете преобразования, очистку, проверку и моделирование, используя суммирование и умножение массивов на основании матричного исчисления. Арсенал анализа данных включает и такие статистические инструменты, как поиск среднего и дисперсии, описывающие распределение данных, и такие сложные инструментальные средства, как корреляция и линейный регрессионный анализ, показывающие, можно ли связать между собой некие события на основании доказательств. В процессе разработки успешных IT-продуктов для бизнеса возникает вопрос, как составить техническое задание на проектирование для специалистов? Непременно такие работы должны выполнять профессионалы профильной компании с большим опытом реализации проектов.
Более подробная информация об этих методиках обработки данных приведена в книгах Machine Learning For Dummies и Python for Data Science For Dummies Джона Пола Мюллера и Луки Массарона, практически представляющих собой краткий обзор и объяснение каждой из них.
Анализ данных существенно сложнее в случае их больших объемов. Для этого требуются специальные инструментальные средства, такие как Hadoop и Apache Spark. Эти два программных инструмента применяются для работы с большими массивами данных. Несмотря на такие передовые инструменты, как эти, все еще остается вопрос пота: до 80 процентов данных приходится готовить вручную. Вызывает интерес интервью с Моникой Рогати — экспертом и советником в области искусственного интеллекта многих компаний, обсуждающей эту проблему более подробно.