В «Скандале в Богемии» Шерлок Холмс говорит доктору Ватсону: «Теоретизировать, не имея данных, опасно. Незаметно для себя человек начинает подтасовывать факты, чтобы подогнать их к своей теории, вместо того чтобы подтвердить факты теорией».
адания, которые поступают от руководства организации или от инвесторов, часто постулируются как открытые пути к вопросу, а не реальный вопрос как таковой: «Мы недопоставляем единицы продукции», или «Наши клиенты покидают нас быстрее, чем ожидалось», или «В нашем продукте есть дефект».
выявление проблемы, как правило, является наиболее часто игнорируемой частью проектов, использующих данные. Я и
Рассмотрим процесс написания школьной работы: действие наобум, по
Руководители часто ставят проблему перед аналитиком данных и ожидают, что тот сразу же погрузится прямо в базу данных. Но сначала поставленный вопрос нужно понять, разобрать, проанализировать.
Прежде чем мы сможем подготовить и проанализировать данные, мы должны знать, сведения какого рода нам нужны. А для этого необходима небольшая тонкая настройка вопросов нашего проекта.
Вот только несколько для начала:
World Bank Data. Данные Всемирного банка — ценный ресурс глобальных данных о развитии.
European Union Open Data Portal. Портал открытых данных Европейского союза — правительственные данные государств — членов ЕС.
Million Song Dataset. Сборник метаданных и аудиозаписей популярной музыки.
The CIA World Factbook. Всемирный справочник ЦРУ — массивы данных из 267 стран по темам от истории до инфраструктуры.
National Climatic Data Center. Национальный центр клима
Определение вопроса помогает построить и спланировать подход к данным, гарантирующий, что мы получим наиболее релевантные результаты.
Процесс состоит из пяти этапов:
Сформулируйте вопрос.
Подготовьте данные.
Проанализируйте данные.
Визуализируйте выводы.
Представьте выводы.
В соревнованиях 2016 г. по игре в го (очень популярная в Восточной Азии абстрактная стратегическая настольная игра, в которой участвуют двое) машине, известной как AlphaGo и созданной дочерней компанией Google DeepMind, удалось победить 18-кратного чемпиона мира Ли Седоля в четырех из пяти игр.