Данные
Данные (англ. data) – интерпретированные формализованным способом сведения, которые позволяют субъекту более качественно оперировать ими, проводя их сбор, хранение, обработку, анализ, интерпретацию и передачу с целью создания информации.
Сами по себе данные не имеют смысла — они приобретают смысл только после их анализа и интерпретации субъектом.
Примеры для осознания:
- Шаг №1. Сведения, проявленные субъектом: изменение температуры воды в реке в течение дня;
- Шаг №2. Данные, подготовленные субъектом: почасовый список замеров температуры воды в реке в течение дня, измеренный в градусах Цельсия;
- Шаг №3. Информация, произведённая субъектом: создан график, показывающий изменение температуры воды в реке в течение дня. Созданный график размещён субъектом в написанной им монографии;
- Шаг №4. График, подготовленный субъектом и размешённый им в своей монографии, представляет собою сведения для всех остальных субъектов;
- Шаг №5. И т.д.
Люди пока не имеют способностей, которые позволяли бы им напрямую обрабатывать сведения в том виде, в котором они существуют на своих «носителях» (плоти). Поэтому для коммуникации и обработки используются не сами сведения, а данные, которые подготовлены на их основе.
Вид, который могут принять организованные и интерпретированные субъектом данные зависит исключительно от его воли, желания, способностей и возможностей. Это могут быть тексты, графики, таблицы, компьютерный код, видео, аудио и т.д.
Содержание
Виды данных
по степени их структурирования:
- Структурированные (например, таблицы в базах данных), относительно легко поддаются машинной обработке;
- Неструктурированные (например, текстовый документ или посты в социальных сетях), автоматическая обработка не всегда возможна;
- Временные.
по формализованному виду:
- Аналоговые (используют для представления непрерывные физические величины);
- Цифровые — (используют для представления последовательность дискретных (цифровых) физических или виртуальных величин).
по тому, к каким объектам они имеют отношение:
- Физические (имеющие отношение к объектам, которые созданы Природой, а также её существами и сущностями, которые можно описать при помощи физических наук).
- Виртуальные (имеющие отношение к объектам, которые созданы людьми при помощи использования вычислительной техники).
Типы данных
- Числа (например, результаты измерений температуры);
- Текст (сообщения, документы);
- Изображения, аудио, видео;
- Бинарные коды (компьютерные файлы);
- и т.д.
Свойства данных
- Сами по себе данные не имеют смысла — они становятся полезными только после анализа и интерпретации их субъектом.
Операции по обработке данных
Основные виды операций по обработке данных можно условно разделить на следующие категории:
Базовые операции:
- Сбор данных: Получение данных из различных источников (датчики, формы, базы данных, API и т.д.);
- Ввод данных: Загрузка данных в систему для последующей обработки;
- Валидация (проверка): Проверка данных на соответствие заданным форматам и правилам;
- Очистка (Data Cleaning): Удаление дубликатов, исправление ошибок, заполнение пропусков, обработка аномалий.
Обработка данных:
- Сортировка: Упорядочивание данных по определённым критериям (например, по дате, алфавиту, числовым значениям);
- Фильтрация: Отбор данных, соответствующих заданным критериям (например, выборка записей за определенный период);
- Агрегация: Объединение данных для получения сводной информации (например, вычисление сумм, средних значений, максимальных и минимальных значений);
- Трансформация: Изменение формата или структуры данных (например, конвертация единиц измерения);
- Объединение данных: Слияние данных из разных источников;
- Машинное обучение: Использование алгоритмов для построения моделей, которые могут делать прогнозы или принимать решения;
- Пакетная обработка: Обработка больших объёмов данных в пакетном режиме;
- Обработка в реальном времени: Обработка данных по мере их поступления;
- Интерактивная обработка: Обработка данных в диалоговом режиме с пользователем;
- Распределенная обработка: Обработка данных на нескольких устройствах по их обработке одновременно.
- Обогащение данных: Добавление внешней информации (например, геоданные).
Анализ данных:
- Статистический анализ: Расчёт показателей (например, дисперсия, корреляция, регрессия);
- Классификация и кластеризация: Группировка данных по признакам (например, с помощью алгоритмов машинного обучения);
- Прогнозирование: Использование моделей для предсказания будущих значений (например, временные ряды);
- Текстовый анализ (NLP): Обработка естественного языка.
Хранение данных:
- Запись данных: Сохранение данных в файлы, базы данных, облачные хранилища и т. д.
- Индексирование: Оптимизация поиска и доступа к данным;
- Архивация: Сжатие и долгосрочное хранение данных.
Защита данных:
- Шифрование: Обеспечение конфиденциальности;
- Резервное копирование: Предотвращение потери данных;
- Управление доступом: Настройка прав пользователей.
Вывод данных:
- Визуализация данных: Представление данных в графическом виде (например, диаграммы, графики, карты и т. д.);
- Печать данных: Вывод данных на бумагу;
- Экспорт данных: Сохранение данных в файлы различных форматов;
- Передача данных: Отправка данных по сети.
Эти этапы часто объединяют в концепцию ETL-процессов (Extract, Transform, Load), что отражает стандартный подход к подготовке и обработке данных для аналитических систем.