Данные

Материал из Терминологии
(перенаправлено с «Данные аналоговые»)
Перейти к навигации Перейти к поиску

Данные (англ. data) – интерпретированные формализованным способом сведения, которые позволяют субъекту более качественно оперировать ими, проводя их сбор, хранение, обработку, анализ, интерпретацию и передачу с целью создания информации.

Сами по себе данные не имеют смысла — они приобретают смысл только после их анализа и интерпретации субъектом.


Примеры для осознания:

  • Шаг №1. Сведения, проявленные субъектом: изменение температуры воды в реке в течение дня;
  • Шаг №2. Данные, подготовленные субъектом: почасовый список замеров температуры воды в реке в течение дня, измеренный в градусах Цельсия;
  • Шаг №3. Информация, произведённая субъектом: создан график, показывающий изменение температуры воды в реке в течение дня. Созданный график размещён субъектом в написанной им монографии;
  • Шаг №4. График, подготовленный субъектом и размешённый им в своей монографии, представляет собою сведения для всех остальных субъектов;
  • Шаг №5. И т.д.

Люди пока не имеют способностей, которые позволяли бы им напрямую обрабатывать сведения в том виде, в котором они существуют на своих «носителях» (плоти). Поэтому для коммуникации и обработки используются не сами сведения, а данные, которые подготовлены на их основе.

Вид, который могут принять организованные и интерпретированные субъектом данные зависит исключительно от его воли, желания, способностей и возможностей. Это могут быть тексты, графики, таблицы, компьютерный код, видео, аудио и т.д.


Виды данных

по степени их структурирования:

  • Структурированные (например, таблицы в базах данных), относительно легко поддаются машинной обработке;
  • Неструктурированные (например, текстовый документ или посты в социальных сетях), автоматическая обработка не всегда возможна;
  • Временные.


по формализованному виду:

  • Аналоговые (используют для представления непрерывные физические величины);
  • Цифровые — (используют для представления последовательность дискретных (цифровых) физических или виртуальных величин).


по тому, к каким объектам они имеют отношение:

  • Физические  (имеющие отношение к объектам, которые созданы Природой, а также её существами и сущностями, которые можно описать при помощи физических наук).
  • Виртуальные (имеющие отношение к объектам, которые созданы людьми при помощи использования вычислительной техники).


Типы данных

  • Числа (например, результаты измерений температуры);
  • Текст (сообщения, документы);
  • Изображения, аудио, видео;
  • Бинарные коды (компьютерные файлы);
  • и т.д.


Свойства данных

  • Сами по себе данные не имеют смысла — они становятся полезными только после анализа и интерпретации их субъектом.


Операции по обработке данных

Основные виды операций по обработке данных можно условно разделить на следующие категории:

Базовые операции:

  • Сбор данных: Получение данных из различных источников (датчики, формы, базы данных, API и т.д.);
  • Ввод данных: Загрузка данных в систему для последующей обработки;
  • Валидация (проверка): Проверка данных на соответствие заданным форматам и правилам;
  • Очистка (Data Cleaning): Удаление дубликатов, исправление ошибок, заполнение пропусков, обработка аномалий.

Обработка данных:

  • Сортировка: Упорядочивание данных по определённым критериям (например, по дате, алфавиту, числовым значениям);
  • Фильтрация: Отбор данных, соответствующих заданным критериям (например, выборка записей за определенный период);
  • Агрегация: Объединение данных для получения сводной информации (например, вычисление сумм, средних значений, максимальных и минимальных значений);
  • Трансформация: Изменение формата или структуры данных (например, конвертация единиц измерения);
  • Объединение данных: Слияние данных из разных источников;
  • Машинное обучение: Использование алгоритмов для построения моделей, которые могут делать прогнозы или принимать решения;
  • Пакетная обработка: Обработка больших объёмов данных в пакетном режиме;
  • Обработка в реальном времени: Обработка данных по мере их поступления;
  • Интерактивная обработка: Обработка данных в диалоговом режиме с пользователем;
  • Распределенная обработка: Обработка данных на нескольких устройствах по их обработке одновременно.
  • Обогащение данных: Добавление внешней информации (например, геоданные).

Анализ данных:

  • Статистический анализ: Расчёт показателей (например, дисперсия, корреляция, регрессия);
  • Классификация и кластеризация: Группировка данных по признакам (например, с помощью алгоритмов машинного обучения);
  • Прогнозирование: Использование моделей для предсказания будущих значений (например, временные ряды);
  • Текстовый анализ (NLP): Обработка естественного языка.

Хранение данных:

  • Запись данных: Сохранение данных в файлы, базы данных, облачные хранилища и т. д.
  • Индексирование: Оптимизация поиска и доступа к данным;
  • Архивация: Сжатие и долгосрочное хранение данных.

Защита данных:

  • Шифрование: Обеспечение конфиденциальности;
  • Резервное копирование: Предотвращение потери данных;
  • Управление доступом: Настройка прав пользователей.

Вывод данных:

  • Визуализация данных: Представление данных в графическом виде (например, диаграммы, графики, карты и т. д.);
  • Печать данных: Вывод данных на бумагу;
  • Экспорт данных: Сохранение данных в файлы различных форматов;
  • Передача данных: Отправка данных по сети.

Эти этапы часто объединяют в концепцию ETL-процессов (Extract, Transform, Load), что отражает стандартный подход к подготовке и обработке данных для аналитических систем.