Данные: различия между версиями

Материал из Терминологии
Перейти к навигации Перейти к поиску
(Новая страница: «'''Данные''' — представление информации в формализованном виде, пригодном д...»)
 
 
(не показано 29 промежуточных версий этого же участника)
Строка 1: Строка 1:
'''Данные''' — представление [[информация|информации]] в формализованном виде, пригодном для дальнейшей передачи и обработки.
+
'''Данные''' (англ. data)  – [[Интерпретация|интерпретированные]] формализованным способом [[сведения]], которые позволяют [[Субъект|субъекту]] более качественно оперировать ими, проводя  их сбор, хранение, обработку, анализ, [[Интерпретация|интерпретацию]] и передачу с целью создания [[Информация|информации]].
 +
 
 +
Сами по себе данные не имеют смысла — они приобретают смысл  только после их анализа и интерпретации субъектом.
 +
 
 +
 
 +
'''Примеры для осознания:'''
 +
 
 +
* '''Шаг №1. Сведения, проявленные субъектом:''' изменение температуры воды в реке в течение дня;
 +
* '''Шаг №2. Данные, подготовленные субъектом:''' почасовый список замеров температуры воды в реке в течение дня, измеренный в градусах Цельсия; 
 +
* '''Шаг №3. Информация, произведённая субъектом:''' создан график, показывающий изменение температуры воды в реке в течение дня. Созданный график размещён субъектом в написанной им монографии;
 +
* '''Шаг №4. График, подготовленный субъектом и размешённый им в своей  монографии, представляет собою сведения для всех остальных субъектов;'''
 +
* '''Шаг №5.''' И т.д.
 +
 
 +
Люди пока не имеют способностей, которые позволяли бы им напрямую обрабатывать сведения в том виде, в котором они существуют на своих «носителях» (плоти). Поэтому для коммуникации и обработки используются не сами сведения, а данные, которые подготовлены на их основе.
 +
 
 +
Вид, который могут принять организованные и интерпретированные субъектом данные зависит исключительно от его воли, желания, способностей и возможностей. Это могут быть тексты, графики, таблицы, компьютерный код, видео, аудио и т.д.
 +
 
 +
 
 +
 
 +
== Виды данных ==
 +
 
 +
=== по степени их структурирования: ===
 +
* Структурированные (например, таблицы в базах данных), относительно легко поддаются машинной обработке;
 +
* Неструктурированные (например, текстовый документ или посты в социальных сетях), автоматическая обработка не всегда возможна;
 +
* Временные.
 +
 
 +
 
 +
 
 +
=== по формализованному виду: ===
 +
* Аналоговые (используют для представления непрерывные физические величины);
 +
* Цифровые — (используют для представления последовательность дискретных (цифровых) физических или виртуальных величин).
 +
 
 +
 
 +
 
 +
=== по тому, к каким объектам они имеют отношение: ===
 +
* Физические  (имеющие отношение к объектам, которые созданы Природой, а также её существами и сущностями, которые можно описать при помощи физических наук).
 +
* Виртуальные (имеющие отношение к объектам, которые созданы людьми при помощи использования вычислительной техники).
 +
 
 +
 
 +
 
 +
== Типы данных ==
 +
 +
* Числа (например, результаты измерений температуры); 
 +
* Текст (сообщения, документы); 
 +
* Изображения, аудио, видео; 
 +
* Бинарные коды (компьютерные файлы);
 +
* и т.д. 
 +
 
 +
 
 +
 
 +
== Свойства данных == 
 +
 
 +
* Сами по себе данные не имеют смысла — они становятся полезными только после анализа и интерпретации их субъектом. 
 +
 
 +
 
 +
 
 +
== Операции по обработке данных ==
 +
 
 +
Основные виды операций по обработке данных можно условно разделить на следующие категории:
 +
 
 +
'''Базовые операции:'''
 +
* '''Сбор данных''': Получение данных из различных источников (датчики, формы, базы данных, API и т.д.);
 +
* '''Ввод данных''': Загрузка данных в систему для последующей обработки;
 +
* '''Валидация (проверка)''': Проверка данных на соответствие заданным форматам и правилам;
 +
* '''Очистка (Data Cleaning)''': Удаление дубликатов, исправление ошибок, заполнение пропусков, обработка аномалий.
 +
 
 +
'''Обработка данных:'''
 +
* '''Сортировка''': Упорядочивание данных по определённым критериям (например, по дате, алфавиту, числовым значениям);
 +
* '''Фильтрация''': Отбор данных, соответствующих заданным критериям (например, выборка записей за определенный период);
 +
* '''Агрегация''': Объединение данных для получения сводной информации (например, вычисление сумм, средних значений, максимальных и минимальных значений);
 +
* '''Трансформация''': Изменение формата или структуры данных (например, конвертация единиц измерения);
 +
* '''Объединение данных''': Слияние данных из разных источников;
 +
* '''Машинное обучение''': Использование алгоритмов для построения моделей, которые могут делать прогнозы или принимать решения;
 +
* '''Пакетная обработка''': Обработка больших объёмов данных в пакетном режиме;
 +
* '''Обработка в реальном времени''': Обработка данных по мере их поступления;
 +
* '''Интерактивная обработка''': Обработка данных в диалоговом режиме с пользователем;
 +
* '''Распределенная обработка''': Обработка данных на нескольких устройствах по их обработке одновременно.
 +
* '''Обогащение данных''': Добавление внешней информации (например, геоданные).
 +
 
 +
'''Анализ данных:'''
 +
* '''Статистический анализ''': Расчёт показателей (например, дисперсия, корреляция, регрессия);
 +
* '''Классификация и кластеризация''': Группировка данных по признакам (например, с помощью алгоритмов машинного обучения);
 +
* '''Прогнозирование''': Использование моделей для предсказания будущих значений (например, временные ряды);
 +
* '''Текстовый анализ (NLP)''': Обработка естественного языка.
 +
 
 +
'''Хранение данных:'''
 +
* '''Запись данных''': Сохранение данных в файлы, базы данных, облачные хранилища и т. д.
 +
* '''Индексирование''': Оптимизация поиска и доступа к данным;
 +
* '''Архивация''': Сжатие и долгосрочное хранение данных.
 +
 
 +
'''Защита данных:'''
 +
* '''Шифрование''': Обеспечение конфиденциальности;
 +
* '''Резервное копирование''': Предотвращение потери данных;
 +
* '''Управление доступом''': Настройка прав пользователей.
 +
 
 +
'''Вывод данных:'''
 +
* '''Визуализация данных''': Представление данных в графическом виде (например, диаграммы, графики, карты и т. д.);
 +
* '''Печать данных''': Вывод данных на бумагу;
 +
* '''Экспорт данных''': Сохранение данных в файлы различных форматов;
 +
* '''Передача данных''': Отправка данных по сети.
 +
 
 +
Эти этапы часто объединяют в концепцию ETL-процессов (Extract, Transform, Load), что отражает стандартный подход к подготовке и обработке данных для аналитических систем.

Текущая версия на 06:52, 10 марта 2025

Данные (англ. data) – интерпретированные формализованным способом сведения, которые позволяют субъекту более качественно оперировать ими, проводя их сбор, хранение, обработку, анализ, интерпретацию и передачу с целью создания информации.

Сами по себе данные не имеют смысла — они приобретают смысл только после их анализа и интерпретации субъектом.


Примеры для осознания:

  • Шаг №1. Сведения, проявленные субъектом: изменение температуры воды в реке в течение дня;
  • Шаг №2. Данные, подготовленные субъектом: почасовый список замеров температуры воды в реке в течение дня, измеренный в градусах Цельсия;
  • Шаг №3. Информация, произведённая субъектом: создан график, показывающий изменение температуры воды в реке в течение дня. Созданный график размещён субъектом в написанной им монографии;
  • Шаг №4. График, подготовленный субъектом и размешённый им в своей монографии, представляет собою сведения для всех остальных субъектов;
  • Шаг №5. И т.д.

Люди пока не имеют способностей, которые позволяли бы им напрямую обрабатывать сведения в том виде, в котором они существуют на своих «носителях» (плоти). Поэтому для коммуникации и обработки используются не сами сведения, а данные, которые подготовлены на их основе.

Вид, который могут принять организованные и интерпретированные субъектом данные зависит исключительно от его воли, желания, способностей и возможностей. Это могут быть тексты, графики, таблицы, компьютерный код, видео, аудио и т.д.


Виды данных

по степени их структурирования:

  • Структурированные (например, таблицы в базах данных), относительно легко поддаются машинной обработке;
  • Неструктурированные (например, текстовый документ или посты в социальных сетях), автоматическая обработка не всегда возможна;
  • Временные.


по формализованному виду:

  • Аналоговые (используют для представления непрерывные физические величины);
  • Цифровые — (используют для представления последовательность дискретных (цифровых) физических или виртуальных величин).


по тому, к каким объектам они имеют отношение:

  • Физические  (имеющие отношение к объектам, которые созданы Природой, а также её существами и сущностями, которые можно описать при помощи физических наук).
  • Виртуальные (имеющие отношение к объектам, которые созданы людьми при помощи использования вычислительной техники).


Типы данных

  • Числа (например, результаты измерений температуры);
  • Текст (сообщения, документы);
  • Изображения, аудио, видео;
  • Бинарные коды (компьютерные файлы);
  • и т.д.


Свойства данных

  • Сами по себе данные не имеют смысла — они становятся полезными только после анализа и интерпретации их субъектом.


Операции по обработке данных

Основные виды операций по обработке данных можно условно разделить на следующие категории:

Базовые операции:

  • Сбор данных: Получение данных из различных источников (датчики, формы, базы данных, API и т.д.);
  • Ввод данных: Загрузка данных в систему для последующей обработки;
  • Валидация (проверка): Проверка данных на соответствие заданным форматам и правилам;
  • Очистка (Data Cleaning): Удаление дубликатов, исправление ошибок, заполнение пропусков, обработка аномалий.

Обработка данных:

  • Сортировка: Упорядочивание данных по определённым критериям (например, по дате, алфавиту, числовым значениям);
  • Фильтрация: Отбор данных, соответствующих заданным критериям (например, выборка записей за определенный период);
  • Агрегация: Объединение данных для получения сводной информации (например, вычисление сумм, средних значений, максимальных и минимальных значений);
  • Трансформация: Изменение формата или структуры данных (например, конвертация единиц измерения);
  • Объединение данных: Слияние данных из разных источников;
  • Машинное обучение: Использование алгоритмов для построения моделей, которые могут делать прогнозы или принимать решения;
  • Пакетная обработка: Обработка больших объёмов данных в пакетном режиме;
  • Обработка в реальном времени: Обработка данных по мере их поступления;
  • Интерактивная обработка: Обработка данных в диалоговом режиме с пользователем;
  • Распределенная обработка: Обработка данных на нескольких устройствах по их обработке одновременно.
  • Обогащение данных: Добавление внешней информации (например, геоданные).

Анализ данных:

  • Статистический анализ: Расчёт показателей (например, дисперсия, корреляция, регрессия);
  • Классификация и кластеризация: Группировка данных по признакам (например, с помощью алгоритмов машинного обучения);
  • Прогнозирование: Использование моделей для предсказания будущих значений (например, временные ряды);
  • Текстовый анализ (NLP): Обработка естественного языка.

Хранение данных:

  • Запись данных: Сохранение данных в файлы, базы данных, облачные хранилища и т. д.
  • Индексирование: Оптимизация поиска и доступа к данным;
  • Архивация: Сжатие и долгосрочное хранение данных.

Защита данных:

  • Шифрование: Обеспечение конфиденциальности;
  • Резервное копирование: Предотвращение потери данных;
  • Управление доступом: Настройка прав пользователей.

Вывод данных:

  • Визуализация данных: Представление данных в графическом виде (например, диаграммы, графики, карты и т. д.);
  • Печать данных: Вывод данных на бумагу;
  • Экспорт данных: Сохранение данных в файлы различных форматов;
  • Передача данных: Отправка данных по сети.

Эти этапы часто объединяют в концепцию ETL-процессов (Extract, Transform, Load), что отражает стандартный подход к подготовке и обработке данных для аналитических систем.