Данные: различия между версиями
Mykola (обсуждение | вклад) (Новая страница: «'''Данные''' — представление информации в формализованном виде, пригодном д...») |
Mykola (обсуждение | вклад) |
||
(не показано 29 промежуточных версий этого же участника) | |||
Строка 1: | Строка 1: | ||
− | '''Данные''' | + | '''Данные''' (англ. data) – [[Интерпретация|интерпретированные]] формализованным способом [[сведения]], которые позволяют [[Субъект|субъекту]] более качественно оперировать ими, проводя их сбор, хранение, обработку, анализ, [[Интерпретация|интерпретацию]] и передачу с целью создания [[Информация|информации]]. |
+ | |||
+ | Сами по себе данные не имеют смысла — они приобретают смысл только после их анализа и интерпретации субъектом. | ||
+ | |||
+ | |||
+ | '''Примеры для осознания:''' | ||
+ | |||
+ | * '''Шаг №1. Сведения, проявленные субъектом:''' изменение температуры воды в реке в течение дня; | ||
+ | * '''Шаг №2. Данные, подготовленные субъектом:''' почасовый список замеров температуры воды в реке в течение дня, измеренный в градусах Цельсия; | ||
+ | * '''Шаг №3. Информация, произведённая субъектом:''' создан график, показывающий изменение температуры воды в реке в течение дня. Созданный график размещён субъектом в написанной им монографии; | ||
+ | * '''Шаг №4. График, подготовленный субъектом и размешённый им в своей монографии, представляет собою сведения для всех остальных субъектов;''' | ||
+ | * '''Шаг №5.''' И т.д. | ||
+ | |||
+ | Люди пока не имеют способностей, которые позволяли бы им напрямую обрабатывать сведения в том виде, в котором они существуют на своих «носителях» (плоти). Поэтому для коммуникации и обработки используются не сами сведения, а данные, которые подготовлены на их основе. | ||
+ | |||
+ | Вид, который могут принять организованные и интерпретированные субъектом данные зависит исключительно от его воли, желания, способностей и возможностей. Это могут быть тексты, графики, таблицы, компьютерный код, видео, аудио и т.д. | ||
+ | |||
+ | |||
+ | |||
+ | == Виды данных == | ||
+ | |||
+ | === по степени их структурирования: === | ||
+ | * Структурированные (например, таблицы в базах данных), относительно легко поддаются машинной обработке; | ||
+ | * Неструктурированные (например, текстовый документ или посты в социальных сетях), автоматическая обработка не всегда возможна; | ||
+ | * Временные. | ||
+ | |||
+ | |||
+ | |||
+ | === по формализованному виду: === | ||
+ | * Аналоговые (используют для представления непрерывные физические величины); | ||
+ | * Цифровые — (используют для представления последовательность дискретных (цифровых) физических или виртуальных величин). | ||
+ | |||
+ | |||
+ | |||
+ | === по тому, к каким объектам они имеют отношение: === | ||
+ | * Физические (имеющие отношение к объектам, которые созданы Природой, а также её существами и сущностями, которые можно описать при помощи физических наук). | ||
+ | * Виртуальные (имеющие отношение к объектам, которые созданы людьми при помощи использования вычислительной техники). | ||
+ | |||
+ | |||
+ | |||
+ | == Типы данных == | ||
+ | |||
+ | * Числа (например, результаты измерений температуры); | ||
+ | * Текст (сообщения, документы); | ||
+ | * Изображения, аудио, видео; | ||
+ | * Бинарные коды (компьютерные файлы); | ||
+ | * и т.д. | ||
+ | |||
+ | |||
+ | |||
+ | == Свойства данных == | ||
+ | |||
+ | * Сами по себе данные не имеют смысла — они становятся полезными только после анализа и интерпретации их субъектом. | ||
+ | |||
+ | |||
+ | |||
+ | == Операции по обработке данных == | ||
+ | |||
+ | Основные виды операций по обработке данных можно условно разделить на следующие категории: | ||
+ | |||
+ | '''Базовые операции:''' | ||
+ | * '''Сбор данных''': Получение данных из различных источников (датчики, формы, базы данных, API и т.д.); | ||
+ | * '''Ввод данных''': Загрузка данных в систему для последующей обработки; | ||
+ | * '''Валидация (проверка)''': Проверка данных на соответствие заданным форматам и правилам; | ||
+ | * '''Очистка (Data Cleaning)''': Удаление дубликатов, исправление ошибок, заполнение пропусков, обработка аномалий. | ||
+ | |||
+ | '''Обработка данных:''' | ||
+ | * '''Сортировка''': Упорядочивание данных по определённым критериям (например, по дате, алфавиту, числовым значениям); | ||
+ | * '''Фильтрация''': Отбор данных, соответствующих заданным критериям (например, выборка записей за определенный период); | ||
+ | * '''Агрегация''': Объединение данных для получения сводной информации (например, вычисление сумм, средних значений, максимальных и минимальных значений); | ||
+ | * '''Трансформация''': Изменение формата или структуры данных (например, конвертация единиц измерения); | ||
+ | * '''Объединение данных''': Слияние данных из разных источников; | ||
+ | * '''Машинное обучение''': Использование алгоритмов для построения моделей, которые могут делать прогнозы или принимать решения; | ||
+ | * '''Пакетная обработка''': Обработка больших объёмов данных в пакетном режиме; | ||
+ | * '''Обработка в реальном времени''': Обработка данных по мере их поступления; | ||
+ | * '''Интерактивная обработка''': Обработка данных в диалоговом режиме с пользователем; | ||
+ | * '''Распределенная обработка''': Обработка данных на нескольких устройствах по их обработке одновременно. | ||
+ | * '''Обогащение данных''': Добавление внешней информации (например, геоданные). | ||
+ | |||
+ | '''Анализ данных:''' | ||
+ | * '''Статистический анализ''': Расчёт показателей (например, дисперсия, корреляция, регрессия); | ||
+ | * '''Классификация и кластеризация''': Группировка данных по признакам (например, с помощью алгоритмов машинного обучения); | ||
+ | * '''Прогнозирование''': Использование моделей для предсказания будущих значений (например, временные ряды); | ||
+ | * '''Текстовый анализ (NLP)''': Обработка естественного языка. | ||
+ | |||
+ | '''Хранение данных:''' | ||
+ | * '''Запись данных''': Сохранение данных в файлы, базы данных, облачные хранилища и т. д. | ||
+ | * '''Индексирование''': Оптимизация поиска и доступа к данным; | ||
+ | * '''Архивация''': Сжатие и долгосрочное хранение данных. | ||
+ | |||
+ | '''Защита данных:''' | ||
+ | * '''Шифрование''': Обеспечение конфиденциальности; | ||
+ | * '''Резервное копирование''': Предотвращение потери данных; | ||
+ | * '''Управление доступом''': Настройка прав пользователей. | ||
+ | |||
+ | '''Вывод данных:''' | ||
+ | * '''Визуализация данных''': Представление данных в графическом виде (например, диаграммы, графики, карты и т. д.); | ||
+ | * '''Печать данных''': Вывод данных на бумагу; | ||
+ | * '''Экспорт данных''': Сохранение данных в файлы различных форматов; | ||
+ | * '''Передача данных''': Отправка данных по сети. | ||
+ | |||
+ | Эти этапы часто объединяют в концепцию ETL-процессов (Extract, Transform, Load), что отражает стандартный подход к подготовке и обработке данных для аналитических систем. |
Текущая версия на 06:52, 10 марта 2025
Данные (англ. data) – интерпретированные формализованным способом сведения, которые позволяют субъекту более качественно оперировать ими, проводя их сбор, хранение, обработку, анализ, интерпретацию и передачу с целью создания информации.
Сами по себе данные не имеют смысла — они приобретают смысл только после их анализа и интерпретации субъектом.
Примеры для осознания:
- Шаг №1. Сведения, проявленные субъектом: изменение температуры воды в реке в течение дня;
- Шаг №2. Данные, подготовленные субъектом: почасовый список замеров температуры воды в реке в течение дня, измеренный в градусах Цельсия;
- Шаг №3. Информация, произведённая субъектом: создан график, показывающий изменение температуры воды в реке в течение дня. Созданный график размещён субъектом в написанной им монографии;
- Шаг №4. График, подготовленный субъектом и размешённый им в своей монографии, представляет собою сведения для всех остальных субъектов;
- Шаг №5. И т.д.
Люди пока не имеют способностей, которые позволяли бы им напрямую обрабатывать сведения в том виде, в котором они существуют на своих «носителях» (плоти). Поэтому для коммуникации и обработки используются не сами сведения, а данные, которые подготовлены на их основе.
Вид, который могут принять организованные и интерпретированные субъектом данные зависит исключительно от его воли, желания, способностей и возможностей. Это могут быть тексты, графики, таблицы, компьютерный код, видео, аудио и т.д.
Содержание
Виды данных
по степени их структурирования:
- Структурированные (например, таблицы в базах данных), относительно легко поддаются машинной обработке;
- Неструктурированные (например, текстовый документ или посты в социальных сетях), автоматическая обработка не всегда возможна;
- Временные.
по формализованному виду:
- Аналоговые (используют для представления непрерывные физические величины);
- Цифровые — (используют для представления последовательность дискретных (цифровых) физических или виртуальных величин).
по тому, к каким объектам они имеют отношение:
- Физические (имеющие отношение к объектам, которые созданы Природой, а также её существами и сущностями, которые можно описать при помощи физических наук).
- Виртуальные (имеющие отношение к объектам, которые созданы людьми при помощи использования вычислительной техники).
Типы данных
- Числа (например, результаты измерений температуры);
- Текст (сообщения, документы);
- Изображения, аудио, видео;
- Бинарные коды (компьютерные файлы);
- и т.д.
Свойства данных
- Сами по себе данные не имеют смысла — они становятся полезными только после анализа и интерпретации их субъектом.
Операции по обработке данных
Основные виды операций по обработке данных можно условно разделить на следующие категории:
Базовые операции:
- Сбор данных: Получение данных из различных источников (датчики, формы, базы данных, API и т.д.);
- Ввод данных: Загрузка данных в систему для последующей обработки;
- Валидация (проверка): Проверка данных на соответствие заданным форматам и правилам;
- Очистка (Data Cleaning): Удаление дубликатов, исправление ошибок, заполнение пропусков, обработка аномалий.
Обработка данных:
- Сортировка: Упорядочивание данных по определённым критериям (например, по дате, алфавиту, числовым значениям);
- Фильтрация: Отбор данных, соответствующих заданным критериям (например, выборка записей за определенный период);
- Агрегация: Объединение данных для получения сводной информации (например, вычисление сумм, средних значений, максимальных и минимальных значений);
- Трансформация: Изменение формата или структуры данных (например, конвертация единиц измерения);
- Объединение данных: Слияние данных из разных источников;
- Машинное обучение: Использование алгоритмов для построения моделей, которые могут делать прогнозы или принимать решения;
- Пакетная обработка: Обработка больших объёмов данных в пакетном режиме;
- Обработка в реальном времени: Обработка данных по мере их поступления;
- Интерактивная обработка: Обработка данных в диалоговом режиме с пользователем;
- Распределенная обработка: Обработка данных на нескольких устройствах по их обработке одновременно.
- Обогащение данных: Добавление внешней информации (например, геоданные).
Анализ данных:
- Статистический анализ: Расчёт показателей (например, дисперсия, корреляция, регрессия);
- Классификация и кластеризация: Группировка данных по признакам (например, с помощью алгоритмов машинного обучения);
- Прогнозирование: Использование моделей для предсказания будущих значений (например, временные ряды);
- Текстовый анализ (NLP): Обработка естественного языка.
Хранение данных:
- Запись данных: Сохранение данных в файлы, базы данных, облачные хранилища и т. д.
- Индексирование: Оптимизация поиска и доступа к данным;
- Архивация: Сжатие и долгосрочное хранение данных.
Защита данных:
- Шифрование: Обеспечение конфиденциальности;
- Резервное копирование: Предотвращение потери данных;
- Управление доступом: Настройка прав пользователей.
Вывод данных:
- Визуализация данных: Представление данных в графическом виде (например, диаграммы, графики, карты и т. д.);
- Печать данных: Вывод данных на бумагу;
- Экспорт данных: Сохранение данных в файлы различных форматов;
- Передача данных: Отправка данных по сети.
Эти этапы часто объединяют в концепцию ETL-процессов (Extract, Transform, Load), что отражает стандартный подход к подготовке и обработке данных для аналитических систем.