Сложности накопления данных для интеллектуального анализа

в 22:34, , рубрики: data mining, анализ, анализ данных, Анализ и проектирование систем, данные, Песочница, метки: , , ,

Сложности накопления данных для интеллектуального анализа

Аннотация

Данная статья посвящена актуальной на сегодняшний день проблеме сложности накопления данных для проведения интеллектуального анализа. Введены основные понятия: данные и интеллектуальный анализ. Рассмотрены сложности, относящиеся к накоплению данных, при ситуации, когда необходимо разработать базу с нуля и наполнить её данными. Автором предложены рекомендации по снижению риска появления описанных проблем.

Суть

Для лучшего восприятия и понимания статьи введем основные понятия данных и интеллектуального анализа. Данные – это результат фиксации и отображения информации на каком-либо материальном носителе. Интеллектуальный анализ данных (data mining) – это совокупность методов, позволяющих обнаруживать в данных, ранее неизвестные и практически полезные знания.

Для проведения интеллектуального анализа необходимо использовать базу данных большого объема. Это одно из самых главных правил. Хорошо, если стоит задача использовать готовую базу с массой накопленных данных, остаётся заняться только анализом, поиском и подбором методов для него. Но бывают и другие ситуации, когда необходимо разработать базу данных с нуля и наполнить её данными. При рассмотрении таких ситуаций возникает ряд сложностей, которые относятся к накоплению данных, а именно:

• «Неправильная» модель данных;

• Недостаточно гибкая модель данных;

• «Бесполезные» данные;

• Недостаточность или нехватка материала (конкретных данных);

• Получение новой информации о предметной области.

Каждые из этих сложностей тесно связаны между собой, т.е. при обнаружении одной из них, можно быть уверенным о появлении еще каких-либо. Не смотря на то, что все эти принципы известны уже очень давно, четкого и понятного ответа как избежать их, до сих пор нет. Однако если пользоваться следующими рекомендациями, то можно свести риск появления сложностей к минимуму.

1. Как избежать неправильной модели данных.
Модель данных, соответствующая предметной области, никогда не будет построена правильно с первого раза. Проектирование модели данных очень сложная работа, именно поэтому к этому этапу нужно отнестись очень серьезно. Собственно, здесь необходимо пользоваться существующими методами и подходами к построению надежной модели данных. Главное помнить, что ошибка на этом этапе часто заставляет переделывать проект полностью.

2. Гибкая модель данных.
Одно из требований, которым должна отвечать любая модель – гибкость. Чем больше знаний о предметной области, тем больше шансов построить гибкую, устойчивую модель.

3. Получение «полезных» данных.
Многие, очень часто сталкиваются с проблемой получения «бесполезных» данных. На самом деле, таких данных просто не бывает. Не смотря на то, что в процессе работы можно получить данные абсолютно неудовлетворяющие исходным требованиям, они все еще являются полезными. Такие данные свидетельствует о ранее неизвестных отклонениях. Учет таких отклонений необходим, поскольку позволяет провести анализ полученных отклонений и сделать вывод.

4. О недостаточном количестве конкретных данных.
По этой теме написано много разнообразных статей, а еще больше сказано, но, несмотря на это, проблема недостатка данных, на сегодняшний день, стоит очень остро. Нет конкретных правил или устоявшихся норм как её избежать. По мнению автора, необходимо лишь сделать выбор – работать с недостаточным количеством данных или нет.

5. Актуальность данных.
Не редки ситуации, когда существует огромное количество данных, но, к сожалению, они не являются актуальными. Такое может произойти при получении новой информации о предметной области. Что бы такого ни случилось, как уже было ранее сказано, необходимо проектировать гибкую модель данных, а так же постоянно учитывать и анализировать получаемые отклонения.

Заключение

В заключении хочется указать на избитый метод «проб и ошибок», он, по мнению автора, больше всего подходит к решению проблем в данной области. Однако лучше учитывать ошибки, сделанные и описанные другими людьми, это позволит продвигаться в своём проекте быстрее и не терять времени, которое так важно.

Автор: Yoh_Asakura

Поделиться

* - обязательные к заполнению поля