Статистика


Онлайн всего: 11
Гостей: 11
Пользователей: 0

Форма входа

Поиск

Категории раздела

Диплом [73] Курсовая [20]
Реферат [16] Разное [16]
Отчет по практике [1]




Чт, 26.12.2024, 06:33
Приветствую Вас Гость | RSS
ДИПЛОМНИК т.8926-530-7902,strokdip@mail.ru Дипломные работы на заказ.
Главная | Регистрация | Вход
КАТАЛОГ ДИПЛОМНЫХ, КУРСОВЫХ РАБОТ


Главная » Каталог дипломов » Информатика и вычислительная техника » Диплом [ Добавить материал ]

1599. Программный комплекс Система тематической классификации и поиска документов.
Диплом | 29.06.2010, 11:36
Стоимость 3500.
Год 2010.
ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ    6
1. ИССЛЕДОВАТЕЛЬСКИЙ РАЗДЕЛ    8
1.1 Проблемы современной обработки информации    8
1.2 Предназначение классификации документов    9
1.3 Анализ современных систем классификации и поиска документов    9
1.3.1 Обзор существующих подходов классификации документов    10
1.4 Анализ технологий, применяемых для классификации и поиска документов    13
1.4.1 Технологии, применяемые для анализа документов    13
1.4.1.1 Тематический анализ текста документа    14
1.4.1.2 Индексация документов    16
1.4.1.3 Получение ключевых слов и устойчивых словосочетаний    18
1.4.1.4 Автоматическое реферирование документа    19
1.4.2 Технологии, применяемые для поиска документов    20
1.4.2.1 Тематический поиск    20
1.4.2.2 Определение взаимосвязей между документами    21
1.4.3 Технологии и алгоритмы обеспечения доступа к данным    23
1.4.3.1 Сортировки    23
1.4.3.2 Ускорение доступа и поиска    23
1.4.3.3 Выделение (отсечение) основного блока    24
1.5 Постановка задачи    25
1.6 Заключение    26
2. СПЕЦИАЛЬНЫЙ РАЗДЕЛ    27
2.1 Разработка общей архитектуры системы    27
2.2 Разработка модуля "Каталог документов”    27
2.2.1 Схемы таблиц базы данных проекта    28
2.2.1.1 Таблица "AnnotateInfoTable”    28
2.2.1.2 Таблица "TimeWordsTable”    30
2.2.1.3 Таблица "CataloguesTable”    31
2.3 Разработка модуля "Анализ документов”    32
2.3.1 Выявление ключевых слов    33
2.3.2 Выявления ключевых словосочетаний (фраз)    34
2.3.3 Выделение (отсечение) основного блока    35
2.4 Разработка модуля "Поиск документов”    36
2.5 Разработка приложения "Редактор Тезауруса”    37
2.5.1 Режим быстрого добавления фраз    40
2.5.2 Режим редактирования дерева тематик    41
2.6 Разработка приложения "Тематический классификатор”    42
2.7 Заключение    44
3. ТЕХНОЛОГИЧЕСКИЙ РАЗДЕЛ    45
3.1 Выбор среды разработки    45
3.1.1 Качество визуальной среды разработки    45
3.1.2 Скорость работы компилятора и быстродействие откомпилированных программ    47
3.1.3 Мощность языка программирования и его сложность    47
3.1.4 Гибкость и масштабируемость используемой архитектуры баз данных    49
3.1.5 Наличие поддерживаемых средой разработки шаблонов проектирования и использования    50
3.2 Технологии хранения и доступа к данным    50
3.2.1 Технология Баз Данных    50
3.2.2 Технология ADO    52
3.3 Заключение    53
4. ОРГАНИЗАЦИОННО-ЭКОНОМИЧЕСКИЙ РАЗДЕЛ    54
4.1 Организация проектирования программного комплекса "Система тематической классификации и поиск документов” с использованием методов СПУ    54
4.2 Расчет технико-экономических показателей и эффективности проекта    69
4.2.1 Расчет сметной стоимости проектирования программы    69
4.2.2 Годовая экономия текущих затрат    73
4.2.3 Срок окупаемости дополнительных вложений    77
4.2.4 Условно-годовая экономия.    77
4.3 Заключение    78
5. БЕЗОПАСНОСТЬ ЖИЗНЕДЕЯТЕЛЬНОСТИ    79
5.1 Анализ опасных и вредных факторов и чрезвычайных ситуаций при работе оператора ПЭВМ    79
5.1.1 Опасные факторы    80
5.1.1.1 Опасность поражения электрическим током    80
5.1.1.2 Опасность возникновения пожара    81
5.1.2 Вредные факторы    81
5.1.2.1 Воздействие электромагнитных полей и ионизирующих излучений    82
5.1.2.2 Недостаточная освещенность    83
5.1.2.3 Повышенный уровень шума    83
5.1.2.4 Неблагоприятные микроклиматические условия    84
5.1.2.5 Психоэмоциональное напряжение    84
5.1.3 Чрезвычайные ситуации    84
5.1.3.1 Возникновение пожара или задымления    85
5.1.3.2 Внезапное отключение электроэнергии    85
5.1.3.3 Заражение программ компьютерным вирусом    85
5.2 Организация рабочего места оператора    85
5.3 Утилизация и переработка ртути люминесцентных ламп    92
5.4 Заключение    95
ЗАКЛЮЧЕНИЕ    96
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ    98
ПРИЛОЖЕНИЕ    103

1. Исследовательский раздел

 

В исследовательском разделе были рассмотрены основные проблемы современной обработки информации. Описана сущность и предназначение систем классификации и структуризации документов. Проанализированы, существующие систем классификации и поиска документов, технологии и алгоритмы, позволяющие как проводить анализ документов, так и ускоряющие анализ и поиск требуемой информации.

 

1.1 Проблемы современной обработки информации

 

Одна из основных проблем, возникающих при поиске информации со пользователем, заключается в сложности точной формулировки запроса – подбора ключевых слов (фраз), которые необходимо найти в документах. Это может быть связано с рядом причин:

-         Недостаточное знание терминологии предметной области;

-         Широта предметной области;

-         Вложенный характер предметной области;

-         Наличие в языке многозначных и синонимичных слов;

-         Орфографические ошибки в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе;

-         Необходимость использования в запросе поиска не только отдельных ключевых слов, но и фраз.

 

Помимо проблем возникающих со стороны пользователя есть серьезные проблемы при подготовке обрабатываемой информации:

-         Не структурированность и слабая формализация информации;

-         Большой объём информации;

-         Неконтролируемое качество информации;

-         Разнородность информации;

-         Большое количество "информационного шума".

 

Отмеченные недостатки присущи большинству современных баз данных, т.к. они нацелены на работу со структурированной информацией, когда для выборки нужной информации используются критерии относительно небольшого набора информативных атрибутов и не могут эффективно работать с неструктурированными данными.

 

1.2 Предназначение классификации документов

 

Классификация документов – это распределение документов на классы по определенным критериям. Классификация позволяет упорядочить любое множество документов, разделить его на группы по любым признакам сходства или различия и рассматривать в теоретическом или прикладном плане однотипные объекты [1.1]. Классификация также позволяет рассмотреть документацию в совокупности для решения тех или иных практических задач.

Классификация документов необходима в случаях:

-         Больших объемов накапливаемых документов;

-         При необходимости быстрого поиска документов, используя некоторый набор атрибутов документов как информацию для позиционирования во всем объеме хранимых документов.

 

Автоматическая классификация документов – это одно из направлений искусственного интеллекта [1.2].

 

1.3 Анализ современных систем классификации и поиска документов

 

При разработке проекта были проанализированы основные подходы и решения, применяемые к решению подобных задач, выявлены их положительные и отрицательные стороны, позволяющие сравнивать методы между собой и выбирать наиболее подходящие из них для решения конкретных, узконаправленных задач.

 

1.3.1 Обзор существующих подходов классификации документов

 

В информационной практике широко известен классический подход к отбору информации, в котором формулируется поисковый запрос с использованием терминов, отражающих тематику информационной потребности. Имеется широкий спектр информационно-поисковых систем, реализующих этот подход. В большинстве таких систем пользователь имеет возможность уточнить информационное значение терминов при помощи булевой логики или присвоения им весовых коэффициентов. Однако формулирование поисковых запросов является непростой задачей для неподготовленного пользователя, поскольку такой формальный подход к формулированию запроса принуждает его приспосабливаться к системе, что создает для него свои неудобства. В связи с этим требуется наличие специалистов по обработке информации, к профессиональному уровню которых предъявляются высокие требования.

 

Все известные тематические навигаторы подразделяются на две категории. Навигаторы, относящиеся к первой, имеют жестко заданную структуру с изначально установленными темами и связями между ними. В таких навигаторах используется заранее определенный рубрикатор с иерархической структурой категорий, отражающий общепринятый набор областей знаний. Нижние ветви рубрикатора обычно включают в себя классы слов языка, относящиеся к определенным темам. Подобные навигаторы могут
Добавил: Демьян |
Просмотров: 471
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Дипломник © 2024
магазин дипломов, диплом на заказ, заказ диплома, заказать дипломную работу, заказать дипломную работу mba