1599. Программный комплекс Система тематической классификации и поиска документов.
Диплом |
29.06.2010, 11:36
Стоимость 3500. Год 2010. ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 6 1. ИССЛЕДОВАТЕЛЬСКИЙ РАЗДЕЛ 8 1.1 Проблемы современной обработки информации 8 1.2 Предназначение классификации документов 9 1.3 Анализ современных систем классификации и поиска документов 9 1.3.1 Обзор существующих подходов классификации документов 10 1.4 Анализ технологий, применяемых для классификации и поиска документов 13 1.4.1 Технологии, применяемые для анализа документов 13 1.4.1.1 Тематический анализ текста документа 14 1.4.1.2 Индексация документов 16 1.4.1.3 Получение ключевых слов и устойчивых словосочетаний 18 1.4.1.4 Автоматическое реферирование документа 19 1.4.2 Технологии, применяемые для поиска документов 20 1.4.2.1 Тематический поиск 20 1.4.2.2 Определение взаимосвязей между документами 21 1.4.3 Технологии и алгоритмы обеспечения доступа к данным 23 1.4.3.1 Сортировки 23 1.4.3.2 Ускорение доступа и поиска 23 1.4.3.3 Выделение (отсечение) основного блока 24 1.5 Постановка задачи 25 1.6 Заключение 26 2. СПЕЦИАЛЬНЫЙ РАЗДЕЛ 27 2.1 Разработка общей архитектуры системы 27 2.2 Разработка модуля "Каталог документов” 27 2.2.1 Схемы таблиц базы данных проекта 28 2.2.1.1 Таблица "AnnotateInfoTable” 28 2.2.1.2 Таблица "TimeWordsTable” 30 2.2.1.3 Таблица "CataloguesTable” 31 2.3 Разработка модуля "Анализ документов” 32 2.3.1 Выявление ключевых слов 33 2.3.2 Выявления ключевых словосочетаний (фраз) 34 2.3.3 Выделение (отсечение) основного блока 35 2.4 Разработка модуля "Поиск документов” 36 2.5 Разработка приложения "Редактор Тезауруса” 37 2.5.1 Режим быстрого добавления фраз 40 2.5.2 Режим редактирования дерева тематик 41 2.6 Разработка приложения "Тематический классификатор” 42 2.7 Заключение 44 3. ТЕХНОЛОГИЧЕСКИЙ РАЗДЕЛ 45 3.1 Выбор среды разработки 45 3.1.1 Качество визуальной среды разработки 45 3.1.2 Скорость работы компилятора и быстродействие откомпилированных программ 47 3.1.3 Мощность языка программирования и его сложность 47 3.1.4 Гибкость и масштабируемость используемой архитектуры баз данных 49 3.1.5 Наличие поддерживаемых средой разработки шаблонов проектирования и использования 50 3.2 Технологии хранения и доступа к данным 50 3.2.1 Технология Баз Данных 50 3.2.2 Технология ADO 52 3.3 Заключение 53 4. ОРГАНИЗАЦИОННО-ЭКОНОМИЧЕСКИЙ РАЗДЕЛ 54 4.1 Организация проектирования программного комплекса "Система тематической классификации и поиск документов” с использованием методов СПУ 54 4.2 Расчет технико-экономических показателей и эффективности проекта 69 4.2.1 Расчет сметной стоимости проектирования программы 69 4.2.2 Годовая экономия текущих затрат 73 4.2.3 Срок окупаемости дополнительных вложений 77 4.2.4 Условно-годовая экономия. 77 4.3 Заключение 78 5. БЕЗОПАСНОСТЬ ЖИЗНЕДЕЯТЕЛЬНОСТИ 79 5.1 Анализ опасных и вредных факторов и чрезвычайных ситуаций при работе оператора ПЭВМ 79 5.1.1 Опасные факторы 80 5.1.1.1 Опасность поражения электрическим током 80 5.1.1.2 Опасность возникновения пожара 81 5.1.2 Вредные факторы 81 5.1.2.1 Воздействие электромагнитных полей и ионизирующих излучений 82 5.1.2.2 Недостаточная освещенность 83 5.1.2.3 Повышенный уровень шума 83 5.1.2.4 Неблагоприятные микроклиматические условия 84 5.1.2.5 Психоэмоциональное напряжение 84 5.1.3 Чрезвычайные ситуации 84 5.1.3.1 Возникновение пожара или задымления 85 5.1.3.2 Внезапное отключение электроэнергии 85 5.1.3.3 Заражение программ компьютерным вирусом 85 5.2 Организация рабочего места оператора 85 5.3 Утилизация и переработка ртути люминесцентных ламп 92 5.4 Заключение 95 ЗАКЛЮЧЕНИЕ 96 СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 98 ПРИЛОЖЕНИЕ 103
В исследовательском разделе были рассмотрены основные проблемы
современной обработки информации. Описана сущность и предназначение систем
классификации и структуризации документов. Проанализированы, существующие
систем классификации и поиска документов, технологии и алгоритмы, позволяющие
как проводить анализ документов, так и ускоряющие анализ и поиск требуемой
информации.
Одна из основных проблем, возникающих при поиске информации со
пользователем, заключается в сложности точной формулировки запроса – подбора
ключевых слов (фраз), которые необходимо найти в документах. Это может быть
связано с рядом причин:
-Наличие в языке многозначных и
синонимичных слов;
-Орфографические ошибки в написании
искомых слов, которые могут встречаться как в текстах, так и в самом запросе;
-Необходимость использования в запросе
поиска не только отдельных ключевых слов, но и фраз.
Помимо проблем возникающих со стороны пользователя есть серьезные
проблемы при подготовке обрабатываемой информации:
-Не структурированность и слабая
формализация информации;
-Большой объём информации;
-Неконтролируемое качество информации;
-Разнородность информации;
-Большое количество "информационного
шума".
Отмеченные недостатки присущи большинству современных баз данных,
т.к. они нацелены на работу со структурированной информацией, когда для выборки
нужной информации используются критерии относительно небольшого набора
информативных атрибутов и не могут эффективно работать с неструктурированными
данными.
Классификация документов – это распределение документов на классы по
определенным критериям. Классификация позволяет упорядочить любое множество
документов, разделить его на группы по любым признакам сходства или различия и
рассматривать в теоретическом или прикладном плане однотипные объекты [1.1].
Классификация также позволяет рассмотреть документацию в совокупности для
решения тех или иных практических задач.
Классификация документов необходима в случаях:
-Больших объемов накапливаемых документов;
-При необходимости быстрого поиска
документов, используя некоторый набор атрибутов документов как информацию для
позиционирования во всем объеме хранимых документов.
Автоматическая классификация документов – это одно из направлений
искусственного интеллекта [1.2].
При разработке проекта были проанализированы основные подходы и
решения, применяемые к решению подобных задач, выявлены их положительные и
отрицательные стороны, позволяющие сравнивать методы между собой и выбирать
наиболее подходящие из них для решения конкретных, узконаправленных задач.
В информационной практике широко известен классический подход к
отбору информации, в котором формулируется поисковый запрос с использованием
терминов, отражающих тематику информационной потребности. Имеется широкий
спектр информационно-поисковых систем, реализующих этот подход. В большинстве
таких систем пользователь имеет возможность уточнить информационное значение
терминов при помощи булевой логики или присвоения им весовых коэффициентов.
Однако формулирование поисковых запросов является непростой задачей для неподготовленного
пользователя, поскольку такой формальный подход к формулированию запроса
принуждает его приспосабливаться к системе, что создает для него свои
неудобства. В связи с этим требуется наличие специалистов по обработке
информации, к профессиональному уровню которых предъявляются высокие
требования.
Все известные тематические навигаторы
подразделяются на две категории. Навигаторы, относящиеся к первой, имеют жестко
заданную структуру с изначально установленными темами и связями между ними. В
таких навигаторах используется заранее определенный рубрикатор с иерархической
структурой категорий, отражающий общепринятый набор областей знаний. Нижние
ветви рубрикатора обычно включают в себя классы слов языка, относящиеся к
определенным темам. Подобные навигаторы могут