Компьютерный анализ текста

Автор работы: Пользователь скрыл имя, 07 Декабря 2013 в 09:12, курсовая работа

Краткое описание

Цель данной работы – это выяснить, что такое компьютерный анализ текста.
При этом необходимо решить следующие задачи:
- ознакомиться с понятием анализ текста;
- рассмотреть, что понимается под компьютерным анализом текста;
- ознакомиться с историей развития компьютерного анализа текста;
- выявить проблемы компьютерного анализа текста;
- привести некоторые программы, используемые при компьютерном анализе текста.

Содержание

Введение
Глава 1. Анализ текста
1.1 Понятие анализа текста
1.2 Понятие компьютерного анализа.
1.3 Проблемы компьютерного анализа текста
1.4 Извлечение информации
1.5 Обработка естественного языка
Глава 2. Программы для компьютерного анализа текста
2.1 Машинный перевод
2.2 Лингвистическое программное обеспечение
2.3 Программы для компьютерного анализа текста
Заключение
Список литературы

Скачать в ZIP архиве (139.63 Кб) Сколько стоит заказать работу?

Вложенные файлы: 1 файл

Курсовая по лингвистике.docx

— 143.14 Кб (Скачать файл)

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Ижевский государственный технический университет имени М.Т.Калашникова»

Глазовский инженерно-экономический институт (филиал)

(ГИЭИ (филиал) ФГБОУ ВПО «ИжГТУ имени М.Т.Калашникова»)

Кафедра «Автоматизированные системы управления»

Курсовая работа

по дисциплине «Математическая лингвистика»

на тему «Компьютерный анализ текста»

Выполнил

студент гр. Б04-782-1 Копысов И.А.

Проверил:

Доцент, к.п.н. Кутявина Л.Л.

Оценка:

Глазов

2013

Оглавление

Введение

Глава 1. Анализ текста

1.1 Понятие анализа текста

1.2 Понятие компьютерного анализа.

1.3 Проблемы компьютерного анализа текста

1.4 Извлечение информации

1.5 Обработка естественного языка

Глава 2. Программы для компьютерного анализа текста

2.1 Машинный перевод

2.2 Лингвистическое программное обеспечение

2.3 Программы для компьютерного анализа текста

Заключение

Список литературы

Введение

Компьютерный анализ текста на естественном языке активно развивается в последние годы многими научными коллективами. Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных и др.

К сожалению, внедрение математических методов в обработку текста происходит в то время, когда собственно лингвистическая составляющая алгоритмов представлена явно недостаточно, и это не позволяет достичь высокого качества работы прикладных систем. Устойчивый уклон в область статистических методов анализа привел к тому, что компьютерная лингвистика оказалась невостребованной. В самом деле, во всех известных русскоязычных системах подобного класса из лингвистического обеспечения используется лишь морфологический словарь, позволяющий отождествлять различные словоформы, тогда как алгоритмы синтаксического анализа реализованы исключительно в автоматических переводчиках и вызывают множество нареканий в связи с невысокой точностью.

Цель данной работы – это выяснить, что такое компьютерный анализ текста.

При этом необходимо решить следующие задачи:

- ознакомиться с понятием анализ текста;

- рассмотреть, что понимается под компьютерным анализом текста;

- ознакомиться с историей развития компьютерного анализа текста;

- выявить проблемы компьютерного анализа текста;

- привести некоторые программы, используемые при компьютерном анализе текста.

Глава 1. Анализ текста

1.1 Понятие анализа текста

Анализ – метод научного исследования явлений и процессов, в основе которого лежит изучение составных частей, элементов изучаемой системы.

Аналитические методы широко распространены в социуме, поэтому термин "анализ" часто воспринимается как синоним исследования вообще и особенно при решении познавательных задач. Анализ является составной частью любого научного исследования, образуя, как правило, его первую стадию, когда исследователь выявляет в описании изучаемого объекта его строение, состав, свойства, признаки и т.п. Он используется как метод получения новых результатов в процессе мыслительной деятельности человека.

Мыслительный анализ совершается с помощью понятий и суждений, выражаемых в естественных или искусственных языках. Такой анализ ориентирован на выявление структуры целого, предполагая фиксацию его частей и установление отношений между ними.

В современном обществе важным средством оформления, фиксации, сохранения, передачи информации и обмена ею являются документы.

Анализ документов – это метод сбора первичных данных, при котором документы используются в качестве главного источника информации; это также совокупность методических приёмов и процедур, применяемых для извлечения информации из документальных источников при изучении процессов и явлений в целях решения определённых задач.

Анализ текста – это процесс получения на естественном языке высококачественной информации из этого текста. Такой анализ осуществляет практически каждый человек не задумываясь, что он делает именно это. Например, любой читатель книги анализирует содержание, читая её по частям. В общем случае всем, особенно трудоспособному населению, постоянно приходится работать с текстовыми и иными видами документов, явно или неявно анализируя их содержание и другие компоненты, например, качество изготовление, форму, размер и т.д. Таким образом, важной задачей практически любых индивидов является нахождение (получение) нужных им документов, а также анализ их содержания на предмет подготовки различных документов (рефератов, аннотаций, справок, отчётов, учебных работ, производственных заданий и др.). Анализ текстов на естественном языке был актуальным практически с момента их появления. При таком анализе необходимо определить правила, с помощью которых, по мнению специалистов, формальная система (набор структурных элементов текста) преобразуется в систему содержательную (осмысленное сообщение). Анализ текста использовался и продолжает использоваться для классификации текстов, содержащихся в них слов и словосочетаний (например, для определения частоты встречаемости тех или иных терминов в определённых текстах), аннотирования и реферирования текстов, определения авторского права претендента на соответствующий текст и др.

Считается, что в реальной жизни правила чтения текстов не формализуются. Человек постигает их годами, активно работая в определённой сфере деятельности и предметной области. Специалисты отмечают, что разные контексты порождают различные правила их прочтения, которые со временем меняются, поэтому трудно научить таким правилам компьютер, а значит автоматически учитывать содержательные аспекты обрабатываемого текста.

1.2 Понятие компьютерного анализа текста.

Создание ЭВМ в середине 20-го века и быстрое развитие кибернетических идей стимулировали появление новых наук, которые ранее просто невозможно было представить. Как правило, они возникали на стыке наук, часто не связанных друг с другом. Так, на стыке биологии и инженерных наук возникла бионика, на стыке психологии и лингвистики - психолингвистика, а на стыке вычислительной техники и лингвистики родилась наука, о которой и пойдет речь дальше.

Новая наука несколько раз меняла название: сначала она называлась математической лингвистикой, потом структурной лингвистикой и вычислительной лингвистикой. Наконец за ней прочно укрепилось ее современное название - компьютерная лингвистика.

Две причины обусловили появление новой науки. Во-первых, исследователи-лингвисты надеялись, что современные точные науки помогут лингвистике обрести недостающую ей точность. С появление ЭВМ появилась возможность автоматизировать многие трудоемкие процессы, например, статистическую обработку текстов, ведение разнообразных словарных и лексических картотек.

Во-вторых, с появлением компьютеров почти сразу же возникла проблема общения с ними неподготовленных пользователей. Бесспорно, наилучшей формой для таких пользователей мог быть привычный естественный язык.

К началу 70-х гг. компьютерная лингвистика получила "права гражданства": стали выходить специальные сборники и журналы по компьютерной лингвистике, создавались соответствующие лекции на лингвистических конференциях и конференциях по искусственному интеллекту и, наконец, стали созываться всемирные форумы, посвященные исключительно проблемам этой науки. В большинстве развитых стран начался процесс подготовки специалистов в области компьютерной лингвистики.

В настоящее время в компьютерной лингвистике выделяются несколько основных направлений. Например, анализ текстов на естественном языке.

Лингвисты давно изучают, как устроен текст, и, прежде всего предложение, играющее роль кирпичика, из совокупности которых складывается текст. Но лишь с появлением компьютеров эти исследования приобрели новое направление. Группа американских лингвистов выдвинула дерзкую идею, получившую название Джорджтаунский проект, - автоматизировать процесс перевода текстов с одного языка на другой, используя для этого ЭВМ. Идея заинтересовала лингвистов многих стран и активизировала работы в области анализа текстов. В ходе этих работ надо было ответить на вопрос: "Существуют ли строгие формальные правила, по которым строится структура предложения и структура текста?". Если о структуре предложения лингвисты накопили много материала, то структура текста ими не изучалась.

В результате проведенных исследований стало ясно, что за каждым текстом скрывается не одна, а несколько формальных структур, которые можно разделить на три уровня.

Первый уровень - это поверхностная синтаксическая структура. В этой структуре каждое предложение текста рассматривается изолированно от других и для каждого проводится что-то вроде разбора предложения по его членам, как все мы делали в школе. Но этой структуры для анализа оказывается мало.

Следующий шаг - построение глубинной синтаксической структуры (второй уровень). Идея существования глубинной синтаксической структуры связана с пониманием того, что различные естественные языки, отличаясь друг от друга многими внешними синтаксическими особенностями, передают весь спектр взаимосвязей между объектами, явлениями, их свойствами и протекающими с их участием процессами, характерными для окружающего мира. Рассмотрим как пример две фразы: "Мальчик сорвал цветок" и "Цветок, сорванный мальчиком". В первом предложении субъект действия "сорвал" - это "мальчик". И это слово играет здесь роль подлежащего, о чем свидетельствует именительный падеж. Во втором же предложении роль подлежащего играет слово "цветок", а слово "мальчик" стоит в творительном падеже. Но субъектом действия "сорвал" и здесь остается все тот же "мальчик". А цветок в любом из двух приведенных предложений играет роль объекта действия. Понимание ситуации, описываемой любым из этих предложений, заключается, в частности, в том, что мы выделяем в тексте некоторое действие, а также его субъект и объект.

Синтаксическая структура, построенная на основе глубинных падежей, позволяет перейти от синтаксического уровня предложения к его семантическому уровню. На этом уровне для анализа привлекаются дополнительные данные, связанные с наличием у лексических единиц языка определенных значений. В семантических структурах (третий уровень формальных структур) также можно выделить поверхностный и глубинный уровни, в чем-то похожие на соответствующие уровни в синтаксических структурах. Например, анализируя фразу: "Женщина пришла домой из магазина очень расстроенная", на поверхностном семантическом уровне мы фиксируем лишь сам факт состояния женщины. На глубинном же семантическом уровне мы сможем высказать предположение о причинах ее состояния - пустые полки магазинов, очереди, отнимающие массу времени и сил. Структуры наиболее "глубокого" уровня, возникающие при анализе предложений, могут быть названы прагматическими. Из них следует понимание того, к чему обязывает или призывает данное предложение.

Чтобы выделить необходимые структуры при автоматическом анализе, необходимо пройти несколько последовательных этапов:

1) Исходный текст

2) Преданализ

3) морфологический анализ

4) поверхностный синтаксический анализ

5) глубинный синтаксический анализ

6) поверхностный семантический анализ

7) глубинный семантический анализ

8) прагматический анализ

9) выявление текстовых структур.

Указанные этапы охватывают всю задачу анализа текстов на естественном языке. Необходимость в исполнении тех или иных этапов при анализе конкретного текста зависит от тех целей, для которых тот анализ осуществляется.

В компьютерной лингвистике проблемы синтеза текстов сейчас находятся в центре внимания исследователей, и нет сомнений, что в ближайшее время будут найдены эффективные средства для создания текстов на заданную тему.

Это одно из самых молодых направлений в компьютерной лингвистике - это "оживление" текста. Своим появлением оно обязано персональным компьютерам, которые впервые дали возможность организовать общение с пользователем не только путем обмена текстами, но и посредством зрительных образов на экране дисплея. Одной из особенностей мышления человека (едва ли не основной для возможности самого мышления) является его разномодальность. Можно "мыслить словами", но можно представлять себе какие-то зрительные картинки, как часто бывает во снах. Есть люди, для которых многие воспоминания состоят из запахов или вкусовых впечатлений. Словом, все наши органы чувств дают свою модальность в мышлении. Но две модальности: символьная (текстовая) и зрительная - являются для человека основными. Так текст и сопутствующая ему зрительная картина оказываются объединенными в нашем сознании и интегрированными в некоторое единство. Текст как бы "живет" в виде некоторого образного представления. И изучение того, как происходит эта интеграция и как по одной составляющей представления появляется вторая, - одна из увлекательных задач, стоящих перед специалистами в области компьютерной лингвистики и их коллегами - создателями интеллектуальных систем. Уже найдены некоторые важные законы интеграции текстов и зрительных образов. Созданы первые экспериментальные модели этого процесса и первые интеллектуальные системы, способные описывать в виде текста предъявляемую им картинку (например, пейзаж), а также воссоздавать одну из возможных картин, соответствующих введенному в систему тексту.

1.3 Проблемы компьютерного анализа текста

Компьютерный анализ текста на естественном языке активно развивается в последние годы многими коллективами. Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных.

Информация о работе Компьютерный анализ текста