Автор работы: Пользователь скрыл имя, 02 Апреля 2013 в 11:04, реферат
Цель данной работы – выяснить роли информационных технологий в литературоведении.
Цель определила следующие задачи:
- дать общую характеристику применению информационно-коммуникативных технологий в науке;
- рассмотреть роль разнообразных программ, используемых литературоведами в научно-исследовательской работе;
- изучить использование программы TextAnalyst 2.0 при интертекстуальном анализе художественных текстов
ВВЕДЕНИЕ 3
ГЛАВА 1 ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИ В НАУЧНОЙ ДЕЯТЕЛЬНОСТИ 5
ГЛАВА 2 ОСНОВНЫЕ ПРОГРАММЫ, ИСПОЛЬЗУЕМЫЕ ЛИТЕРАТУРОВЕДАМИ 6
2.1 Специализированные лингвистические программы 6
2.1.1 Программы для автоматической обработки текстов 6
2.1.2 Программы анализа и обработки текстов 9
2.1.3 Программы преобразования текстов 10
2.1.4 Психолингвистические программы 11
ГЛАВА 3 ИСПОЛЬЗОВАНИЕ ПРОГРАММЫ TEXTANALYST 2.0 ПРИ ИНТЕРТЕКСТУАЛЬНОМ АНАЛИЗЕ ХУДОЖЕСТВЕННЫХ ТЕКСТОВ 13
ЗАКЛЮЧЕНИЕ 18
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 19
Среди многочисленных генераторов текстов отметим, например: Болтун (виртуальный собеседник, который обладает зачатками искусственного разума; может реагировать на реплику пользователя своей репликой), Russian Word Constructor (RWC) (программа для генерации русскоязычных стихоподобных текстов ("инструмент поэта"); способна конструировать русские неологизмы на основе заданного словаря с лексико-статистической информацией). Экспериментальная программная система Russian Word Constructor (RWC) – это попытка изобрести "инструмент поэта" или, более строго, "интерактивную систему для создания русскоязычных стихоподобных текстов". Главное в программе – ее способность конструировать русские неологизмы на основе словаря с лексико-статистической информацией о языке. Это дает мощный толчок творческой фантазии, а оригинальная полноэкранная оболочка позволяет тут же реализовывать возникающие идеи. Кроме того, в систему RWC входит программа NON-STOP для автоматической генерации псевдопрозаического текста и несколько утилит для работы с файлами словарей.
Познакомьтесь с примерами стихотворных текстов, созданных несколькими авторами с помощью RWC:
Чрезымянный пеплосед, деломеченые львинки,
Ереулками кустя, незадачки фехтовает:
Углухаюсь то ли сяк, еженечек недождуньям
Безумоздно нынченяю. И шутя языческает,
Дескать жрецкими гробами до мышляпы домутился!
Покаянные верлибры строхочу каждународно!
Что ли мало бормотуний до утруски доманало,
Или многими летями распорячиться угодно?
Весна (генератор псевдофилософских текстов).
В данной главе мы попытаемся оценить возможности программы TextAnalyst 2.0 применительно к исследованию интертекстуального пространства художественных текстов. Несмотря на широкое использование мультимедиа, текст остается одним из основных видов информации в большинстве электронных хранилищ. Разработка эффективных подходов к обработке текстов с целью фильтрации, формирования смыслового портрета, навигации по базе текстов является одним из наиболее актуальных направлений современных информационных технологий.
Существующие подходы
к анализу текстов можно
Предлагаемый подход к анализу текстовой информации реализован на основе однородной нейросетевой (а потому статистической) обработки информации, обладает достаточным быстродействием и не зависит от языка и предметной области, но при этом, в отличие от большинства алгоритмов обработки текстов, реализованных на основе статистического подхода, дает хорошие результаты. Обратимся к программе TextAnalyst 2.0 (для использования необходимо скачивание). Это смысловой анализатор, который за считанные минуты позволяет ознакомиться с текстами любой тематики [12]. Программа разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов и предоставляет пользователю следующие основные возможности:
Структурный портрет текста (смысловая сеть) может быть построен и для одного текста, и для любого их множества. Общая сеть понятий, построенная на множестве текстов, относящихся к одной предметной области-рубрике, используется для навигации по рубрике, а также для сравнения с сетями входных текстов при их классификации. Минимальный древовидный подграф семантической сети представляет собой тематическое дерево, которое, как и семантическая сеть, описывает содержание текста, а также позволяет осуществлять навигацию по тексту. Тематическое дерево больше похоже на оглавление текста. Исходный текст (множество текстов) вместе с их семантической сетью представляет собой гипертекстовую структуру и является одновременно хранилищем текстов и базой знаний. Семантическая сеть может быть использована для автоматического разбиения множества текстов на подмножества — таксономии. При этом группы текстов формируются с учетом заложенной в текстах тематической структуры [12].
При исследовании художественных текстов многие из этих возможностей могут быть полезными. Для начала работы запускаем программу и выбираем текстовый файл для анализа. В нашем случае это будет файл "Поэзия земли.txt", содержащий статью о русском художнике Владимире Копылове. Теперь главное окно TextAnalyst должно выглядеть примерно так:
Рисунок 1 – Интерфейс программы TextAnalyst
Вся работа по анализу текста уже сделана, остается лишь ознакомиться с ее результатами. Прежде всего, изучив предложенный материал, TextAnalyst формирует сеть основных (наиболее значимых) понятий, содержащихся в представленных ему текстах (верхнее левое окно на Рис. 1). В нашем случае в сеть понятий входят: "Копылов", "Владимир", "пейзажист", "натюрмортах", "творчества", "вода", "главным", "живописца", "рисунок", "художественный" и др.
Такая сеть служит представлением смысла текста и основой для всех видов дальнейшего анализа. Сеть понятий – это множество терминов из текстов – слов и словосочетаний, связанных между собой по смыслу. В сеть включены не все термины текста, а лишь наиболее значимые, несущие основную смысловую нагрузку. Аналогичным образом представлены и смысловые связи между понятиями текстов – отражаются лишь наиболее явно выраженные из них. Поэтому, с одной стороны сеть достаточно полно описывает смысл текстов, а с другой – позволяет отбросить несущественную информацию и представить содержание в сжатом виде, так называемом «смысловом портрете».
Таким образом, можно сразу увидеть всю информацию по каждому понятию, буквально бросив единственный взгляд на набор его связей в сети. В результате, передвигаясь по смысловым связям от понятия к понятию, можно находить и прицельно исследовать лишь интересующие места текстов, не затрудняя себя просмотром всей попавшейся на пути информации.
Теперь обратим внимание на числа, стоящие в дереве возле понятий. Ближайшее к понятию число представляет его смысловой вес (например, "Копылов" – 100, "Владимир" – 99, "творчества" – 98). Его значение (от 1 до 100) показывает, сколь важную роль играет понятие для смысла всего текста – как много информации в тексте касается данного понятия. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. Маленькое, близкое к единице значение показывает, что соответствующая тема лишь вскользь упомянута в тексте и в нем очень мало информации, относящейся к данному понятию. Второе число, стоящее перед смысловым весом, ближе к раскрытому узлу, представляет вес связи от понятия в вершине раскрытого списка к данному. Вес связей также всегда принимает значение от 1 до 100.
Кроме того, программа предоставляет услугу автоматического реферирования (в меню "Анализ" выбираем пункт "Реферирование"). Формируемый реферат содержит список наиболее информативных предложений текстов (тезисов) (Рисунок 2, правое верхнее окно). Конечно, это еще не полноценный реферат, так как тезисы в основном не связаны между собой стилистически, а просто выбраны из текста и расположены в порядке их встречаемости. Однако и такой подстрочник реферата оказывается достаточно информативным, чтобы составить общее представление о тексте и уяснить его основные мысли. Более того, все предложения реферата снабжены отсылками к соответствующим местам исходных текстов, что позволяет просмотреть контекст интересующего тезиса. Подробность реферата можно легко настраивать, изменяя количество формирующих его предложений. При этом каждое предложение реферата характеризуется относительной степенью значимости во всем тексте.
Рисунок 2 – Реферирование
Таким образом, данная программа может быть достаточно полезной в исследовании автора, поскольку позволяет быстро получить смысловой портрет текста, что необходимо в процессе работы с большим количеством разнообразных текстов, когда нелегко удержать в памяти содержание каждого из них. TextAnalyst удобно использовать и при поиске текстов для исследования: не обязательно тратить время на чтение полного текста, с помощью реферирования можно быстро соориентироваться, о чем идет речь и сделать вывод о том, подходит ли данный текст для исследования.
Таким образом, программа TextAnalyst позволяет
автоматически сформировать смысловой
портрет текста в виде ассоциативной сети
основных понятий с их связями, помеченными
их числовыми характеристиками. Семантическая
сеть совместно с исходным текстом представляют
собой гипертекстовую структуру, на которой
семантическая сеть играет роль эффективного
средства навигации. Разбиение сети множества
текстов на подсети производит автоматическую
таксономию множества текстов по рубрикам.
Сравнение семантических сетей текстов
позволяет выявить степень корреляции
между текстами, а сравнение семантических
сетей входного текста и рубрик – отнести
текст к одной из рубрик. Элементарно строится
реферат текста. Так же просто строится
тематический реферат и осуществляется
смысловой поиск на множестве текстов.
Поскольку нейросетевая технология реализует
специфический статистический анализ,
обработка текста не зависит от предметной
области и от языка, выполняется быстро
и не требует дискового пространства.
Данный реферат представляет собой попытку исследования возможностей и эффективности применения информационных технологий в научной и образовательной деятельности литературоведа. Взаимодействие этих дисциплин привело к тому, что коммуникативные технологии органично вливаются в научный и образовательный процесс в целом. Филология, будучи древней наукой, продолжает активно развиваться и по сей день, впитывая все новые и новые веяния, используя все возможные методы в своих исследованиях, в том числе и информационные технологии.
Исходя из поставленных задач была проделана следующая работа. Систематизирована информация по участию информационных технологий в научной и образовательной деятельности литературоведа. Охарактеризована роль в этой деятельности программ для анализа и обработки текстов. Рассмотрены программы, предназначенные для автоматической обработки текстов и их преобразования с помощью информационных технологий. Проанализированы возможности программы TextAnalyst 2.0 при интертекстуальном анализе художественных текстов. Выяснилось, что данная программа помогает анализировать содержание текста, автоматически формирует семантическую сеть с гиперссылками, создает "смысловой портрет" текста в терминах основных понятий и их смысловых связей, осуществляет реферирование текста. Дана также обзорная характеристика некоторых текстовых редакторов.
Главный предмет филологии — тексты (со всеми их вербальными и, возможно, невербальными компонентами), а большая часть накапливаемых электронных информационных ресурсов представляет собой наборы текстов. Современные информационные технологии открывают новые возможности для обработки и анализа текстов и предоставляют разнообразные средства создания, распространения, поиска и учета текстовой информации. С другой стороны, возникает задача изучения текстов, бытующих в новой форме, в новой среде и в новых условиях. Можно сделать вывод: филология и технология заинтересованы в кооперации и взаимопомощи [2].
Информационные технологии в наше
время развиваются очень быстрыми темпами.
В перспективе, возможно, появятся технологии,
которые будут настолько точно обрабатывать
текстовый материал, что литературоведу
не придется сомневаться в полученных
результатах.
Информация о работе Применение информационных технологий в литературоведении