Автор работы: Пользователь скрыл имя, 07 Декабря 2013 в 09:12, курсовая работа
Цель данной работы – это выяснить, что такое компьютерный анализ текста.
При этом необходимо решить следующие задачи:
- ознакомиться с понятием анализ текста;
- рассмотреть, что понимается под компьютерным анализом текста;
- ознакомиться с историей развития компьютерного анализа текста;
- выявить проблемы компьютерного анализа текста;
- привести некоторые программы, используемые при компьютерном анализе текста.
Введение
Глава 1. Анализ текста
1.1 Понятие анализа текста
1.2 Понятие компьютерного анализа.
1.3 Проблемы компьютерного анализа текста
1.4 Извлечение информации
1.5 Обработка естественного языка
Глава 2. Программы для компьютерного анализа текста
2.1 Машинный перевод
2.2 Лингвистическое программное обеспечение
2.3 Программы для компьютерного анализа текста
Заключение
Список литературы
- Орфокорректоры: MS Word, ispell, aspell, myspell.
- Поисковые системы
- Системы машинного перевода: PROMT, Socrat.
- Системы автоматизированного перевода, в т.ч. программы управления памятью переводов - OmegaT, Trados.
2. Системы распознавания символов OCR: Finereader, CuneiForm, Tesseract, OCRopus.
3. Речевые системы:
- Системы анализа речи: Dragon, IBM via voice.
- Системы синтеза речи: Агафон.
- Системы голосового перевода (распознавание и синтез): Speereo.
2.3 Программы для компьютерного анализа текста
1. Обработка текста на естественном языке:
1. 1. Электронные словари:
А) Викисловарь – свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке.
В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь - попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.
Б) GoldenDict - свободная оболочка для электронных словарей с открытым исходным кодом, поддерживающая многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd, а также произвольных словарных веб-сайтов (Википедия, Викисловарь).
Особенности:
На сайте программы можно сразу же получить удобный русско-английский и англо-русский словарь, а также словарь произношений английских слов.
Аналоги: Мультитран, ПРОМТ, ABBYY Lingvo, Atlantida, Apertium, Babylon, Context, Dicto, Google Translate, Lingoes, LiteDict, MultiLex, Pragma, ProLing Office, StarDict, SYSTRAN, TransLite, WiseDict.
В) Stardict - свободная оболочка для электронных словарей с открытым исходным кодом, способная, кроме собственно вывода статей, осуществлять перевод, озвучивать слова, использовать нечёткие запросы и шаблоны, поиск в онлайновых словарях. Разрабатывается на языке C++, с использованием графической библиотеки GTK 2 и кодировки UTF-8.
Возможности:
1. 2. Орфокорректоры:
А) MS Word - Microsoft Word - это текстовый процессор, предназначенный для создания, просмотра и редактирования текстовых документов, с локальным применением простейших форм таблично-матричных алгоритмов. Текстовый процессор, выпускается корпорацией Microsoft в составе пакета Microsoft Office.
Б) aspell - GNU Aspell - свободная программа для проверки орфографии, разработанная для замены Ispell. Это стандартная программа проверки орфографии для системы GNU. Она также компилируется под другие Unix-подобные операционные системы и Microsoft Windows. Основная программа лицензируется на условиях GNU LGPL, а документация - на условиях GNU FDL. Словари для неё доступны примерно на 70 языках.
1. 3. Системы автоматизированного перевода, в т.ч. программы управления памятью переводов:
А) OmegaT - система автоматизированного перевода, поддерживающая память переводов, написана на языке Java. Возможности продукта включают сегментацию исходного текста на основе регулярных выражений, использование точных и неточных соответствий с уже переведенными фрагментами, использование словарей, поиск контекстов в базах данных переводов и работу с ключевыми словами.
Начиная с версии 2.04 OmegaT также может переводить текущий абзац текста через Google Translate.
Б) Trados - система автоматизированного перевода, первоначально (с 1992 года) разработанная немецкой компанией Trados GmbH. Является одним из мировых лидеров в классе систем Translation Memory.
Система Trados состоит из модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций PowerPoint, текстов в формате HTML и других метаданных, документов FrameMaker, InterLeaf и др., а также для ведения терминологических баз данных (модуль MultiTerm). Последняя версия системы, выпущенная независимой компанией Trados - 7.0. Последняя версия Trados на сегодняшний день - SDL Trados Studio 2009.
Принцип работы. Концепция Translation Memory
предполагает выявление в переводимом
тексте фрагментов, переводы которых
уже имеются в базе данных переводов,
и за счет этого сокращение объема
работы переводчика. Фрагменты, оставшиеся
непереведёнными, передаются дальше для
ручной обработки переводчику или
системе машинного перевода. Переводчик
на этом этапе может выделить вновь
переведённые фрагменты и занести
новые пары параллельных текстов
на двух языках в базу данных. Такая
схема наилучшим образом
2. Системы распознавания символов OCR:
А) Finereader - система оптического распознавания символов разработанная российской компанией ABBYY.
Возможности. Поддерживает распознавание текста на 186 языках и имеет встроенную проверку орфографии для 38 из них. По некоторым данным, после некоторого обучения системы она может начать распознавать рукописный текст, но его нужно будет учить под почерк пользователя.
Б) CuneiForm - свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.
Первоначально система CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.
Особенности. CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов. CuneiForm - Шрифтонезависимая система.
В) Tesseract - свободная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет "пролежавшая на полке". В августе 2006 года Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая, русский с версии 3.0) осуществляется с помощью дополнительных модулей.
Г) OCRopus - OCR-система на базе не так давно открытого распознающего ядра — tesseract Программный пакет для распознавания текста, развивающийся по принципам Open Source и распространяющееся под Apache License 2.0. По задумке разработчиков, с помощью OCRopus станет возможным определять текстовое содержимое на цифровых изображениях и переводить его в обычный текстовый формат для дальнейшего редактирования. Помимо печатного текста, программа сможет распознавать и рукописные материалы.
В настоящее время OCRopus использует только интерфейс командной строки, принимая указания на входные изображения с текстом, и выводя данные в формате hOCR (открытый формат на основе HTML). Если необходим более точный контроль, можно указать в командной строке команды для выполнения конкретных операций (например, распознание одной строки).
Заключение
Подводя итоги можно сказать, что компьютерный анализ текста является значимым приемом изучения специфики текстового воплощения концептуальной картины мира, позволяющим постичь особенности стиля.
В ходе работы были получены следующие результаты:
Полученные данные являются относительно новыми в сфере исследования анализа текстов на компьютерном языке, т.к. представляют собой попытку структурировать имеющиеся знания в данной сфере и синтезировать их с новыми. Преимущества компьютерного анализа перед аналогичным исследованием текста в ручную очевидны. Он позволяет сэкономить время на структурировании результатов, оформлении их в таблицах, графиках, определениях.
Таким образом, тема "Компьютерный анализ текста" весьма интересна при изучении, и не до конца рассмотрена авторами многих работ. Нет определенного понятия компьютерному анализу текста, нет единого документа, где был бы собран, структурирован материал по заданной теме. Трудности были в том, чтобы отобрать необходимые данные, выделить в них главные особенности, а также сделать отобранный материал доступным, понятным для пользователя.
компьютерный текст орфография перевод
Список литературы
Размещено на Allbest.ru