РЕФЕРАТ. 3
ВВЕДЕНИЕ.. 6
ГЛАВА 1. АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТА В КОНТЕКСТЕ РЕШЕНИЯ ПРИКЛАДНЫХ ЗАДАЧ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ.. 9
1.1 Автоматический анализ текста естественного языка. 9
1.2 Основные этапы автоматического анализа текста естественного языка. 14
1.3 Размеченный корпус текстов, как результат автоматического синтаксического анализа. 25
Выводы по главе 1. 28
ГЛАВА 2. СИНТАКСИЧЕСКИЙ АНАЛИЗ В ЗАДАЧЕ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА АНГЛИЙСКОГО ЯЗЫКА.. 30
2.1 Синтаксический анализ текста естественного языка. 30
2.2 Синтаксический анализатор Stanford Parser 34
2.3 Библиотека Natural Language ToolKit 36
Выводы по главе 2. 40
ГЛАВА 3. ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ СИНТАКСИЧЕСКОГО АНАЛИЗАТОРА.. 42
3.1 Практическое применение инструментов Natural Language Toolkit и Stanford Parser 42
Выводы по главе 3. 45
ЗАКЛЮЧЕНИЕ. 46
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 47
Основные этапы автоматического анализа текста естественного языка
Сложность формального описания языка и его обработки ведет к разбиению этого процесса на отдельные этапы, которые соответствуют всем уровням языка. Большинство современных лингвистических процессоров (компьютерных систем, которые реализуют лингвистическую модель, способную работать с естественным языком, с целью выявления необходимых структур, вплоть до семантических, необходимых для представления предложения/текста способом, который будет понятен ЭВМ и может быть использован для решения описанных выше прикладных задач) относятся к модульному типу, в котором каждому уровню или этапу анализа или синтеза текста соответствует отдельный модуль процессора. В случае анализа текста отдельные модули лингвистического процессора выполняют:
Графематический анализ (сегментация), т. е. выделение в тексте предложений и словоформ, точнее токенов (т. к. в тексте могут быть не только слова).
Морфологический анализ — переход от словоформ к их леммам (словарным формам лексем) или основам (ядерным частям слова, за вычетом словоизменительных морфем).
Синтаксический анализ (предсинтаксический, синтаксический и постсинтаксический) — выявление синтаксических связей слов и грамматической структуры предложений.
Семантический анализ - определение смысла фраз и соответствующая реакция системы, в рамках которой работает лингвистический процессор.
Предсинтаксический анализ отвечает за две противоположные задачи: объединение отдельных лексических единиц в одну синтаксическую или, наоборот, ее разделение на несколько. В одну синтаксическую единицу объединяются изменяемые неразрывные словосочетания. Вторая задача предсинтаксического анализа это проведение синтаксической сегментации, то есть разметка линейного текста на фрагменты, привязанные к правилам следующего этапа – синтаксического анализа, который является задачей невероятного уровня сложности. В связи с этим любая помощь при его проведении может привести к существенному ускорению его работы.
Синтаксический анализ подразумевает фрагментацию текста на предложения или близкие к ним фрагменты для построения синтаксических структур. Синтаксический анализ – самая трудный этап анализа текста. Процедура автоматического синтаксического анализа позволяет получить при помощи алгоритмов формализованную синтаксическую структуру предложения. Результатом работы автоматической системы синтаксического анализа является представление синтаксической структуры входного предложения обрабатываемого текста в виде синтаксического дерева. Исходной информацией для работы такой системы служит морфологическое представление слов в виде цепочки кодов, представляющих грамматический класс слова и его характеристики. Постсинтаксический анализ служит двум целям. С одной стороны, нам необходимо уточнить смысл, заложенный в слова и выраженный при помощи различных средств языка: предлогов, префиксов или аффиксов, создающих ту или иную словоформу.
Список использованной литературы:
Белоногов, Г. Г. Компьютерная лингвистика и перспективные информационные технологии / Г. Г. Белоногов [и др.] // Научно-техническая информация. Сер. 2. 2004. № 8. С. 30–43. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие - — М.: МИЭМ, 2011. — 272 с. Большакова Е.И. и др. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов //Труды межд. конф. Диалог. – 2007. – С. 70-75. Воронцов, А. В. Промышленная реализация системы лексико-грамматического анализа текстовых документов / А. В. Воронцов // Вестн. МГЛУ. Сер. 1, Филология. – 2007. – № 1(26). – С. 189–203 Гаршина В. В., Богоявленская Ю. А. Разработка лингвистического парсера русского языка / В. В. Гаршина, Ю. А. Богоявленская // Вестник ВГУ, серия: системный анализ и информационные технологии. – 2012. – № 2. –С. 174–182 Забежайло, М. И. Интеллектуальный анализ данных – новое направление развития информационных технологий / М. И. Забежайло // Научно-техническая информация. Сер. 2. 1998. № 8. С. 6–17. Захаров В.П. З-38 Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005. Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор SemSin // Компьютерная лингвистика и интеллектуальные технологии. 2012 Леонтьева, Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. Пособие для студентов лингвистических факультетов вузов / Н. Н. Леонтьева. – Москва: Академия, 2006–304 с. Пиотровский, Р .Г. Автоматическая переработка текста: теория и практика к концу ХХ в. / Р. Г. Пиотровский // Научно-техническая информация. Сер. 2. 1998. № 5. С. 26–36. Пиотровский, Р. Г. Методы автоматического анализа и синтеза текста / Р. Г. Пиотровский [и др.]. – Минск: Вышэйшая школа, 1985.– 222 с Н. К. Рубашко Основные задачи автоматической обработки текстов и подходы к их решению Толдова С. Ю. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка / С. Ю. Толдова, Е. Г. Соколова, И. Астафьева, А.Гарейшина Abeille, A., Cl ´ ement, L., and Kinyon, A. (2000). Building a Treebank for French. In Proceedings of the Second International Conference on Language Ressources and Evaluation (LREC) Bird Steven. NLTK: The Natural Language Toolkit. URL: https://aclanthology.org/P04-3031.pdf Black, E. (1993). Parsing English by Computer: The State of the Art. In Proceedings of the International Symposium on Spoken Dialog Brant, S., Dipper, S., Hansen, S., Lezius, W., and Smith, G. (2002). The TIGER Treebank. In Proceedings of the First Workshop on Treebank and Linguistics Thories (TLT) Carroll, J., Frank, A., Lin, D., Prescher, D., and Uszkoreit, H. (2002). Beyond Parseval – Towards Improved Evaluation Measures for Parsing Systems. In Carroll, J., editor, Proceedings of the Workshop Beyond Parseval – Towards Improved Evaluation Measures for Parsing Systems at the Third International Conference on Language Resources and Evaluation (LREC), Clark, S. and Hochenmaier, J. (2002). Evaluating a Wide-Coverage CCG Parser. In Proceedings of the Workshop Beyond Parseval – Towards Improved Evaluation Measures for Parsing Systems at the Third International Conference on Language Resources and Evaluation (LREC) Kubler, R. McDonald, and J. Nivre, “Dependency Parsing”, Synthesis Lectures on Human Language Technologies, G. Hirst ed. Morgan & Claypool, 2009 Patrick Paroubek Evaluating part-of-speech tagging and parsing on the evaluation of automatic parsing of natural language Rushdi Shams Performance of Stanford and Minipar Parser on Biomedical Texts Department of Computer Science, University of Western Ontario, London Srinivas, B., Sarkar, A., Doran, C., and Hockey, B. (1998). Grammar and Parser Evaluation in the XTAG Project. In Proceedings of the Workshop on Evaluation of Parsing Systems, Оnline программа синтаксического анализа предложений русского языка Link Grammar Parser for Russian. – URL: http://sz.ru/parser/ Программа синтаксического анализа предложений английского языка Link Grammar Parser. – URL: http://www.link.cs.cmu.edu/link/ Natural Language Toolkit. – URL: https://www.nltk.org/ Утилита NLTK, которая использовалась для анализа тональностей. URL: http://text-processing.com/demo/sentiment/ The Stanford CoreNLP Natural Language Processing Toolkit. URL: https://nlp.stanford.edu/pubs/StanfordCoreNlp2014.pdf

