Компьютерный корпус текстов русских газет конца XX-ого века

Материал из Wiki-пространство Государственного института русского языка им.А.С.Пушкина
Перейти к: навигация, поиск

Автор: Участник: Di_stav

Компьютерный корпус текстов русских газет конца XX-ого века

Краткая информация о структуре корпуса.

Cоздатели Корпуса

Создание корпуса, его анализ, категоризация, исследование и разработка Интернет-варианта выполнены в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435) в 1999-2002-ом гг.

Поликарпов А.А. - автор идеи корпуса, его рабочего проекта, руководитель коллектива по созданию корпуса, его лингвистическому анализу и формированию его Интернет-варианта.

Контроль омонимических и синонимических характеристик слов и корней , контроль новой лексики.

Кукушкина О.В. - участие в разработке рабочего проекта корпуса, создание и ведение морфологической и других баз данных по корпусу, автоматический морфологический, лексико-грамматический и лексико-семантический анализ единиц текстов корпуса.

Савчук С.О. - жанровый анализ текстов.

Виноградова В.Б. - жанровый анализ текстов.

Пирятинская Е.Ф. - морфемный анализ лексики.

Хмелев Д.В. - создание оболочки СУК (системы управления корпусами).

Варламов А.А. - адаптация оболочки и поддержка Интернет-варианта корпуса.

Токтонов А.Г. - анализ новой лексики.

Источники материала корпуса

Источником Корпуса послужили текстовые файлы русскоязычных российских газет, накапливаемые в информационной системе фирмы Интегрум-Техно.

Общая характеристика Компьютерного корпуса газетных текстов современного русского языка

В ходе выполнения данного проекта реализована серия основных задач построения и анализа базы данных газетного материала в интересах получения объективной картины состояния современного русского газетного языка (а отчасти и картины состояния всего языка в целом, если иметь в виду то, что в наборе газетных жанров присутствуют многие жанры других родов словесности). Для этого был осуществлен подбор обширного газетного материала для корпуса (тексты общим объемом более 11 млн. словоупотреблений) на основе принципов включения в него полных номеров 13 российских газет на русском языке за отдельные даты 1994-1997-ого гг., представленности в нем ежедневных и неежедневных (МН, Новая газета), "левых" ( Завтра, Правда, Правда-5 ) и "правых", центральных и местных, общих и профессионально ориентированных ( Литературная газета ) газет. Эти принципы позволяют получить относительно объективную и надежную картину соотношения в газетном материале текстов различного типа, (например, различных жанров и жанровых типов) их единиц и отношений между ними. В том числе, это обеспечивает возможность анализа в дальнейшем не только общих для всего газетного языка характеристик, но и возможность анализа жанровой специфики представленности в нем лексико-фразеологической, грамматической и иной информации.

Корпус создан, анализируется и управляется на основе системы Диктум-1 (разработанной в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ ). С помощью этой системы тексты и единицы корпуса автоматически и полуавтоматически маркируются различного рода маркерами: тексты (и, соответственно, каждое их словоупотребление) - маркерами газеты-источника, объема текста, его жанра, даты публикации и т.п.; словоупотребления - маркерами грамматических, лексических, морфемных и иных категорий.

Соотношение источников по их объёмам в Компьютерном корпусе текстов газет русского языка

Chislo slovoupotreblenij.jpeg

Разработка и реализация на материале корпуса принципов жанровой классификации газетных текстов (включая типизацию жанров, а также определение характеристических признаков различных типовых жанров) позволила выявить профиль распределения объемов текстов разного жанрового и источникового состава и особенностей употребления в них единиц.

Проведенная автоматическая лемматизация и морфологическая квалификация словоупотреблений Корпуса (с последующими контролирующими процедурами), а также морфемная сегментация словоформ и лексем позволила автоматически получить для него алфавитно-частотные и частотно-распределительные словари словоформ, лемм, корней и морфемных моделей.

В таком объёме и с такой подробной разработкой различных характеристик корпуса текстов на русском материале ещё не строились. Каждый текст газетного корпуса характеризовался (а) датой публикации источника (газеты), (б) названием источника, (в) рубрикой (если есть), (г) автором (если указан), (д) жанром текста и его (е) жанровым типом (на основе классификации, разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии – см. ниже), (ж) объёмом текста.

Каждое словоупотребление во всем корпусе характеризовалось (а) той формой словоизменения, которая ему свойственна, (б) леммой (исходная форма лексемы), (в) некоторыми лексико-грамматическими, лексико-семантическими, морфемными и иными характеристиками.

Соотношение текстов различных жанровых типов

Texts-janry.png

Источники

http://www.philol.msu.ru/~lex/corpus/corp_descr.html#5

Категории

Категории:Проекты филологов ИКТФ