Вычислительная лексикография и мультимедийные словари

Университет греческого города Патрас при поддержке Департамента электроники и ЭВМ провел 22-23 сентября 2000 г. Международный семинар по проблемам вычислительной лексикографии и мультимедийным словарям. В семинаре участвовали ученые Греции, России, Италии, Франции, США и других стран. Bcего в материалы семинара вошли 32 доклада. 
Работа семинара проходила по следующим секциям: лексикография, основанная на корпусе текстов; морфология; создание баз знаний (терминология); представление лексических знаний; мультимедийные словари; многоязычная лексикография.

 

Программный доклад Жана Верониса называется "Распознавание смысла: смотри не на значение слова, а на его использование”. Автоматическое распознавание смысла слов представляет собой вызов, который еще предстоит рассмотреть лингвистам. Пока что результаты в этом направлении очень скромные. Трудности возникают с разных сторон, особенно в части извлечения необходимой разрешающей информации из контекста. Однако одна из главных проблем заключается в том, что само понятие "смысл слова” или его "значение” плохо определены. Обычные словари не дают дистрибутивных критериев для разных значений слова. Так же обстоит дело и с машинными словарями, которые строятся по образцу традиционных и не дают слов в их дистрибутивных окружениях. В статье описываются результаты эксперимента, в котором информантам давались многозначные слова в конкордансах (в контекстном окружении) и требовалось определить смысл слова. Задание большинством информантов считалось легким, однако, когда сверили результаты эксперимента, оказалось, что понятие "смысл” слова понимается по-разному и разброс в определении смысла был весьма широк.
Статья "Прямой подход к морфологическому анализу и синтезу” (авторы К.Старбас, Н.Д.Факотакис, Дж.К.Коккинакис) посвящена проблеме морфологической обработки большого корпуса текстов. В специальном словаре соединены полные формы слов, леммы и грамматические ярлыки. Процесс анализа/синтеза сводится к поиску в графе, который осуществляется очень быстро и может быть выполнен даже в случае, когда некоторой информации нет во входном словаре. Такой словарь (база данных) может пополняться в результате пользования им. Предложенный подход не зависит от языка (опытный образец выполнен на материале греческого языка) и не использует морфологические правила или какую-либо специальную информацию. Морфологическому анализу посвящены также два следующих доклада: Набиль Хатут "Морфологический анализ, основанный на сетевой модели” и Эвангелис Дерматас "Стохастический алгоритм для определения суффиксов слов: эксперименты с греческим языком”. В каждом из этих докладов описывается формализм, с помощью которого в форме таблицы или графа можно достаточно уверенно получить морфологическую информацию для языков синтетического типа.
Много докладов посвящено работе с лексикой. Доклад Дж.Вуроса, К.Котиса и П.Целиоса "Поиск и использование терминологических знаний во всемирной паутине” посвящен вопросам использования Bilingual Information Browser (BILIB) — двуязычного информационного браузера. Этот браузер в большей степени, чем другие системы, позволяет пользователю получать терминологическую информацию, использовать концептуальные знания и прозрачным образом работать как с терминологической базой данных, так и с формальной концептуальной базой знаний. Главное внимание уделяется структуре базы знаний, которая построена на основе принципов EuroWord. В рамках проекта ПРОМЕТЕЙ, который также входит в данное исследование, главная цель заключается в том, чтобы построить общую рамку для многоязычных "электронных энциклопедий”, которые будут предоставлять термины в их переводах на другие языки, дадут возможность пользователям ознакомиться с системой концептов любой предметной области, найти нужные термины в любом языке на основе их семантической связи с другими терминами или на основе их лингвистических характеристик, понять семантические связи между терминами и рассматривать мультимедийные документы, в которых используются данные термины. Поля типичного терминологического формата словарной статьи содержат следующие кластеры: вводные данные, такие как язык, страна, дата ввода термина; лингвистические данные, такие как часть речи, идиоматические выражения, аббревиатуры; объяснительные данные, такие как дефиниция, контексты, комментарии; данные по использованию, такие  как отношения с другими терминами (родовые, видовые и пр.). В работе приводится общая схема организации BILIB.
В докладе коллектива авторов (Дж.Контос и др.) "Семантика технических лексиконов” рассматривается система анализа технических словарей машиночитаемой формы с целью извлечения из них предметной семантической информации. Машиночитаемые лексиконы приобретают сейчас все большее значение, поскольку они используются для машинного перевода; парсеров, основанных на лексике; доступа на естественном языке к базам данных; обработки текстов; представления концептов; создания тезаурусов для информационно-поисковых систем. Описывается проект совместного исследования ряда греческих университетов в части следующих предметных областей: коммерческая деятельность, новости бизнеса, фармакология, медицина, инструкции по программному обеспечению. Многозначные слова обрабатываются человеком-редактором, однако результаты работы по разрешению многозначности сводятся в обучающийся блок — подсистему общей системы. Этот блок состоит из следующих модулей: процессор для машиночитаемых словарей, лексический процессор, синтаксический процессор, семантический процессор, графический процессор и обучающий модуль. Некоторые важные вопросы остаются нерешенными. Так, нет ясности относительно наилучшего способа представления семантической информации.

 
Т.Нордгард представил доклад "NORKOMPLEX — норвежский машиночитаемый лексикон”. В лексиконе содержится информация о флексиях и произношении всех слов, в него включенных. Для глаголов дается также информация о синтактико-семантических свойствах.
Р.К.Потапова (МГЛУ) и В.В .Потапов (МГУ, Москва) представили доклад "Лингвистическая база данных для электронной энциклопедии русского языка (новая версия 2000)”. Описываются принципы построения и общая структура лингвистической базы данных по русскому языку. Энциклопедия предназначена для разных пользователей — исследователей, преподавателей и студентов, криминалистов и др. В базе знаний содержится лексическая, фонетическая, семантическая информация и другие сведения. В каждом семантическом поле выделяются субполя с текстуальным определением каждого ключевого слова. Все блоки Энциклопедии связаны между собой гипертекстовой технологией. Новая версия энциклопедии базируется на интеграции самых разных сведений о языке, как устном, так и письменном.
Другие доклады на семинаре: Г.Мартыненко "Измерение лексико-семантической концентрации в тексте и в корпусе текстов; Дж.Де Калюве "Исследование названий профессии в корпусе голландских текстов; М.Марагудакис и др. "Выявление фреймов субкатегоризации из корпуса текстов на материале современного греческого языка”.

25 апреля 2012 /
Похожие новости
Гидрогеохимия-Махнач (сдо-геосервер)
Основы управления зем_ресурс (сдо-геосервер) Учебная дисциплина  “Основы управления земельными ресурсами и регулирования земельных отношений” предназначена для студентов высших
Картография идентична первому курсу (сдо-геосервер), добавлена практика Учебная дисциплина “Картография” предусматривает овладение студентами знаниями о предмете
Картография (сдо-геосервер) Учебная дисциплина “Общая картография” предусматривает овладение студентами знаниями о предмете “Общая картография”, об элементах географической
Курс лекций: "История" (сдо-геосервер) У вышэйшых навучальных установах Рэспублікі Беларусь прадугледжана вывучэнне інтэгрыраванага курса айчыннай гісторыі – “Гісторыя Беларусі ў
Комментарии

НАПИСАТЬ КОММЕНТАРИЙ

Ваше Имя:
Ваш E-Mail:
Полужирный Наклонный текст Подчеркнутый текст Зачеркнутый текст | Выравнивание по левому краю По центру Выравнивание по правому краю | Вставка смайликов Выбор цвета | Скрытый текст Вставка цитаты Преобразовать выбранный текст из транслитерации в кириллицу Вставка спойлера
Вопрос:
Введите слово "фикус" (без кавычек)
Ответ:*
Введите код: