Компьютерная лингвистика
Компьютерная лингвистика: от автоматической обработки текста до машинного понимания.
|
|
Алгоритм, алгорифм (от algorithmi, algorismus, первоначально —
латинская транслитерация имени математика аль-Хорезми) -
способ (программа) решения вычислительных и других задач, точно предписывающий,
какие процедуры необходимо выполнить и в какой последовательности,
чтобы получить результат, однозначно определяемый исходными данными.
Алгоритм — одно из основных понятий математики
и кибернетики.
В вычислительной технике для описания алгоритма используются
языки программирования.
|
Основные направления компьютерной лингвистики
(англ. computational linguistics, также - Nature Language Processing, NL-Processing, NLP), согласно Википедии:
- Машинный перевод.
- Автоматическое распознавание символов (англ. OCR).
- Автоматическое распознавание речи (англ. ASR).
- Автоматическое извлечение данных (англ. Data Mining)
[с их интеллектуальным анализом, т.е., обнаружение знаний в базах данных].
- Автоматическое реферирование [и аннотирование] текстов.
- Построение систем управления знаниями.
- Создание электронных словарей, тезаурусов, онтологий
[компьютерная лексикография].
- Корпусная лингвистика, создание и использование электронных корпусов текстов.
А также много других, например:
- Компьютерный анализ жанра и характеристик автора текста [более сложный, чем анализ сюжета].
- Компьютерный анализ блогосферы как источник знаний о языке [как вариант анализа корпуса текстов].
- Создание семантической паутины Интернета (формирование пространств знаний) и поиск знаний в ней.
|
|
Самые алгоритмически сложные направления машинного языкознания требуют использования
языков искусственного интеллекта, таких как Пролог,
сферой использования которого может быть:
- автоматический перевод с одного языка на другой;
- создание естественно-языковых интерфейсов для существующих систем;
- проектирование динамических реляционных баз данных;
- создание экспертных систем и их оболочек.
Судя по всему, компьютерная лингвистика становится основной частью технологий искусственного интеллекта.
На этой странице публикуется информация об информационных технологиях
в лингвистике - направлениях, подходах, теориях, программах, алгоритмах...:
-
Общие ресурсы по вычислительному языковедению:
- Подготовка компьютерных лингвистов
- Конференции по компьютерной лингвистике
- Порталы по машинной лингвистике и сборники лингвистических программ
- Каталоги программ и указатели по вычислительной лингвистике
- Электронные словари, тезаурусы и конкордансы
- Сетевые сборники статей по вычислительному языкознанию
- Статьи по квантитативной лингвистике (электронные ресурсы)
- Библиография научных трудов по автоматической обработке текстов
-
Основные направления и ИС квантитативной лингвистики
(от простых к сложным, на взгляд автора):
- Компьютерная (машинная) лексикография
- Гипертекстовые технологии представления текста
- Информационно-поисковые системы (ИПС)
- Разбор текста
- Корпусная лингвистика
- Машинный перевод
- Компьютерное моделирование общения
- Компьютерное моделирование структуры сюжета
Подготовка компьютерных лингвистов
Профессия [компьютерного] лингвиста очень востребована (с сайта ВШЭ):
-
В компаниях-гигантах IT, так или иначе связанных с задачами текстового поиска и анализа, таких как:
- Google,
- Яндекс,
- Mail.ru,
- ABBYY,
- Авикомп Сервисез,
- Samsung,
- Лаборатория Касперского и других.
-
В стартапах, разрабатывающих новые лингвистические технологии –
например, для создания роботов, говорящих на естественном языке ...
или для автоматического распознавания эмоций в текстах пользователей социальных сетей.
-
В компаниях и институтах, занимающихся прикладными лингвистическими задачами и их современными решениями:
— для разработки электронных словарей и тезаурусов;
- для разработки инновационных методик обучению языку;
- для разработки компьютерных моделей естественного языка.
-
В компаниях, не занимающихся лингвистикой, но нуждающихся в профессионале для обработки
больших объемов неструктурированных текстовых данных, например:
- в рекрутинге;
- в биржевой аналитике;
- в юридической поддержке;
- в маркетинге.
Где готовят компьютерных лингвистов и вообще хороших лингвистов-теоретиков:
- Москва, Академия МИД
- Москва (с филиалом в Н.Новгороде), Высшая школа экономики,
Факультет филологии ВШЭ (магистерская программа "Компьютерная лингвистика")
- Москва, МГИМО
- Москва, Филфак МГУ им. Ломоносова
- Московский лингвистический университет (МГЛУ им. Мориса Тореза)
-
Москва, МФТИ, Факультет инноваций и высоких технологий,
кафедра распознавания изображений и обработки текста
(направления "Интеллектуальные системы" и "Методы машинного обучения").
- Санкт-Петербург, Инъяз РГПУ им. А. И. Герцена
-
Санкт-Петербург, СПбГУ, Гуманитарный факультет,
кафедра информационных систем в искусстве и гуманитарных науках
(программа "Инженерия гуманитарных знаний").
- Новосибирский лингвистический университет (НГЛУ им. Добролюбова)
- Пятигорский лингвистический институт
Смотрите также списки вузов с их сайтами.
Там в разделе междисциплинарных специальностей приводится статья, где, в первую очередь,
выделено 3 вуза: МФТИ, гумфак СПбГУ и филфак ВШЭ - поэтому они здесь и выделены.
Но это именно для математиков-лингвистов, а не для лингвистов-математиков.
Конференции по компьютерной лингвистике
- 2010 Computational Linguistics Conferences.
-
Международная конференция по компьютерной лингвистике "Диалог".
Междисциплинарный семинар ДИАЛОГ проводится в России (г. Наро-Фоминск Московской области) ежегодно (обычно в июне).
Общая тема: компьютерная лингвистика и интеллектуальные технологии.
|
Направления конференции:
|
- Теоретическая и компьютерная лексикография.
- Корпусная лингвистика. Создание, применение, оценка корпусов.
- Лингвистическая семантика и семантический анализ.
- Извлечение и представление знаний. · Тезаурусы и онтологии.
- Компьютерный анализ документов: реферирование, классификация, поиск.
- Интернет как лингвистический ресурс. · Лингвистические технологии в вебе.
|
- Формальные модели языка и их применение.
- Модели общения. · Коммуникация, диалог, речевой акт.
- Вопросно-ответные системы.
- Анализ и синтез речи.
- Машинный перевод.
|
Порталы по машинной лингвистике и сборники лингвистических программ
-
Лингвистический алгоритм.
С каталогом лингвистических программ и ресурсов в сети версии 1.6 (2002 г.)
(имеется также более читабельная копия):
1. Программы анализа и лингвистической обработки текстов.
2. Психолингвистические программы.
3. Программы преобразования текстов.
4. Генераторы текстов и "говорящие" программы.
5. Системы обработки естественного языка (NL-Processing).
6. Коллекции ресурсов.
7. Словари и тезаурусы.
-
Справочно-информационный портал "Русский язык" МО "ЭЛЕКС", 2000.
Ресурс содержит массу полезной иноформации. Включает online словари русского языка:
1) Полный электронный орфографический словарь русского языка под ред. В.В.Лопатина.
2) Словарь трудностей произношения и ударения в современном русском языке.
3) Новый словарь русского языка. Толково-словообразовательный.
4) Русское словесное ударение. Словарь нарицательных имён.
5) Русское словесное ударение. Словарь имён собственных.
- Language Software Reviews Рейтинг лингвистического ПО [Eng]
Каталоги программ и указатели по вычислительной лингвистике
-
Каталог программ по вычислительной лингвистике SIL International (Summer Institute of Linguistics).
Программы требуют значительных усилий для изучения и применения. Не рекомендуются неискушенным в академической лингвистике пользователям.
Все программы, а их более 60, являются бесплатными и доступны для online загрузки.
-
Каталог программ по вычислительной лингвистике в сети InternetSIL International.
Очень обширная коллекция ссылок на программы чрезвычайно широкой лингвистической направленности в сети Internet.
Для всех платформ. Нет программ, посвященных русскому языку. Представлены как бесплатные, так и коммерческие программы.
-
Каталог программ в Corpus Linguistics Michael Barlow.
Подборка доступного в сети лингвистического программного обеспечения.
-
TELRI Research Archive of Computational Tools and Resources (TRACTOR)
Trans-European Language Resources Infrastructure (TELRI).
Архив лингвистических программ и ресурсов в рамках проекта TELRI.
TELRI - это ассоциация исследователей, целью которой является выявление и продвижение лингвистических ресурсов и программ,
связанных с обработкой текстовых и речевых данных для языков центральной и западной Европы. Пока архив не очень-то большой.
-
Каталог ресурсов по анализу текстов. Harald Klein.
Обширная компиляция ссылок по проблеме анализа текстов (на англ.языке). Большой раздел посвящен тематическим компьютерным программам.
-
Ресурсы, связанные с анализом текстов Matthias Romppel.
Электронный каталог ресурсов, связанных с анализом текстов (на англ.языке).
Библиографии, программное обеспечение, адреса исследовательских организаций, архивы электронных текстов и др.
-
Русский Лингвистический указатель, создан 15 мая 1999 Юрий Коряков.
Авторская коллекция ссылок на языковые ресурсы по разделам:
языки народов России (славянские, уральские, кавказские и др.) и мира;
направления лингвистики (компаративистика, социолингвистика, вычислительная лингвистика, типология);
словари;
адреса российских организаций, связанных с лингвистикой.
Не все ссылки работают, но в целом полезный ресурс.
Электронные словари, тезаурусы и конкордансы
Сборники русских энциклопедий и словарей для машинной обработки
-
Atomica (GuruNet). Atomica Corporation.
Различные энциклопедии, толковые словари, справочники и тезаурусы.
-
РУБРИКОН. Russ Portal Company Ltd., 2001. Информационно-энциклопедический проект.
Пользователь впервые получает свободный доступ к полным электронным версиям важнейших энциклопедий и словарей,
изданных за последние 100 лет в России. В настоящее время на сервере опубликованы:
- "Большая советская энциклопедия" (1969-1979),
- "Иллюстрированный энциклопедический словарь" (1998),
- "Толковый словарь живого великорусского языка" Владимира Даля (1863-1866),
- "Рок-энциклопедия" Сергея Кастальского (1998),
- Энциклопедические словари "История Отечества" и "Всемирная история".
Планируется дополнить список еще более чем 30 изданиями.
-
Cловари Издательского Дома "ЭТС" 1997-2000. ETS Publishing House.
Коллекция on-line словарей: анатомический (латынь), уфологический, сокращений, иностранных слов,
финско-русский, немецко-русский, англо-русский фразеологический,
различные словари Polyglossum, языковые программы и др.
-
Словари и энциклопедии для карманного ПК.
Ряд словарей и энциклопедий в формате для карманного ПК.
-
Обратные и частотные словари русского языка.
Доступны для загрузки в виде zip-архивов следующие словари исходных словоформ русского языка:
- Обратный и обычный словари, образованные из словаря А. А. Зализняка (93392 слова);
- Обратный и обычный словари Про-Линг (125723 слова);
- Обратный, обычный и частотный словари, полученные в результате анализа произведений русской литературы XIX-XX веков (162 232 слова).
Писательские лексиконы и конкордансы
-
Конкорданс великих книг William Williams, Jr., 1978.
Более 1000 всемирно известных произведений 150 классических авторов (на англ.яз.).
Библия и Коран, Платон и Аристотель, Толстой и Достоевский...
-
Гиперсловарь Ариадна. РосНИИ Искусственного Интеллекта.
Проект создания универсальной среды для систем автоматической обработки русского текста.
База данных Абриаль, включающая грамматическую компоненту на основе словаря Зализняка,
позволяющая получать склонения и спряжения слов, и морфологическую компоненту.
-
Словарь языка А.С.Грибоедова. Алексей Поляков, НТЦ "Информрегистр", Институт мировой литературы им.А.М.Горького.
Полное лексикографическое описание творчества А.С. Грибоедова.
Охватывает все его известные тексты и включает более 12 тыс. лексем и более 120 тыс. словоупотреблений
с подробной лексикографической информацией.
Алфавитно-частотный конкорданс с грамматической информацией.
Словоупотребление описывается своей базовой формой, морфологическими характеристиками, названием произведения и его фрагмента,
контекстом, гипертекстовой ссылкой на полный текст произведения.
Удобный и мощный аппарат поиска.
-
Лексикон "Дар слова". Эпштейн Михаил Наумович. С апреля 2000.
Изучение феномена однословия (слова как самоценной сущности).
Сетевой еженедельник, публикующий эссе по словобразованиям и неологизмам русского языка.
Каждую неделю подписчикам высылается одно или несколько новых слов, с дефиницией, толкованиями и примерами употребления.
Все слова уникальные словообразования, которых нет ни в одном словаре русского языка.
-
Словарь В.Даля. On-line версия словаря В.Даля "Толковый словарь живого великорусского языка".
-
Словарь устаревших и диалектных слов. Центральный Телеграф, 1998-2001.
Небольшой словарик устаревших слов русского языка.
-
Словарь сокращений русского языка. Студия Артемия Лебедева, 2000—2001.
Более 53000 статей. Были использованы следующие издания:
- "Словарь сокращений русского языка" (1984);
- "Новый словарь сокращений русского языка" (1995);
- "Новые сокращения в русском языке 1996—1999" (1999).
Английские тезаурусы и словари
-
Bibliomania. Bibliomania.com Ltd.
Публичная Интернет-библиотека, включающая в т.ч. классические справочные издания по английскому языку.
-
Mountain Data Systems. Словарь акронимов и сокращений английского языка. Более 173 тыс. элементов.
-
Lexical FreeNetDatamuse Corporation.
Оn-line тезаурус английского языка для многих целей - решения кроссвордов, поиска синонимов, связанных слов,
подбора рифм, орфографической проверки и т.д.
-
WordNet.
Cognitive Science Laboratory, Princeton University.
Тезаурус отражает все возможные толкования слов английского языка, показывает взаимосвязи между ними.
Для каждого слова можно найти синонимы, объединенные в смысловые группы и получить ссылки на родовые (более общие) или производные понятия.
Ценно для филологов, занимающихся английским языком. Локальные версии для UNIX, DOS и Macintosh.
-
The Wordsmyth Educational Dictionary-Thesaurus (WEDT). Wordsmyth Collaboratory.
Оn-line версия образовательного словаря-тезауруса английского языка.
Около 50 тысяч коренных слов. Удобные средства поиска.
Пользователь может получить расклад интересующего слова по слогам, его произношение, список всех словоформ и толкование
-
Merriam-Webster. Merriam-Webster Incorporated.
On-line версия знаменитого толкового словаря английского языка.
-
British National Corpus (BNC). Oxford University Press, 1995.
Более чем 100 млн.слов современного английского письменного и устного языка. Более 4000 различных текстов,
слова которых классифицированы и размечены с использованием стандарта Text Encoding Initiative (TEI).
В режиме on-line поиска пользователь может найти примеры употребления как отдельных слов, так и выражений.
Зарегистрированным подписчикам BNC предоставляются услуги специальной поисковой машины SARA.
-
Англо-русский словарь Мультилекс1.0. MediaLingua Ltd., 2000.
On-line версия знаменитого трёхтомного словаря НБАРС под редакцией проф. Э.М.Медниковой и акад. Ю.Д.Апресяна
(250 000 словарных входов, 2 300 000 английских и русских слов).
-
ABBYY Lingvo 7.0. ABBYY Software House, 1996-2001.
Система русско-англ./англ.-русских электронных словарей широкой тематики для Windows 9x/NT/2000.
Более 1,2 млн.словарных статей, 18 общих и специальных словарей. Возможность on-line поиска.
Мультиязычный переводчики и словари
-
Babylon.com. Babilon.com Ltd.
Мультиязычный перевод, словари и справочники, преобразование одних мер в другие и т.д.
Доступ к ресурсам системы после установки на локальную машину интерфейса Babylon.
Пользователь определяет состав необходимых ему словарей, языковые настройки и режимы работы
(в off-line или в on-line), создает свои собственные словари.
Доступ к ресурсам провайдеров Britannica.com, Dietwatch.com, Accuweather.com. Бесплатно.
-
Коллекция электронных словарей ПРОМТ. ЗАО "ПРОект МТ", 1997-2002.
Каталог программных продуктов и коллекция различных электронных словарей (англ., немецкий, франц., русск.) на любую тему.
Все словари коммерческие.
Программы обучения разговорным языкам
-
American Indian Language. Customized Computer Software, 1999-2000.
Программы обучения разговорным языкам северно-американских индейцев племен лакота (сиу) и шошонов,
компьютерный словарь языка лакота-сиу (3300 слов с переводом на английский). Бесплатно. Для Windows 9x/NT.
-
Санскрит. Максим Мейстер.
Бесплатная обучающая программа позволяет узнать азы санскрита - священного языка индийских брахманов.
Не требовательна к аппаратуре и должна работать на любой Intel PC. Выложены шрифты для санскрита.
Сетевые сборники статей по вычислительному языкознанию
Статьи по квантитативной лингвистике (электронные ресурсы)
-
Фонетические алгоритмы.
- Завьялова О.С., Киселёв А.А., Осипов Г.С., Смирнов И.В., Тихомиров И.А. Соченков И.В.
Система интеллектуального поиска и анализа информации «Exactus» на РОМИП-2010.
- Котельников Е. В., Пескишева Т.А. Параллельная система автоматической классификации //
международный журнал Программные системы и продукты.
- Д.В. Ландэ, А.Т. Дармохвал, А.Ю. Морозов. Подход к выявлению дублирования сообщений в новостных информационных потоках.
- Морфологический анализатор pymorphy.
-
Попов А. Поиск в Интернете – внутри и снаружи // А. Попов, Журнал "Интернет", #2(7) 1998 г.
-
Стратонович Р. Л. Теория информации // Р. Л. Стратонович, М.: Сов. Радио, 1975, 424 с.
- Amati, G. Probabilistic models of information retrieval based on measuring the divergence from randomness /
G. Amati and C. J. Van Rijsbergen, The Information Retrieval Group, 20(4):357-389, 2002.
-
Department of Statistics, Stanford University, Fall, 2008 // Correspondence Analysis and Related Methods.
-
Information Gain. Universitatea Tehnica din Cluj-Napoca.
-
Masable.com//How big is the web and how fast it is 17197 How-Fast-Is-the-Web-Growing,
-
David Meyer. Support Vector Machines. The Interface to libsvm in package e1071, Technische Universität Wien, Austria, 2011.
-
The BM25 Weighting Scheme // Xapian Open Source Search Engine Library.
Библиография научных трудов по автоматической обработке текстов
Можно поискать нужную покупку в сетевом магазине Май-шоп по названию товара,
фамилии автора (редактора) книги, режиссера фильма...:
Статьи по алгоритмам поиска контента
- Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск - 2011 г. С. 263 – 294.
Статьи об автоматической структуризации и реферированию текстов
- Лотман Ю.М. Структура художественного текста. — М., 1970.
- Общение. Текст. Высказывание. — М., 1989.
- Севбо И. П. Структура связного текста и автоматизация реферирования. — М., 1969.
Статьи по методам классификации и категоризации текстов
Также читайте авторскую статью о категоризации информационных ресурсов
-
Андреев, А.М. Модели и методы автоматической классификации текстовых документов /
А.М. Андреев, Д.В. Березкин, В.В. Сюзев, В.И. Шабанов, Вестн. МГТУ, Сер. Приборостроение. – М.: Изд-во МГТУ. – 2003.– №3.
-
Драль А.А., Мбайкоджи Э. Классификация коротких текстовых документов,
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем:
Тезисы докладов Всероссийской конференции с международным участием – М.:РУДН.- 2012.- С.121-123.
-
Han, E. Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification / E. Han, G. Karypis, V.
Kumar, 16th International Conference on Machine Learning – Denver, 1999. – P.p. 41-56.
-
Koller, D. Hierarchically classyffying documents using very few words //
Koller D., Sahami M., Proc. ICML-97. – Nashvilee, 1997 – С.170-176.
Статьи по анализу и обработке естественного языка
-
Модели общения и лингвистические процессоры,
в кн.: Представление знаний в человеко-машинных и робототехнических системах.
Том A. — Фундаментальные исследования в области представления знаний, М., 1984, с. 183—210.
- Попов Э. В., Общение с ЭВМ на естественном языке, М., 1982.
-
Системы общения с ЭВМ на естественном языке,
в кн.: Представление знаний в человеко-машинных и робототехнических системах.
том C. — Прикладные человеко-машинные системы, ориентированные на знания, М., 1984, с. 36—69.
-
Тихомиров И.А., Соченков И.В. Метод динамической контентной фильтрации сетевого трафика
на основе анализа текстов на естественном языке,
Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2008. Т. 6. № 2. С. 94-100.
Статьи о системах подготовки текстов
-
Борковский А., Хельбиг Г., Системы подготовки текста,
в кн.: Представление знаний в человеко-машинных и робототехнических системах.
Том B. — Инструментальные средства разработки систем, ориентированных на знания, М., 1984, с. 73—87.
-
Вейзе А. А. О ядерных текстах и их получении путем компрессии //
Проблемы текстуальной лингвистики /Под. ред. проф. В.А. Бухбиндера. — Киев, 1983.
Другие русскоязычные статьи по лингвистической автоматизации
- Андрющенко В. М., Автоматизированные лексикографические системы,
в кн.: Теоретические и прикладные аспекты вычислительной лингвистики, М., 1981, с. 71—88.
- Андрющенко В. М., Машинный фонд русского языка: постановка задачи и практические шаги, «Вопросы языкознания», 1985, № 2.
- Белоногов Г. Г., Кузнецов Б. А., Языковые средства автоматизированных информационных систем, М., 1983.
- Лингвистическое обеспечение в системе автоматического перевода третьего поколения. Предварительная публикация, М., 1978.
- Хисамутдинов В. Р., Авраменко В. С., Легоньков В. И.,
Автоматизированная система информационного обеспечения разработок, М., 1980.
Статьи по текстовым и языковым алгоритмам на иностранных языках
- Bátori I. S., Linguistische Datenverarbeitung, «Sprache und Datenverarbeitung», 1977, № 1, р. 2—11.
- Furuta R., Scofield J., Shaw A., Document formatting systems, [pt 1—2, «Computing Surveys», 1982, v. 14, № 3 ?].
- Hays D. G., Introduction to computational linguistics, N. Y., [1967].
- Knuth D. E., Tau Epsilon Chi, a system for technical text, Providence, 1979, «SIGART Newsletter», 1982, № 79.
-
Lee C-H. Learning inductive rules using hellinger measure //
Applied Artificial Intelligence, Volume 13, Number 8, 1 December 1999 , P.p. 743-762(20).
- Meyrowitz N., Dam A. van, Interactive editing systems, pt 1—2, «Computing Surveys», 1982, v. 14, № 3.
-
Yoav Freund and Robert E. Schapire. A Decision Theoretic Generalization of On-Line Learning and an Application to Boosting,
Journal of Computer and System Sciences, 1997, 55(1): P.p. 119-139.
|
Ключевые слова для поиска сведений о лингвистической кибернетике:
На русском языке: компьютерная лингвистика, лингвистическая кибернетика, вычислительное языкознание, квантитативное языковедение,
машинный перевод и расшифровка, автоматическая обработка текстов, разбор текста на ЭВМ, морфологический анализ на компьютере,
программные средства в лингвистике, распознавание и синтез речи, алгоритмы дешифровки, автоматизация лингвистических расчетов,
гипертекстовые технологии, кибернетическое моделирование общения, лингвокибернетика;
На английском языке: computional linguistics, text analysis, translation algorythm, NL-Processing.
|
Страница обновлена 21.06.2023