Lexical Chaining

  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Lexical Chaining as PDF for free.

More details

  • Words: 628
  • Pages: 17
Lexical chaining – Lexical chains - textual cohesion (Halliday & Hasan) Cohesion: text makes sense as a whole Cohesion occurs where the interpretation of one item is dependent of that of another item in the text. It is this dependency that gives rise to cohesion.

Textual coherence • • • • •

Союзы Референция Лексическая связанность Субституция (one; делать) Эллипсис В чем преимущество лексической связанности для автоматического анализа?

Lexical chaining 5 типов лексической связанности • повтор • синонимия СЛОВАРИ • общее частное • часть целое • коллокации ( и антонимы как подтип)

статистически часто встречаются вместе

WORDNET (Miller et al. 1990 Fellbaum 1998) An online lexical database whose design is inspired by current psycholinguistic theories of human lexical memory. – 4 гр. категории: сущ., глагол, прил., наречие – Главное отношение: СИНОНИМИЯ SYNSET

Wordnet noun relations • Гипонимы • Гиперонимы • Холонимы • Меронимы • Антонимы

Генерация цепочки 1. К термину подбирается синсеты (neighbouri set) 2. Любой другой термин, который совпадает с одним из терминов синсета, становится членом лексической цепочки 3. Если в цепочке имеется более трех терминов, то ее индексируют 4. И так для всех терминов сообщения Greedy vs. non-greedy

Morris & Hirst (1991) Правила выбора правильной цепочки • Chain salience (words should be added to the most recently updated chain).

• Thesaural relationship (wordnet:часть-целое) • Transitivity • Allowable word distance

Типы отношений (I) Очень сильные (extra strong) отношения • повторение слов (mouse/mice)

Сильные (strong) отношения • два слова, если они имеют одинаковый номер синсета telephone/phone • два синсета, если они связаны горизонтальной связью • два синсета, если между ними существует связь наверх или вниз • два слова, если одно из них является сложным словом, а другое – его частью (orange_tree, tree) 8

Типы отношений (II) Отношения средней силы (mediumstrength relations) • два синсета соединены в WordNet разрешенным путем длины x, 1≤x≤5

Правила: • никакое направление не должно предшествовать связи вверх • разрешено не более одного изменения направления (кроме тех случаев, когда горизонтальная связь использована для перехода от связи вверх к связи вниз) 9

• В основе выделения трех типов отношений лежит презумпция того, что близость в значении прямо зависит от расстояния (в узлах) в таксономии • Не все дуги одинаковой длины; правила – попытка сократить количество узлов, семантически не связанных между собой, но близких формально

10

Интуитивные основания правил • Если контекст сужен, расширение его последующей связью наверх не имеет большого смысла • Изменение направления – «большой шаг» в семантике (кроме (редкой) горизонтальной связи), т. о. отношения средней силы – либо генерализация, либо специализация 11

Необходимость правил

12

Работа алгоритма: Поиск связи между целевым словом и словом одной из цепочек: очень сильное отношение > сильное отношение > отношение средней силы Отношения средней силы взвешиваются в зависимости от длины пути и количества изменений направления (нужно найти самое сильное отношение средней силы): (1) Link Strength = C – path length - k C – константа, k – кол-во изменений направления

13

Работа алгоритма: Ограничения на расстояние между целевым словом и последним словом цепочки: • нет для очень сильных отношений (‘one sense per discource’ assumption) • 7 предложений для сильных отношений • 3 предложения для отношений средней силы 14

Работа алгоритма: • Greedy lexical chaining approach: при добавлении слова к цепочке учитывается только его левый контекст • «Очередь» (queue): каждое слово предложения n добавляется к очереди; ищутся очень сильные отношения между этими словами и всеми созданными к этому моменту цепочками. Как только очень сильное отношение найдено, поиск прекращается, слово удаляется из очереди и добавляется к цепочке. Затем ищутся сильные отношения, затем отношения средней силы (которые взвешиваются по формуле (1)) между оставшимися словами из очереди и всеми лексическими цепочками; слова удаляются из очереди и добавляются к соответствующим цепочкам. Для слов, оставшихся в очереди, создаются новые цепочки. 15

Работа алгоритма: • Chain salience: слова добавляются к цепочке, которая обновлялась последней.

16

17

Related Documents

Lexical Chaining
June 2020 12
Anti Chaining Law
June 2020 11
Lexical Analysis
June 2020 9
Lexical Analysis
July 2020 7
Bible Lexical 2
May 2020 4