Lexical chaining – Lexical chains - textual cohesion (Halliday & Hasan) Cohesion: text makes sense as a whole Cohesion occurs where the interpretation of one item is dependent of that of another item in the text. It is this dependency that gives rise to cohesion.
Textual coherence • • • • •
Союзы Референция Лексическая связанность Субституция (one; делать) Эллипсис В чем преимущество лексической связанности для автоматического анализа?
Lexical chaining 5 типов лексической связанности • повтор • синонимия СЛОВАРИ • общее частное • часть целое • коллокации ( и антонимы как подтип)
статистически часто встречаются вместе
WORDNET (Miller et al. 1990 Fellbaum 1998) An online lexical database whose design is inspired by current psycholinguistic theories of human lexical memory. – 4 гр. категории: сущ., глагол, прил., наречие – Главное отношение: СИНОНИМИЯ SYNSET
Wordnet noun relations • Гипонимы • Гиперонимы • Холонимы • Меронимы • Антонимы
Генерация цепочки 1. К термину подбирается синсеты (neighbouri set) 2. Любой другой термин, который совпадает с одним из терминов синсета, становится членом лексической цепочки 3. Если в цепочке имеется более трех терминов, то ее индексируют 4. И так для всех терминов сообщения Greedy vs. non-greedy
Morris & Hirst (1991) Правила выбора правильной цепочки • Chain salience (words should be added to the most recently updated chain).
• Thesaural relationship (wordnet:часть-целое) • Transitivity • Allowable word distance
Типы отношений (I) Очень сильные (extra strong) отношения • повторение слов (mouse/mice)
Сильные (strong) отношения • два слова, если они имеют одинаковый номер синсета telephone/phone • два синсета, если они связаны горизонтальной связью • два синсета, если между ними существует связь наверх или вниз • два слова, если одно из них является сложным словом, а другое – его частью (orange_tree, tree) 8
Типы отношений (II) Отношения средней силы (mediumstrength relations) • два синсета соединены в WordNet разрешенным путем длины x, 1≤x≤5
Правила: • никакое направление не должно предшествовать связи вверх • разрешено не более одного изменения направления (кроме тех случаев, когда горизонтальная связь использована для перехода от связи вверх к связи вниз) 9
• В основе выделения трех типов отношений лежит презумпция того, что близость в значении прямо зависит от расстояния (в узлах) в таксономии • Не все дуги одинаковой длины; правила – попытка сократить количество узлов, семантически не связанных между собой, но близких формально
10
Интуитивные основания правил • Если контекст сужен, расширение его последующей связью наверх не имеет большого смысла • Изменение направления – «большой шаг» в семантике (кроме (редкой) горизонтальной связи), т. о. отношения средней силы – либо генерализация, либо специализация 11
Необходимость правил
12
Работа алгоритма: Поиск связи между целевым словом и словом одной из цепочек: очень сильное отношение > сильное отношение > отношение средней силы Отношения средней силы взвешиваются в зависимости от длины пути и количества изменений направления (нужно найти самое сильное отношение средней силы): (1) Link Strength = C – path length - k C – константа, k – кол-во изменений направления
13
Работа алгоритма: Ограничения на расстояние между целевым словом и последним словом цепочки: • нет для очень сильных отношений (‘one sense per discource’ assumption) • 7 предложений для сильных отношений • 3 предложения для отношений средней силы 14
Работа алгоритма: • Greedy lexical chaining approach: при добавлении слова к цепочке учитывается только его левый контекст • «Очередь» (queue): каждое слово предложения n добавляется к очереди; ищутся очень сильные отношения между этими словами и всеми созданными к этому моменту цепочками. Как только очень сильное отношение найдено, поиск прекращается, слово удаляется из очереди и добавляется к цепочке. Затем ищутся сильные отношения, затем отношения средней силы (которые взвешиваются по формуле (1)) между оставшимися словами из очереди и всеми лексическими цепочками; слова удаляются из очереди и добавляются к соответствующим цепочкам. Для слов, оставшихся в очереди, создаются новые цепочки. 15
Работа алгоритма: • Chain salience: слова добавляются к цепочке, которая обновлялась последней.
16
17