К ВОПРОСУ ОБ ИСПОЛЬЗОВАНИИ СТАТИСТИЧЕСК... (Russian)
In: Slovo (05836255), 2019, Heft 69, S. 1-33
academicJournal
Zugriff:
The paper deals with the questions concerning the methodology used to search for fixed collocations in the collection of Glagolitic texts in the historical corpus Manuscript: Slavic written heritage (manuscripts.ru) and to evaluate their stability. It demonstrates the possibilities of the n-gram module to extract collocations, consisting of words and their textual forms or lemmas, with different numbers of components and different frequency of occurrence. Analyzed are digrams and trigrams extracted using the statistical measure of Mutual Information that occur simultaneously in several manuscripts from the collection. Particular attention is given to n-grams with high statistical MI values. In accordance with the specifics of the measure, the greatest values belong to the collocations that are rare in the collection. The analysis of such digrams based on the word forms has enabled an identification of coherent grammatical structures – colligations. Trigrams consisting of textual forms are shown to be not only grammatical, but also semantic units – collocations. Digrams with components-lemmas have different forms: preposition-noun collocations, preposition-possessive pronoun collocations and other attributive constructions, relative verb-noun constructions, etc. The analysis of these groups identified both colligations and collocations. Extraction of trigrams on the basis of lemmas was the most productive – the greatest part of the first few dozens of collocations with a maximum MI value are grammatical and semantic units or their parts. A conclusion is made about the efficiency of application of statistical methods for the extraction of collocations and colligations from the corpora comprising medieval Slavonic manuscripts. A complex solution of the given problem requires the use of different types of n-grams – two-components and triple-components, based on textual forms and lemmas, with free and fixed component order. The presence of grammatical and semantic units repeated in various manuscripts leads to a conclusion about the supra-textual nature of such collocations. [ABSTRACT FROM AUTHOR]
Rad je posvećen pitanjima metodologije pretraživanja i procjene stabilnosti ustaljenih kolokacija u zbirci glagoljskih tekstova povijesnog korpusa Manuskript: slavjanskoe pis’mennoe nasledie ( Rukopis: slavensko pismeno nasljeđe – manuscripts.ru). Prikazane su mogućnosti modula n-gram za ekstrakciju kolokacija – koje se sastoje od riječi i njihovih oblika ili lema – s različitim brojem komponenata i različitom učestalošću. Analiziraju se bigrami i trigrami izdvojeni pomoću statističke mjere uzajamne obavijesti (Mutual Information – MI), koji se pojavljuju istodobno u nekoliko rukopisa ove zbirke. Posebna se pozornost posvećuje n-gramima s visokom statističkom vrijednošću mjere MI. U skladu s obilježjima mjere, najveću vrijednost u zbirci imaju rijetke kombinacije. Analiza takvih rijetkih bigrama na temelju oblika riječi omogućila je identificiranje koherentnih gramatičkih konstrukcija – koligacija. Pokazano je da su trigrami koji se sastoje od tekstualnih oblika, ne samo gramatičke, već i semantičke cjeline – kolokacije. Bigrami s komponentama-lemama su raznoliki – prijedložno-padežne kolokacije s imenicama i povratno-posvojnim zamjenicama te ostale atributivne konstrukcije, glagolsko-imeničke odnosne konstrukcije itd. Pomoću analize ovih skupina pronađene su kako koligacije, tako i kolokacije. Najproduktivniji rezultat bilo je izdvajanje trigrama na temelju lema: većina prvih nekoliko desetaka kombinacija koje imaju maksimalnu vrijednost u skladu sa statističkom mjerom Mutual Information – gramatičke su i semantičke cjeline ili njihovi dijelovi. Donosi se zaključak o učinkovitosti primjene statističkih metoda za ekstrakciju kolokacija i koligacija iz korpusa srednjovjekovnih slavenskih rukopisa. Navedeno je da se za složeno rješenje postavljenog zadatka trebaju koristiti različite vrste n-grama – dvokomponentne i trokomponentne, utemeljene na tekstualnim oblicima i lemama, sa slobodnim i fiksnim redoslijedom komponenata. Prisutnost gramatički i semantički cjelovitih kolokacija koje se ponavljaju u različitim rukopisima omogućuje nam zaključak o nadtekstnoj prirodi takvih kolokacija. [ABSTRACT FROM AUTHOR]
Работа посвящена вопросам методики поиска цельных сочетаний в коллекции глаго-лических текстов исторического корпуса Манускрипт: славянское письменное насле-дие (manuscripts.ru) и оценки их устойчивости. Демонстрируются возможности модуля n-грамм, позволяющие извлекать сочетания, имеющие разное количество компонентов, различную частотность, состоящие из текстовых форм или из лемм. Анализируются би-граммы и триграммы, извлеченные с помощью статистической меры Mutual Information и встречающиеся одновременно в нескольких рукописях коллекции. Особое внимание обращается на n-граммы, имеющие высокие статистические зна-чения меры. В соответствии с особенностями меры наибольшие значения имеют редкие в коллекции сочетания. Анализ таких биграмм на основе словоформ позволил выявить устойчивые грамматические конструкции – коллигации. Показывается, что триграммы, состоящие из текстовых форм, являются не только грамматически, но и семантически цельными – коллокациями. Разнообразны биграммы с компонентами-леммами – пред-ложно-падежные сочетания, именные сочетания с зависимыми притяжательными место-имениями и иные атрибутивные конструкции, глагольные конструкции с зависимыми существительными и другиe. Анализ этих групп позволил выявить как коллигации, так и коллокации. Наиболее результативным стало извлечение триграмм на основе лемм – по-давляющая часть первых нескольких десятков сочетаний, имеющих максимальное зна-чение в соответствии со статистической мерой MI, представляет собой грамматически и семантически цельные конструкции или их части. Делается вывод об эффективности использования статистических методов для из-влечения коллокаций и коллигаций из корпусов, содержащих средневековые славянские рукописи. Указывается, что для комплексного решения поставленной задачи должны быть использованы различные виды n-грамм – двукомпонентные и трехкомпонентные, на основе текстовых форм и лемм, со свободным и фиксированным порядком следова-ния компонентов. Наличие повторяющихся в различных рукописях грамматически и се-мантически цельных сочетаний позволяет сделать вывод о надтекстовой природе таких сочетаний. [ABSTRACT FROM AUTHOR]
Copyright of Slovo (05836255) is the property of Slovo and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
Titel: |
К ВОПРОСУ ОБ ИСПОЛЬЗОВАНИИ СТАТИСТИЧЕСК... (Russian)
|
---|---|
Autor/in / Beteiligte Person: | БАРАНОВ, Виктор А. |
Zeitschrift: | Slovo (05836255), 2019, Heft 69, S. 1-33 |
Veröffentlichung: | 2019 |
Medientyp: | academicJournal |
ISSN: | 0583-6255 (print) |
Schlagwort: |
|
Sonstiges: |
|