Einzeltreffer — DigiBib

The paper deals with the questions concerning the methodology used to search for fixed collocations in the collection of Glagolitic texts in the historical corpus Manuscript: Slavic written heritage (manuscripts.ru) and to evaluate their stability. It demonstrates the possibilities of the n-gram module to extract collocations, consisting of words and their textual forms or lemmas, with different numbers of components and different frequency of occurrence. Analyzed are digrams and trigrams extracted using the statistical measure of Mutual Information that occur simultaneously in several manuscripts from the collection. Particular attention is given to n-grams with high statistical MI values. In accordance with the specifics of the measure, the greatest values belong to the collocations that are rare in the collection. The analysis of such digrams based on the word forms has enabled an identification of coherent grammatical structures – colligations. Trigrams consisting of textual forms are shown to be not only grammatical, but also semantic units – collocations. Digrams with components-lemmas have different forms: preposition-noun collocations, preposition-possessive pronoun collocations and other attributive constructions, relative verb-noun constructions, etc. The analysis of these groups identified both colligations and collocations. Extraction of trigrams on the basis of lemmas was the most productive – the greatest part of the first few dozens of collocations with a maximum MI value are grammatical and semantic units or their parts. A conclusion is made about the efficiency of application of statistical methods for the extraction of collocations and colligations from the corpora comprising medieval Slavonic manuscripts. A complex solution of the given problem requires the use of different types of n-grams – two-components and triple-components, based on textual forms and lemmas, with free and fixed component order. The presence of grammatical and semantic units repeated in various manuscripts leads to a conclusion about the supra-textual nature of such collocations. [ABSTRACT FROM AUTHOR]

Rad je posvećen pitanjima metodologije pretraživanja i procjene stabilnosti ustaljenih kolokacija u zbirci glagoljskih tekstova povijesnog korpusa Manuskript: slavjanskoe pis’mennoe nasledie ( Rukopis: slavensko pismeno nasljeđe – manuscripts.ru). Prikazane su mogućnosti modula n-gram za ekstrakciju kolokacija – koje se sastoje od riječi i njihovih oblika ili lema – s različitim brojem komponenata i različitom učestalošću. Analiziraju se bigrami i trigrami izdvojeni pomoću statističke mjere uzajamne obavijesti (Mutual Information – MI), koji se pojavljuju istodobno u nekoliko rukopisa ove zbirke. Posebna se pozornost posvećuje n-gramima s visokom statističkom vrijednošću mjere MI. U skladu s obilježjima mjere, najveću vrijednost u zbirci imaju rijetke kombinacije. Analiza takvih rijetkih bigrama na temelju oblika riječi omogućila je identificiranje koherentnih gramatičkih konstrukcija – koligacija. Pokazano je da su trigrami koji se sastoje od tekstualnih oblika, ne samo gramatičke, već i semantičke cjeline – kolokacije. Bigrami s komponentama-lemama su raznoliki – prijedložno-padežne kolokacije s imenicama i povratno-posvojnim zamjenicama te ostale atributivne konstrukcije, glagolsko-imeničke odnosne konstrukcije itd. Pomoću analize ovih skupina pronađene su kako koligacije, tako i kolokacije. Najproduktivniji rezultat bilo je izdvajanje trigrama na temelju lema: većina prvih nekoliko desetaka kombinacija koje imaju maksimalnu vrijednost u skladu sa statističkom mjerom Mutual Information – gramatičke su i semantičke cjeline ili njihovi dijelovi. Donosi se zaključak o učinkovitosti primjene statističkih metoda za ekstrakciju kolokacija i koligacija iz korpusa srednjovjekovnih slavenskih rukopisa. Navedeno je da se za složeno rješenje postavljenog zadatka trebaju koristiti različite vrste n-grama – dvokomponentne i trokomponentne, utemeljene na tekstualnim oblicima i lemama, sa slobodnim i fiksnim redoslijedom komponenata. Prisutnost gramatički i semantički cjelovitih kolokacija koje se ponavljaju u različitim rukopisima omogućuje nam zaključak o nadtekstnoj prirodi takvih kolokacija. [ABSTRACT FROM AUTHOR]

Работа посвящена вопросам методики поиска цельных сочетаний в коллекции глаго-лических текстов исторического корпуса Манускрипт: славянское письменное насле-дие (manuscripts.ru) и оценки их устойчивости. Демонстрируются возможности модуля n-грамм, позволяющие извлекать сочетания, имеющие разное количество компонентов, различную частотность, состоящие из текстовых форм или из лемм. Анализируются би-граммы и триграммы, извлеченные с помощью статистической меры Mutual Information и встречающиеся одновременно в нескольких рукописях коллекции. Особое внимание обращается на n-граммы, имеющие высокие статистические зна-чения меры. В соответствии с особенностями меры наибольшие значения имеют редкие в коллекции сочетания. Анализ таких биграмм на основе словоформ позволил выявить устойчивые грамматические конструкции – коллигации. Показывается, что триграммы, состоящие из текстовых форм, являются не только грамматически, но и семантически цельными – коллокациями. Разнообразны биграммы с компонентами-леммами – пред-ложно-падежные сочетания, именные сочетания с зависимыми притяжательными место-имениями и иные атрибутивные конструкции, глагольные конструкции с зависимыми существительными и другиe. Анализ этих групп позволил выявить как коллигации, так и коллокации. Наиболее результативным стало извлечение триграмм на основе лемм – по-давляющая часть первых нескольких десятков сочетаний, имеющих максимальное зна-чение в соответствии со статистической мерой MI, представляет собой грамматически и семантически цельные конструкции или их части. Делается вывод об эффективности использования статистических методов для из-влечения коллокаций и коллигаций из корпусов, содержащих средневековые славянские рукописи. Указывается, что для комплексного решения поставленной задачи должны быть использованы различные виды n-грамм – двукомпонентные и трехкомпонентные, на основе текстовых форм и лемм, со свободным и фиксированным порядком следова-ния компонентов. Наличие повторяющихся в различных рукописях грамматически и се-мантически цельных сочетаний позволяет сделать вывод о надтекстовой природе таких сочетаний. [ABSTRACT FROM AUTHOR]

Copyright of Slovo (05836255) is the property of Slovo and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)

Titel:	К ВОПРОСУ ОБ ИСПОЛЬЗОВАНИИ СТАТИСТИЧЕС&#1050... (Russian)
Autor/in / Beteiligte Person:	БАРАНОВ, Виктор А.
Zeitschrift:	Slovo (05836255), 2019, Heft 69, S. 1-33
Veröffentlichung:	2019
Medientyp:	academicJournal
ISSN:	0583-6255 (print)
Schlagwort:	MANUSCRIPT collections COLLOCATION methods MEDIEVAL manuscripts INFORMATION measurement CORPORA
Sonstiges:	Nachgewiesen in: Supplemental Index Sprachen: Russian Alternate Title: O PITANJU PRIMJENE STATISTIÈKIH METODA U PRONALAŽENJU KOLOKACIJA I KOLIGACIJA U NAJSTARIJIM SLAVENSKIM TEKSTOVIMA (NA MATERIJALU GLAGOLJSKIH RUKOPISA KORPUSA »manuscripts.ru«). (Bosnian) ; ON THE QUESTION OF THE APPLICATION OF STATISTICAL METHODS TO SEARCH FOR COLLOCATIONS AND COLLIGATIONS IN OLD SLAVONIC TEXTS (IN GLAGOLITIC MANUSCRIPTS FROM THE CORPUS »manuscripts.ru«). (English)

Klicken Sie ein Format an und speichern Sie dann die Daten oder geben Sie eine Empfänger-Adresse ein und lassen Sie sich per Email zusenden.

BibTeX Citavi, JabRef, u.a.
(Literaturverwaltung)

PDF kein Volltext!
(Merkzettel, Notizen)

RIS Endnote, Citavi u.a.
(Literaturverwaltung)

MODS
(XML zur Weiterverarbeitung)

oder

Wählen Sie das für Sie passende Zitationsformat und kopieren Sie es dann in die Zwischenablage, lassen es sich per Mail zusenden oder speichern es als PDF-Datei.

Gewünschter Zitations-Stil:

oder

Bitte prüfen Sie, ob die Zitation formal korrekt ist, bevor Sie sie in einer Arbeit verwenden. Benutzen Sie gegebenenfalls den "Exportieren"-Dialog, wenn Sie ein Literaturverwaltungsprogramm verwenden und die Zitat-Angaben selbst formatieren wollen.

К ВОПРОСУ ОБ ИСПОЛЬЗОВАНИИ СТАТИСТИЧЕС&#1050... (Russian)