ISSN: 2306-5737E-ISSN: 2658-4069
Acta Linguistica Petropolitana
Труды Института лингвистических исследований
РУСENG
ISSN: 2306-5737E-ISSN: 2658-4069
Acta Linguistica Petropolitana
Труды Института лингвистических исследований 
РУСENG

Автоматический метод языкового профилирования носителя диалекта (на материале восточносербского идиома села Берчиновац)

DOI:10.30842/alp2306573716207
PDF, 578.1 кб
Макарова А. Л., Конёр Д. В., Вукович Т., Соболев А. Н., Винисторфер О. Автоматический метод языкового профилирования носителя диалекта (на материале восточносербского идиома села Берчиновац). Acta Linguistica Petropolitana. 2020. XVI(2): 160–180.

В настоящей статье представлен метод (полу)автоматического анализа фонетических и морфосинтаксических особенностей диалектного текста, который в перспективе может быть применен на большом объеме диалектных данных. Метод представлен на примере анализа индивидуального идиома носительницы тимокского говора села Берчиновац в районе города Княжевац Заечарского округа в Восточной Сербии. Приводится алгоритм поиска таких диалектных явлений, как наличие / ​отсутствие специфических (для данной диалектной зоны) фонем, удвоение прямого и косвенного объекта, способ выражения значений периферийных падежей, наличие постпозитивного артикля и т. д. Выявляются преимущества и ограничения компьютерного анализа (по сравнению с «ручным») при попытке автоматизировать исторический и структурный лингвистический анализ.

Ключевые слова
автоматический анализ текста, языковое профилирование, носитель диалекта, балканославянские языки, сербские диалекты, тимокский диалект, идиолект носителя говора, село Берчиновац, Восточная Сербия
Литература
Конёр и др. 2019
Д. В. Конёр, А. Л. Макарова, А. Н. Соболев. Статистический метод языкового профилирования носителя диалекта (на материале восточносербского идиома села Берчиновац) // Вестник Томского государственного университета. Филология. 2019. № 58. С. 17—33. DOI: 10.17223/19986645/58/2.
Сикимич, Соболев 2020
Б. Сикимич, А. Н. Соболев. Процессы дивергенции в разделенном государственной границей западноюжнославянском диалекте (на материале современной диалектной речи Восточной Сербии и Западной Болгарии) // Вестник Томского государственного университета. Филология. 2020. № 66. C. 158—176. DOI: 10.17223/19986645/66/9.
Соболев 1998
А. Н. Соболев. О диалектологическом атласе Восточной Сербии и Западной Болгарии // Г. П. Клепикова (отв. ред.). Исследования по славянской диалектологии. Вып. 5. М.: Институт славяноведения РАН, 1998. С. 106—167.
Birkner 2015
V. Birkner. The advantages and disadvantages of employing corpus evidence in sociolinguistic studies // The Teacher Magazine. 2015. Vol. 2. P. 11—17.
Dash 2012
N. S. Dash. Etymological Annotation: a New Concept of Corpus Annotation // Proceedings of the 34th All India Conference of Linguists (34-AICL). Shillong, India, 2012. P. 100–104.
Dash, Arulmozi 2018
N. S. Dash, S. Arulmozi. Limitations of language corpora // N. Dash, S. Arulmozi. History, features, and typology of language corpora. Singapore: Springer Singapore, 2018. P. 259—272.
Dash, Hussain 2013
N. S. Dash, M. M. Hussain. Designing a Generic Scheme for Etymological Annotation: a New Type of Language Corpora Annotation // P. Bhattacharayya, K.-S. Choi (eds.). Proceedings of the 11th Workshop on Asian Language Resources. Nagoya: Asian Federation of Natural Language Processing, 2013. P. 64–71.
Deemter, Kibble 1999
K. van Deemter, R. Kibble. What is coreference, and what should coreference annotation be? // A. Bagga, B. Baldwin, S. Shelton (eds.). Proceedings of the Workshop on Coreference and Its Applications. Stroudsburg, PA: Association for Computational Linguistics, 1999. P. 90—96.
Erjavec et al. 2003
T. Erjavec, C. Krstev, V. Petkevic, K. Simov, M. Tadic, D. Vitas. The MULTEXT-east morphosyntactic specifications for Slavic languages // T. Erjavec, D. Vitas (eds.). Proceedings of the Workshop on Morphological Processing of Slavic Languages, EACL 2003. Stroudsburg, PA: Association for Computational Linguistics, 2003. P. 25—32.
Escher 2021
A. L. Escher. Double argument marking in Timok dialect texts (in Balkan Slavic context). Zeitschrift für Slawistik. Forthcoming.
Goedertier et al. 2000
W. Goedertier, S. Goddijn, J.-P. Martens. Orthographic transcription of the spoken Dutch corpus // M. Gavrilidou, G. Carayannis, S. Markantonatou, S. Piperidis, G. Stainhouer (eds.). Proceedings of the Second International Conference on Language Resources and Evaluation (LREC 2000), Athens, Greece. Athens: National Technical University of Athens Press, 2000. P. 909—914.
Ljubešić et al. 2016
N. Ljubešić, F. Klubička, Ž. Agić, I.-P. Jazbec. New Inflectional Lexicons and Training Corpora for Improved Morphosyntactic Annotation of Croatian and Serbian // N. Calzolari, Kh. Choukri, Th. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, S. Piperidis (eds.). Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Paris : European Language Resources Association, 2016. P. 4264—4270.
Vuković et al. 2019
T. Vuković, N. Muheim, O. Winistörfer, I. Simko, A. Makarova, S. Bradjan. Corpora and Processing Tools for Non-Standard Contemporary and Diachronic Balkan Slavic // I. Temnikova, I. Nikolova, N. Konstantinova (eds.). Proceedings of the Student Research Workshop associated with The 12th International Conference on Recent Advances in Natural Language Processing (RANLP 2019). Shoumen: Incoma, 2019. P. 62–68.
Vuković et al. 2020
T. Vuković, B. Sonnenhauser, A. Escher. Degrees of non-standardness. Feature-based analysis of variation in a Torlak dialect corpus. Manuscript.
Ключевые слова
автоматический анализ текста, языковое профилирование, носитель диалекта, балканославянские языки, сербские диалекты, тимокский диалект, идиолект носителя говора, село Берчиновац, Восточная Сербия
ScopusSCImago Journal & Country RankE-Library.ruCrossRefКиберЛенинкаВАКERIH Plus