Автоматический метод языкового
профилирования носителя диалекта (на материале восточносербского
идиома села Берчиновац)
DOI:10.30842/alp2306573716207
Макарова А. Л., Конёр Д. В., Вукович Т.,
Соболев А. Н., Винисторфер О. Автоматический метод языкового
профилирования носителя диалекта (на материале восточносербского
идиома села Берчиновац). Acta Linguistica Petropolitana.
2020. XVI(2): 160–180.
В настоящей статье представлен метод (полу)автоматического
анализа фонетических и морфосинтаксических особенностей диалектного
текста, который в перспективе может быть применен на большом объеме
диалектных данных. Метод представлен на примере анализа
индивидуального идиома носительницы тимокского говора села
Берчиновац в районе города Княжевац Заечарского округа в Восточной
Сербии. Приводится алгоритм поиска таких диалектных явлений, как
наличие / отсутствие специфических (для данной диалектной зоны)
фонем, удвоение прямого и косвенного объекта, способ выражения
значений периферийных падежей, наличие постпозитивного артикля и т.
д. Выявляются преимущества и ограничения компьютерного анализа (по
сравнению с «ручным») при попытке автоматизировать исторический и
структурный лингвистический анализ.
Ключевые слова
автоматический анализ текста, языковое
профилирование, носитель диалекта, балканославянские языки,
сербские диалекты, тимокский диалект, идиолект носителя говора,
село Берчиновац, Восточная Сербия
Литература
Конёр и др. 2019
Д. В. Конёр, А. Л. Макарова, А. Н.
Соболев. Статистический метод языкового профилирования носителя
диалекта (на материале восточносербского идиома села Берчиновац) //
Вестник Томского государственного университета. Филология. 2019. №
58. С. 17—33. DOI: 10.17223/19986645/58/2.
Сикимич, Соболев 2020
Б. Сикимич, А. Н. Соболев. Процессы
дивергенции в разделенном государственной границей
западноюжнославянском диалекте (на материале современной диалектной
речи Восточной Сербии и Западной Болгарии) // Вестник Томского
государственного университета. Филология. 2020. № 66. C. 158—176.
DOI: 10.17223/19986645/66/9.
Соболев 1998
А. Н. Соболев. О диалектологическом
атласе Восточной Сербии и Западной Болгарии // Г. П. Клепикова
(отв. ред.). Исследования по славянской диалектологии. Вып. 5. М.:
Институт славяноведения РАН, 1998. С. 106—167.
Birkner 2015
V. Birkner. The advantages and
disadvantages of employing corpus evidence in sociolinguistic
studies // The Teacher Magazine. 2015. Vol. 2. P. 11—17.
Dash 2012
N. S. Dash. Etymological Annotation:
a New Concept of Corpus Annotation // Proceedings of the 34th All
India Conference of Linguists (34-AICL). Shillong, India, 2012. P.
100–104.
Dash, Arulmozi 2018
N. S. Dash, S. Arulmozi. Limitations
of language corpora // N. Dash, S. Arulmozi. History, features, and
typology of language corpora. Singapore: Springer Singapore, 2018.
P. 259—272.
Dash, Hussain 2013
N. S. Dash, M. M. Hussain. Designing
a Generic Scheme for Etymological Annotation: a New Type of
Language Corpora Annotation // P. Bhattacharayya, K.-S. Choi
(eds.). Proceedings of the 11th Workshop on Asian Language
Resources. Nagoya: Asian Federation of Natural Language Processing,
2013. P. 64–71.
Deemter, Kibble 1999
K. van Deemter, R. Kibble. What is
coreference, and what should coreference annotation be? // A.
Bagga, B. Baldwin, S. Shelton (eds.). Proceedings of the Workshop
on Coreference and Its Applications. Stroudsburg, PA: Association
for Computational Linguistics, 1999. P. 90—96.
Erjavec et al. 2003
T. Erjavec, C. Krstev, V. Petkevic,
K. Simov, M. Tadic, D. Vitas. The MULTEXT-east morphosyntactic
specifications for Slavic languages // T. Erjavec, D. Vitas (eds.).
Proceedings of the Workshop on Morphological Processing of Slavic
Languages, EACL 2003. Stroudsburg, PA: Association for
Computational Linguistics, 2003. P. 25—32.
Escher 2021
A. L. Escher. Double argument marking
in Timok dialect texts (in Balkan Slavic context). Zeitschrift für
Slawistik. Forthcoming.
Goedertier et al. 2000
W. Goedertier, S. Goddijn, J.-P.
Martens. Orthographic transcription of the spoken Dutch corpus //
M. Gavrilidou, G. Carayannis, S. Markantonatou, S. Piperidis, G.
Stainhouer (eds.). Proceedings of the Second International
Conference on Language Resources and Evaluation (LREC 2000),
Athens, Greece. Athens: National Technical University of Athens
Press, 2000. P. 909—914.
Ljubešić et al. 2016
N. Ljubešić, F. Klubička, Ž. Agić,
I.-P. Jazbec. New Inflectional Lexicons and Training Corpora for
Improved Morphosyntactic Annotation of Croatian and Serbian // N.
Calzolari, Kh. Choukri, Th. Declerck, S. Goggi, M. Grobelnik, B.
Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, S. Piperidis
(eds.). Proceedings of the Tenth International Conference on
Language Resources and Evaluation (LREC 2016). Paris : European
Language Resources Association, 2016. P. 4264—4270.
Vuković et al. 2019
T. Vuković, N. Muheim, O.
Winistörfer, I. Simko, A. Makarova, S. Bradjan. Corpora and
Processing Tools for Non-Standard Contemporary and Diachronic
Balkan Slavic // I. Temnikova, I. Nikolova, N. Konstantinova
(eds.). Proceedings of the Student Research Workshop associated
with The 12th International Conference on Recent Advances in
Natural Language Processing (RANLP 2019). Shoumen: Incoma, 2019. P.
62–68.
Vuković et al. 2020
T. Vuković, B. Sonnenhauser, A.
Escher. Degrees of non-standardness. Feature-based analysis of
variation in a Torlak dialect corpus. Manuscript.
Ключевые слова
автоматический анализ текста, языковое
профилирование, носитель диалекта, балканославянские языки,
сербские диалекты, тимокский диалект, идиолект носителя говора,
село Берчиновац, Восточная Сербия