Тематическое моделирование в дискурсе компьютерной безопасности: исследование на примере публикаций информационных бюллетеней и новостных лент

Авторы

  • Екатерина Владимировна Исаева Пермский государственный национальный исследовательский университет https://orcid.org/0000-0003-1048-7492

DOI:

https://doi.org/10.17072/2073-6681-2022-2-18-26

Ключевые слова:

когнитивно-дискурсивная лингвистика; дискурс компьютерной безопасности; KNIME; инфодемиология; контент-анализ; RSS-ленты; тематическое моделирование.

Аннотация

Актуальная информация играет важную роль в современных лингвистических исследованиях. По этой причине методы компьютерной лингвистики, в том числе с использованием аналитических инструментов и средств машинного обучения, привлекают все большее внимание. Некоторые из них применяются в когнитивно-дискурсивной лингвистике для извлечения ключевых слов, тематического моделирования и контентного анализа. Инструменты для обработки текста облегчают трудоемкую работу лингвиста и повышают надежность и статистическую точность результатов за счет обработки значительно большего объема данных. Большинство исследований, однако, упускают из виду интерференцию социально значимой, но контекстуально не релевантной (например, политической) информации в специализированный дискурс, фокусируясь в основном на каком-то одном формате данных. Настоящее исследование, направленное на тематическое моделирование, выполнено в рамках дискурса компьютерной безопасности. Проект реализован на аналитической платформе KNIME. Разработанная модель позволяет сравнивать темы, извлеченные из опубликованных статей и новостных RSS-лент, привязанных к конкретной дате. Данное исследование позволяет получить важные сведения об инфодемиологии и случайном попадании политических новостей в RSS-ленты сайта Касперского, ориентированные на компьютерную безопасность, которые не прослеживаются в информационных бюллетенях, опубликованных на том же сайте в формате PDF. Представленные в статье результаты служат очередным подтверждением необходимости учитывать гиперконтекст профессиональной коммуникации и оперировать данными реального времени при решении подобных задач в рамках когнитивно-дискурсивной лингвистики. Наш вклад в развитие когнитивно-дискурсивной лингвистики заключается в применении метода сравнения тем в рамках одного дискурса с учетом данных, полученных в режиме реального времени. Для компьютерной лингвистики значимость данной работы заключается в описании нового применения алгоритма извлечения тем, размещенного в свободном доступе на портале KNIME.

Биография автора

Екатерина Владимировна Исаева, Пермский государственный национальный исследовательский университет

к. филол. н., доцент, заведующий кафедрой английского языка профессиональной коммуникации

Библиографические ссылки

Budaev E. Metaphors of disease in the Russian press, XLinguae. 2021, vol. 10, issue 2, pp. 30-37. doi 10.18355/XL.2017.10.02.03. (In Russ.)

Chudinov A. P., Sergienko N. A., Glushak V. M. Good, Evil, Truth, Lie in Russian, Ukrainian, Brit¬ish, and American linguo-cultures: Results of a psy¬cholinguistic experiment. Sibirskiy Filologicheskiy Zhurnal [The Siberian Journal of Philology], 2021, issue 2, pp. 297-311. doi 10.17223/18137083/75/21 (In Russ.)

Dancy-Scott N., Dutcher G. A., Keselman A., Hochstein C., Copty C., Ben-Senia D., Rajan S., Asencio M. G., Choi J. J. Trends in HIV terminolo¬gy: Text mining and data visualization assessment of international AIDS conference abstracts over 25 years. JMIR Public Health and Surveillance, 2018, vol. 4, issue 5. doi 10.2196/PUBLICHEALTH.8552. (In Eng.)

Dewi A., Thiel K. Topic extraction: Optimizing the number of topics with the elbow method. KNIME, June 19, 2017. Available at:

https://www.knime.com/blog/topic-extraction-opti- mizing-the-number-of-topics-with-the-elbow-met- hod (accessed 30 Apr 2022). (In Eng.)

Document Vector Node. KNIMETV, Decem¬ber 9, 2020. Available at: https://www.youtube. com/watch?v=kLlmCWnknhE (accessed 30 Apr 2022). (In Eng.)

Flores-Ruiz D., Elizondo-Salto A., Barroso- Gonzalez M. d. l. O. Using social media in tourist sentiment analysis: A case study of Andalusia during the Covid-19 pandemic. Sustainability, 2021, vol. 13, issue 7 (3836), pp. 1-19. doi

3390/SU13073836. (In Eng.)

Ertek G., Kailas L. Analyzing a decade of wind turbine accident news with topic modeling. Sustain¬ability, 2021, vol. 13, issue 12757, pp. 1-34. doi 10.3390/su132212757 (In Eng.)

Isaeva E., Baiburova O., Manzhula O. Anthro¬pomorphism in computer security terminology through the prizm of smart cognitive framing. Sci¬ence and Global Challenges of the 21st Century - Science and Technology. Perm Forum 2021. Lecture Notes in Networks and Systems. 2022, vol. 342, pp. 460-474. doi 10.1007/978-3-030-89477-1_46. (In Eng.)

Isaeva E. V. Metaphor in terminology: Finding tools for efficient professional communication. Fachsprache, 2019, vol. 41, special issue 1. doi 10.24989/fs.v41is1.1766. (In Eng.)

Isaeva E. V., Crawford R. Semantic framing of computer viruses: The study of semantic roles’ dis¬tribution. Vestnik Permskogo universiteta. Ros- siyskaya i zarubezhnaya filologiya [Perm University Herald. Russian and Foreign Philology], 2019, vol. 11, issue 1, pp. 5-13. doi 10.17072/2073-6681¬2019-1-5-13. (In Eng.)

Gustafson N., Pera, M. S., Ng, YK. Generating fuzzy equivalence classes on RSS news articles for retrieving correlated information. In: Gervasi O., Murgante B., Lagana A., Taniar D., Mun Y., Gav¬rilova M. L. (eds) Computational Science and Its Applications - ICCSA 2008. ICCSA 2008. Lecture Notes in Computer Science. 2008. Springer, Berlin, Heidelberg, vol. 5073, pp. 232-247. doi 10.1007/978-3-540-69848-7_20. (In Eng.)

Lee C., Lim C. From technological develop¬ment to social advance: A review of Industry 4.0 through machine learning. Technological Fore¬casting and Social Change, 2021, vol. 167 (120653). doi 10.1016/J.TECHFORE.2021. 120653. (In Eng.)

Liew T. M., Lee C. S. Examining the utility of social media in Covid-19 vaccination: Unsupervised learning of 672,133 twitter posts. JMIR Public Health and Surveillance, 2021, vol. 7, issue 11, pp. 1-19. doi 10.2196/29789. (In Eng.)

Liu Y., Zavarsky P., Malik Y. Non-linguistic features for cyberbullying detection on a social media platform using machine learning. In: Vaidya, J., Zhang, X., Li, J. (eds) Cyberspace Safety and Security. CSS 2019. Lecture Notes in Computer Science, vol. 11982. Springer, Cham, pp. 391-406. doi 10.1007/978-3-030-37337-5_31. (In Eng.)

Matthes J., Nanz A., Stubenvoll M., Heiss R. Processing news on social media. The political inci¬dental news exposure model (PINE). Journalism, 2020, vol. 21, issue 8, pp. 1031-1048. doi: 10.1177/1464884920915371. (In Eng.)

Mukhametzyanova L. R., Mardieva L. A., Chud¬inov A. P. The titles of newspapers and magazines as artifacts of the epoch. Journal of Research in Ap¬plied Linguistics, 2020, vol. 11, pp. 400-405. doi 10.22055/RALS.2020.16338. (In Eng.)

Photiou A., Nicolaides C., Dhillon P. S. Social status and novelty drove the spread of online infor¬mation during the early stages of COVID-19. Scien¬tific Reports, vol. 11, issue 1 (20098). doi 10.1038/S41598-021-99060-Y. (In Eng.)

Sebestyen V., Domokos E., Abonyi J. Multilayer network based comparative document analysis (MUNCoDA). MethodsX, 2020, vol. 7, 100902. doi 10.1016/J.MEX.2020.100902. (In Eng.)

Wu Y. C. Multilingual news extraction via stop¬word language model scoring. Journal of Intelli¬gent Information Systems, 2017, vol. 48, issue 1, pp. 191-213. doi 10.1007/S10844-016-0395-6. (In Eng.)

Загрузки

Опубликован

2022-07-27

Как цитировать

Исаева, Е. В. . (2022). Тематическое моделирование в дискурсе компьютерной безопасности: исследование на примере публикаций информационных бюллетеней и новостных лент . Вестник Пермского университета. Российская и зарубежная филология, 14(2). https://doi.org/10.17072/2073-6681-2022-2-18-26

Выпуск

Раздел

ЯЗЫК, КУЛЬТУРА, ОБЩЕСТВО