Создание алгоритма для предсказания наличия недостоверной информации в социальных сетях на русском языке

Авторы

  • Александр Андреевич Черняев Тюменский государственный университет
  • Александр Григорьевич Ивашко Тюменский государственный университет

DOI:

https://doi.org/10.17072/1993-0550-2024-1-60-71

Ключевые слова:

машинное обучение, нейронный сети, анализ данных, лингвистический разбор, семантический разбор, социальные сети

Аннотация

Развитие способов передачи информации от пользователя к пользователю, таких как социальные сети, привело к тому, что количество недостоверной информации достигает рекордных показателей. Данная проблема касается не только обычных пользователей социальных сетей, но и средств массовой информации, которые в качестве источника информации могут обращаться к подобным сообщениям. Распространение ложной информации приводит как к проблемам финансовым, так и к опасности жизнедеятельности человека. Отследить данные сообщения вручную уже почти не представляется возможным, и в связи с этим требуется создать алгоритм, который способен выполнять этот процесс автоматически. Целью данной работы является попытка создать подобный алгоритм для русского языка методами машинного обучения. В качестве данных, на которых основаны модели, взята выборка данных, которая прошла процесс ручной аннотации. Выборка прошла процесс подготовки и балансировки. Из этой выборки были получены 29 атрибутов, которые можно разделить на 3 категории: пользователя, текста и распространения. Эти атрибуты и были применены для получения классифицирующих моделей, которые способны предсказывать с достаточно большой вероятностью. Результатом данной работы стал алгоритм для предсказания наличия недостоверной информации в сообщении социальной сети.

Библиографические ссылки

Pennycook G. The Psychology of Fake News. Trends in Cognitive Sciences. 2021. Vol. 25. P. 321–357. DOI: 10.1016/j.tics.2021.02.007.

Banda Juan M., Tekumalla Ramya, Wang Guan-yu, Yu, Jingyuan Liu, Tuo Ding, Yuning, Arte-mova, Katya Tutubalina, Elena & Chowell Gerardo. A large-scale COVID-19 Twitter chatter dataset for open scientific research - an inter-national collaboration (Version 67) [Data set]. Zenodo. DOI10.5281/zenodo.5000423.

Черняев А.А. 2019. Математическое моделирование оценки достоверности слухов в средствах массовой информации / А.А. Черняев, А.Г. Ивашко // Вестник Тюменского государственного университета. Физико-математическое моделирование. Нефть, газ, энергетика. 2019. Т. 5, № 4(20). С. 181–199. DOI 10.21684/2411-7978-2019-5-4-181-199. EDN SQYEWN.

Chernyaev A. Spryiskov A. Ivashko A., Bidulya Y. A Rumor Detection in Russian Tweets. 2020. P. 108–118. DOI: 10.1007/978-3-030-60276-5_11.

Eismann K. Diffusion and persistence of false rumors in social media networks: implications of searchability on rumor self-correction on Twitter. Journal of Business Economics. 2021. Vol. 91. P. 1299–1329. DOI: 91. 10.1007/ s11573-020-01022-9.

Vosoughi S. Automatic detection and verification of rumors on Twitter. 2015. P. 1–147.

Иванова Г.Ф. О мнениях и оценках / Г.Ф. Иванова // Известия Российского государственного педагогического университета им. А.И. Герцена. 2007. Т. 8, № 41. С. 25–31. EDN JXKQIX.

Емельянова О.Н. Бранная и вульгарная лек-сика в толковых словарях русского языка // Вестник Красноярского государственного педагогического университета им. В.П. Астафьева. 2015. № 4(34). С. 126–130. EDN VDKKMN.

Рамазанова Р.З. Вводно-модальные слова как средство выражения уверенности в современном русском языке // Филология и куль-тура. 2020. № 2(60). С. 77–82. DOI 10.26907/2074-0239-2020-60-2-77-82. EDN PWAYJW.

Селезнёва Е.В. Сложноподчиненное предложение с придаточным условия: содержание и объем понятия // Филология на стыке научных эпох: сб. статей памяти доктора филол. наук, проф. Анатолия Михайловича Ломова / Автономная некоммерческая организация по оказанию издательских и полиграфических услуг. Воронеж: "Наука–Юнипресс", 2020. С. 158–164. EDN HESCYX.

Шульга М.В. 2002. Количественная оценочность в газетно-публицистическом тексте // Вестник МГУЛ – Лесной вестник. 2002. № 3. URL: https://cyberleninka.ru/ article/n/kolichestvennaya-otsenochnost-v-gazetno-publitsisticheskom-tekste (дата обращения: 22.02.2023).

Туманова А.Б. Категория времени в совре-менной науке: анализ и интерпретация / А.Б. Туманова, Т.В. Павлова, Н.Ю. Зуева // Нео-филология. 2019. Т. 5, № 18. С. 131–138. DOI 10.20310/2587-6953-2019-5-18-131-138. EDN EAONIK.

Lachowicz D. Библиотека для Python Enchant. URL: https://abiword.github.io/ enchant/ (дата обращения: 22.02.2023).

Vicenzi A. Библиотека для Python Emojis. URL: https://emojis.readthedocs.io/en/latest/ (дата об-ращения: 22.02.2023).

Jahanbakhsh-Nagadeh Z., Feizi-Derakhshi MR., Ramezani M. A model to measure the spread power of rumors. J Ambient Intell Human Com-put. 2022. DOI: 10.1007/s12652-022-04034-1.

Castillo C., Mendoza M., Poblete B. Information credibility on Twitter. Proceedings of the 20th International Conference on World Wide Web. 2011. P. 675–684. 10.1145/ 1963405.1963500.

Chawla N., Bowyer K., Hall L., Kegelmeyer P. Smote: synthetic minority over-sampling tech-nique. Journal of artificial intelligence research. 2002. Vol. 16. P. 321–357, DOI: 10.1613/jair.953.

Черняев А.А., Ивашко А.Г. Математическое моделирование оценки доверия к сообщению в социальных сетях на русском языке // При-кладная информатика. 2023. Т. 18, № 4. С. 121–132. DOI: 10.37791/2687-0649-2023-18-4-121-132.

Kumar A., Sangwan S.R., Nayyar A. Rumour veracity detection on twitter using particle swarm optimized shallow classifiers. Multimed Tools Appl 78, 2019. Vol. 78. P. 24083–24101. DOI: 10.1007/s11042-019-7398-6.

Kennedy J., Eberhart R. Particle swarm optimization. Proceedings of ICNN'95 – International Conference on Neural Networks, Perth, WA, Australia, 1995, pp. 1942–1948 Vol. 4, DOI: 10.1109/ICNN.1995.488968.

Загрузки

Опубликован

29.03.2024

Как цитировать

Черняев, А. А., & Ивашко, А. Г. . (2024). Создание алгоритма для предсказания наличия недостоверной информации в социальных сетях на русском языке. ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА. МАТЕМАТИКА. МЕХАНИКА. ИНФОРМАТИКА, (1 (64), 60–71. https://doi.org/10.17072/1993-0550-2024-1-60-71