МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧ ИДЕНТИФИКАЦИИ АВТОРА ТЕКСТА

Authors

  • Насреддинова Индира Бахадыровна Ташкентский университет информационных технологии, факультет «информационные и мультимедийные технологии» indiranasred@gmail.com Author

Keywords:

Машинное обучение, идентификация автора текста, обработка естественного языка, извлечение признаков, супервизорное обучение, глубокое обучение, стилистический анализ.

Abstract

Идентификация автора текста — это актуальная задача в области обработки естественного языка (NLP), находящая применение в криминалистике, защите авторских прав, а также в литературоведении. Методы машинного обучения (МО) стали важным инструментом в решении этих задач, предоставляя алгоритмы для анализа лексических, синтаксических и стилевых характеристик текста. В данной статье рассматриваются современные методы МО для идентификации авторов текста, включая супервизорные, несупервизорные и глубокие нейронные сети. Проводится обзор литературы, обсуждаются вызовы, такие как разреженность данных, выбор признаков и этические аспекты. Экспериментальные результаты демонстрируют влияние продвинутых моделей МО на точность классификации и масштабируемость. Результаты подчёркивают возрастающую значимость машинного обучения в исследованиях по атрибуции авторства.

References

1. Holmes, D. I. (1998). The Evolution of Stylometry in Humanities Scholarship. Literary and Linguistic Computing, 13(3), 111-117.

2. Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with Many Relevant Features. European Conference on Machine Learning.

3. McCallum, A., & Nigam, K. (1998). A Comparison of Event Models for Naive Bayes Text Classification. AAAI Workshop.

4. Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32.

5. Jain, A., Murty, M. N., & Flynn, P. J. (1999). Data Clustering: A Review. ACM Computing Surveys, 31(3), 264-323.

6. Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993-1022.

7. Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.

8. Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. EMNLP.

9. Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.

10. Stamatatos, E. (2009). A Survey of Modern Authorship Attribution Methods. Journal of the American Society for Information Science and Technology, 60(3), 538-556.

11. Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space. ICLR.

12. Juola, P. (2006). Authorship Attribution. Foundations and Trends in Information Retrieval, 1(3), 233-334.

13. Project Gutenberg. (2022). Literary Works for Machine Learning Research. Retrieved from https://www.gutenberg.org

14. Klimt, B., & Yang, Y. (2004). The Enron Corpus: A New Dataset for Email Classification Research. CEAS.

15. Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.

16. Weiss, S. M., et al. (2010). Text Mining: Predictive Methods for Analyzing Unstructured Information. Springer.

17. Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1), 1-47.

18. Floridi, L., & Cowls, J. (2019). A Unified Framework of Five Principles for AI in Society. Harvard Data Science Review.

19. Doshi-Velez, F., & Kim, B. (2017). Towards a Rigorous Science of Interpretable Machine Learning. arXiv:1702.08608.

20. Kestemont, M., et al. (2019). Overview of the Author Identification Task at PAN 2019. CEUR Workshop Proceedings.

Downloads

Published

2024-11-26