МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧ ИДЕНТИФИКАЦИИ АВТОРА ТЕКСТА
Keywords:
Машинное обучение, идентификация автора текста, обработка естественного языка, извлечение признаков, супервизорное обучение, глубокое обучение, стилистический анализ.Abstract
Идентификация автора текста — это актуальная задача в области обработки естественного языка (NLP), находящая применение в криминалистике, защите авторских прав, а также в литературоведении. Методы машинного обучения (МО) стали важным инструментом в решении этих задач, предоставляя алгоритмы для анализа лексических, синтаксических и стилевых характеристик текста. В данной статье рассматриваются современные методы МО для идентификации авторов текста, включая супервизорные, несупервизорные и глубокие нейронные сети. Проводится обзор литературы, обсуждаются вызовы, такие как разреженность данных, выбор признаков и этические аспекты. Экспериментальные результаты демонстрируют влияние продвинутых моделей МО на точность классификации и масштабируемость. Результаты подчёркивают возрастающую значимость машинного обучения в исследованиях по атрибуции авторства.
References
1. Holmes, D. I. (1998). The Evolution of Stylometry in Humanities Scholarship. Literary and Linguistic Computing, 13(3), 111-117.
2. Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with Many Relevant Features. European Conference on Machine Learning.
3. McCallum, A., & Nigam, K. (1998). A Comparison of Event Models for Naive Bayes Text Classification. AAAI Workshop.
4. Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32.
5. Jain, A., Murty, M. N., & Flynn, P. J. (1999). Data Clustering: A Review. ACM Computing Surveys, 31(3), 264-323.
6. Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993-1022.
7. Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.
8. Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. EMNLP.
9. Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL.
10. Stamatatos, E. (2009). A Survey of Modern Authorship Attribution Methods. Journal of the American Society for Information Science and Technology, 60(3), 538-556.
11. Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space. ICLR.
12. Juola, P. (2006). Authorship Attribution. Foundations and Trends in Information Retrieval, 1(3), 233-334.
13. Project Gutenberg. (2022). Literary Works for Machine Learning Research. Retrieved from https://www.gutenberg.org
14. Klimt, B., & Yang, Y. (2004). The Enron Corpus: A New Dataset for Email Classification Research. CEAS.
15. Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.
16. Weiss, S. M., et al. (2010). Text Mining: Predictive Methods for Analyzing Unstructured Information. Springer.
17. Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1), 1-47.
18. Floridi, L., & Cowls, J. (2019). A Unified Framework of Five Principles for AI in Society. Harvard Data Science Review.
19. Doshi-Velez, F., & Kim, B. (2017). Towards a Rigorous Science of Interpretable Machine Learning. arXiv:1702.08608.
20. Kestemont, M., et al. (2019). Overview of the Author Identification Task at PAN 2019. CEUR Workshop Proceedings.