MATNLI MA’LUMOTLARGA DASTLABKI ISHLOV BERISH BOSQICHLARI VA USULLARI

Fazliddinov Xolmurod  Dilmurod o‘g‘li; Abdukadirov Baxtiyor Abduvaxitovich

Authors

Fazliddinov Xolmurod Dilmurod o‘g‘li FarDU Axborot tizimlari va texnologiyalari yo‘nalishi 3-kurs talabasi Author
Abdukadirov Baxtiyor Abduvaxitovich Fardu Axborot Texnologiyalari Kafedrasi Dotsenti Author

Keywords:

matnli ma’lumotlar, NLP, tokenizatsiya, stemming, lemmatizatsiya, stop-so‘zlar, vektorlashtirish, Bag-of-Words, TF-IDF, Word2Vec, SpaCy, NLTK, Python

Abstract

Mazkur ishda matnli ma’lumotlarga dastlabki ishlov berish bosqichlari va usullari yoritilgan. Xususan, tokenizatsiya, stemming, lemmatizatsiya, stop-so‘zlarni olib tashlash hamda matnni normalizatsiya qilish jarayonlari ko‘rib chiqilgan. Shuningdek, matnli ma’lumotlarni raqamli ko‘rinishga o‘tkazish uchun vektorlashtirish usullari — Bag-of-Words, TF-IDF va zamonaviy Word Embeddings modellari tahlil qilingan. Python dasturlash tilining NLTK, SpaCy va Scikit-learn kabi kutubxonalari yordamida ushbu jarayonlarni amalga oshirish imkoniyatlari ko‘rsatib berilgan. Ishda matnli ma’lumotlarni to‘g‘ri qayta ishlashning tahlil natijalarining aniqligi va ishonchliligiga ta’siri asoslab berilgan.

References

1. Jurafsky D., Martin J.H. – Speech and Language Processing (3rd edition draft), 2023.

2. Bird S., Klein E., Loper E. – Natural Language Processing with Python, O’Reilly Media, 2009.

3. Manning C.D., Raghavan P., Schütze H. – Introduction to Information Retrieval, Cambridge University Press, 2008.

4. Mikolov T. et al. – Efficient Estimation of Word Representations in Vector Space, 2013.

5. Pedregosa F. et al. – Scikit-learn: Machine Learning in Python, Journal of Machine Learning Research, 2011.

6. Honnibal M., Montani I. – spaCy 2: Natural Language Understanding with Bloom Embeddings, 2017.

MATNLI MA’LUMOTLARGA DASTLABKI ISHLOV BERISH BOSQICHLARI VA USULLARI

Authors

Keywords:

Abstract

References

Downloads

Published

Issue

Section