АНАЛІЗ МЕТОДІВ ВИЗНАЧЕННЯ ВАГ ОЗНАК ТЕКСТОВИХ ДОКУМЕНТІВ
Анотація
Робота присвячена розвитку методів визначення ваг ознак документа при розв’язанні задачі автоматичної класифікації текстової інформації. Аналізується вплив зменшення розмірності ознак документа на роботу векторного класифікатора. В якості пропонованих методів розглядаються TF-IDF, TF-SLF, покрапрова взаємна інформація, умовні випадкові поля.
Мета даної роботи полягає в підвищенні якості класифікації текстової інформації за рахунок використання доцільного методу визначення ваг ознак документу та його поєднання з методом побудови класифікатора.
В статті виконаний зрівняльний аналіз методів за такими характеристиками, як повнота, точність та F-міра.
Розглянуті методи використовуються для вирішення задач визначення тематичної приналежності текстів, визначення автора документу, емоційного забарвлення, фільтрації спаму тощо.
Ключові слова: інтелектуальний аналіз даних, класифікація текстової інформації, аналіз контенту, машинне навчання, алгоритми класифікації.
Олейник Ю. А., Катющенко Д.А. Анализ методов определения веса признаков текстовых документов/ НТУУ «КПИ им. Игоря Сикорского», Украина, Киев.
Работа посвящена развитию методов определения весов признаков документа при решении задачи автоматической классификации текстовой информации. Рассматривается влияние уменьшения размерности признаков документа на работу векторного классификатора. В качестве предлагаемых методов рассматриваются TF-IDF, TF-SLF, поточечная взаимная информация, условные случайные поля.
Цель данной работы заключается в повышении качества классификации текстовой информации за счет использования целесообразного метода определения весов признаков документа и его сочетание с методом построения и обучения классификатора.
В статье выполнен сравнительный анализ методов по таким характеристикам, как полнота, точность и F-мера.
Рассмотренные методы применяются при решении задач определения тематической принадлежности текстов, определение автора документа, определение эмоциональной окраски документа, фильтрации спама и т.д.
Ключевые слова: интеллектуальный анализ данных, классификация текстовой информации, анализ контента, машинное обучение, алгоритмы классификации
Oliynik Yuri, Katiushchenko Daria Analysis of methods of determining the term weight at textual documents/ National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Ukraine, Kyiv.
The work is devoted to the development of methods for determining the term weight of the document during automatic classification of text information. The influence of diminishing the dimension of a document terms on the work of vector classifier is considered. In the quality of the proposed methods are considered such methods as TF-IDF, TF-SLF, pointwise mutual information, conditional random fields.
The purpose of this work is to improve the quality of the classification of textual information due to the fact that the appropriate method for determining the weight of the document is documented, and their combination with the method will induce the beginning of the classifier.
The comparative analysis of methods on characteristics such as precision, recall and F-measure were performed.
The considered methods are part of solution of determining the thematic belonging of texts, determining the author of the document, determining the emotional color of the document, spam filtering, etc.
Key words: data mining, classification of textual information, content analysis, machine learning, classification algorithms.
Повний текст:
PDFПосилання
Joachims T. “Learning to Classify Text Using Support Vector Machines: Methods, Theory and Algorithms” / Thorsten Joachims. – USA, MA: Kluwer Academic Publishers Norwel, 2002. – 224 p.
Батура Т. В. Методы автоматической классификации текстов / Т. В. Батура // Международный научно-практический журнал программные продукты и системы. – 2017. – №1 – С. 85 – 99.
Гавриленко О. В. Огляд та аналіз алгоритмів TEXT MINING / О.В. Гавриленко, Ю. О. Олійник, Г. В. Ханько. // Управління проектами, системний аналіз ілогістика. – К.: НТУ, 2017. – Вип.
Попков М.И. Автоматическая система классификации текстов для базы знаний предприятия: дис. магист. / М.И. Попков – Москва, 2014. – 57 с.
Zhang C. Automatic Keyword Extraction from Documents Using Conditional Random Fields / C. Zhang, H. Wang, Y. Liu, D. Wu, Y. Liao, B. Wang // Journal of Computational Information Systems 4:3. – 2008. – pp. 1169-1180.
Manning D. Christopher Introduction to information retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze – USA, NY : Cambridge University Press. – 2008. – 482 p.
Моніторинговий проект “ОКО” [Електронний ресурс] / Режим доступу: http://www.ukroko.org
Оценка классификатора (точность, полнота, F-мера) [Електронний ресурс] / Суровая реальность – 2012. – Режим доступу: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
References:
Joachims T. “Learning to Classify Text Using Support Vector Machines: Methods, Theory and Algorithms” / Thorsten Joachims. – USA, MA: Kluwer Academic Publishers Norwel, 2002. – 224 p.
Batura T. V. Metody avtomaticheskoy klassifikatsii tekstov / T. V. Batura // Mezhdunarodnyy nauchno-prakticheskiy zhurnal programmnye produkty i sistemy. – 2017. – №1 – С. 85 – 99.
Havrylenko O. V. Ohliad ta analiz alhorytmiv TEXT MINING / O. V. Havrylenko, Yu. O. Oliinyk, H. V. Khanko. // Upravlinnia proektamy, systemnyi analiz i lohistyka. – K.: NTU, 2017. – Vyp.
Popkov M. I. Avtomaticheskaya sistema klassifikatsii tekstov dlya bazy znaniy predpriyatiya: dis. magisterskaya / M. I. Popkov – Moskva, 2014. – 57 с.
Zhang C. Automatic Keyword Extraction from Documents Using Conditional Random Fields / C. Zhang, H. Wang, Y. Liu, D. Wu, Y. Liao, B. Wang // Journal of Computational Information Systems 4:3. – 2008. – pp. 1169-1180.
Manning D. Christopher Introduction to information retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze – USA, NY : Cambridge University Press. – 2008. – 482 p.
Monitorynhovyi proekt “OKO” [Elektronnyi resurs] / Rezhym dostupu: http://www.ukroko.org
Otsenka klassifikatora (tochnost, polnota, F-mera) [Elektronnyi resurs] / Surovaya realnost – 2012. – Rezhym dostupu: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
Посилання
- Поки немає зовнішніх посилань.
Цей твір ліцензовано за ліцензією Creative Commons Із зазначенням авторства 4.0 Міжнародна.