Програмне забезпечення автоматизованого збору надвеликих масивів текстових даних

dc.contributor.advisorОлійник, Юрій Олександрович
dc.contributor.authorКувічка, Максим Євгенович
dc.date.accessioned2023-03-15T10:18:49Z
dc.date.available2023-03-15T10:18:49Z
dc.date.issued2022-12
dc.description.abstractРозмір пояснювальної записки – 107 аркушів, містить 20 ілюстрацій, 28 таблиць, 3 додатки, 21 посиланя на джерела. Актуальність теми. З кожним роком даних стає все більше, вони можуть принести користь в будь-якій сфері нашого життя за умови правильної обробки. Тема роботи є актуальною, оскільки на сьогодні універсального засобу для збору надвеликих масивів текстових даних з різних джерел не існує. Метою роботи є створення уніфікації структури та формату надвеликих масивів текстових даних за рахунок використання архітектурних рішень, які дозволяють користувачам розширювати його для власних цілей з мінімальними зусиллями. Для досягнення цієї мети необхідно вирішити такі задачі: - порівняльний аналіз наявних рішень для збору надвеликих масивів текстових даних; - формулювання технічних особливостей збору надвеликих масивів текстових даних; - розробка уніфікованої структури надвеликих текстових даних, зібраних з різних джерел; - розробка програмного забезпечення для збору надвеликих масивів текстових даних; - реалізація модульної архітектури в програмному рішенні; - оцінка ефективності запропонованого рішення. Об'єктом дослідження роботи є математичне, інформаційне та програмне забезпечення збору надвеликих масивів текстових даних. Предметом дослідження є методи збору надвеликих масивів текстових даних. Науковою новизною роботи є створення уніфікованого структури даних для джерел великих текстових даних різної природи, що включає зберігання мітки часу та джерела даних, а також декларування строгої структури. Практичне значення отриманих результатів полягає у можливості використання запропонованої уніфікованої структури для інтеграції між різними системами збору надвеликих масивів текстових даних. Зв’язок роботи з науковими програмами, планами, темами: дисертаційна робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація: Основні положення роботи доповідались і обговорювались на III Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології (Soft-Tech-2022)». Публікації. Наукові положення дисертації опубліковані в: 1) Кувічка М.Є. Уніфікація структури надвеликих масивів текстових даних, зібраних з різних джерел / М.Є. Кувічка, Ю.О. Олійник // Матеріали III Всеукраїнської науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 23-25 листопада 2022 р.uk
dc.description.abstractenExplanatory note size – 107 pages, contains 20 illustrations, 28 tables, 3 applications, 21 references. Topicality. Every year, the amount of data is increasing, it can be useful in any area of our life, provided it is properly processed. The topic of the work is relevant, because today there is no universal tool for collecting extremely large arrays of text data from various sources. The goal of the work is to unify the structure and format of super-large arrays of text data through the use of architectural solutions that allow users to expand it for their own purposes with minimal effort. To achieve this goal, it is necessary to solve the following problems: - perform the comparative analysis of available solutions for collecting super-large arrays of text data; - formulation of the technical features of the collection of extremely large arrays of text data; - development of a unified structure of super-large text data collected from various sources; - development of software for collecting extremely large arrays of text data; - implementation of modular architecture in a software solution; - evaluation of the effectiveness of the proposed solution. The object of research of the work is mathematical, informational and software for collecting super-large arrays of text data. The subject of research is methods of collecting extremely large arrays of textual data. The scientific novelty of the work is the creation of a unified data structure for the sources of large text data of various nature, which includes the storage of the time stamp and data source, as well as the declaration of a strict structure. The practical significance of the obtained results lies in the possibility of using the proposed unified structure for integration between different systems for collecting extremely large arrays of text data. Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute” in the framework of the topic “Methods and technologies of highperformance computing and big data processing”. State registration number 0117U000924. Approbation. The main provisions of the work were reported and discussed at the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies (Soft-Tech- 2022)". Publications. The scientific provisions of the dissertation were published in: 1) Kuvichka M.Y. Unification of the structure of super-large arrays of text data collected from various sources / M.Y. Kuvichka, Yu.O. Oliinyk // Materials of the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies" (SoftTech- 2022 autumn) - Kyiv: NTUU "KPI them. Igor Sikorsky", November 23-25, 2022.uk
dc.description.abstractotherExplanatory note size – 107 pages, contains 20 illustrations, 28 tables, 3 applications, 21 references. Topicality. Every year, the amount of data is increasing, it can be useful in any area of our life, provided it is properly processed. The topic of the work is relevant, because today there is no universal tool for collecting extremely large arrays of text data from various sources. The goal of the work is to unify the structure and format of super-large arrays of text data through the use of architectural solutions that allow users to expand it for their own purposes with minimal effort. To achieve this goal, it is necessary to solve the following problems: - perform the comparative analysis of available solutions for collecting super-large arrays of text data; - formulation of the technical features of the collection of extremely large arrays of text data; - development of a unified structure of super-large text data collected from various sources; - development of software for collecting extremely large arrays of text data; - implementation of modular architecture in a software solution; - evaluation of the effectiveness of the proposed solution. The object of research of the work is mathematical, informational and software for collecting super-large arrays of text data. The subject of research is methods of collecting extremely large arrays of textual data. The scientific novelty of the work is the creation of a unified data structure for the sources of large text data of various nature, which includes the storage of the time stamp and data source, as well as the declaration of a strict structure. The practical significance of the obtained results lies in the possibility of using the proposed unified structure for integration between different systems for collecting extremely large arrays of text data. Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute” in the framework of the topic “Methods and technologies of highperformance computing and big data processing”. State registration number 0117U000924. Approbation. The main provisions of the work were reported and discussed at the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies (Soft-Tech- 2022)". Publications. The scientific provisions of the dissertation were published in: 1) Kuvichka M.Y. Unification of the structure of super-large arrays of text data collected from various sources / M.Y. Kuvichka, Yu.O. Oliinyk // Materials of the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies" (SoftTech- 2022 autumn) - Kyiv: NTUU "KPI them. Igor Sikorsky", November 23-25, 2022.uk
dc.description.abstractukРозмір пояснювальної записки – 107 аркушів, містить 20 ілюстрацій, 28 таблиць, 3 додатки, 21 посиланя на джерела. Актуальність теми. З кожним роком даних стає все більше, вони можуть принести користь в будь-якій сфері нашого життя за умови правильної обробки. Тема роботи є актуальною, оскільки на сьогодні універсального засобу для збору надвеликих масивів текстових даних з різних джерел не існує. Метою роботи є створення уніфікації структури та формату надвеликих масивів текстових даних за рахунок використання архітектурних рішень, які дозволяють користувачам розширювати його для власних цілей з мінімальними зусиллями. Для досягнення цієї мети необхідно вирішити такі задачі: - порівняльний аналіз наявних рішень для збору надвеликих масивів текстових даних; - формулювання технічних особливостей збору надвеликих масивів текстових даних; - розробка уніфікованої структури надвеликих текстових даних, зібраних з різних джерел; - розробка програмного забезпечення для збору надвеликих масивів текстових даних; - реалізація модульної архітектури в програмному рішенні; - оцінка ефективності запропонованого рішення. Об'єктом дослідження роботи є математичне, інформаційне та програмне забезпечення збору надвеликих масивів текстових даних. Предметом дослідження є методи збору надвеликих масивів текстових даних. Науковою новизною роботи є створення уніфікованого структури даних для джерел великих текстових даних різної природи, що включає зберігання мітки часу та джерела даних, а також декларування строгої структури. Практичне значення отриманих результатів полягає у можливості використання запропонованої уніфікованої структури для інтеграції між різними системами збору надвеликих масивів текстових даних. Зв’язок роботи з науковими програмами, планами, темами: дисертаційна робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація: Основні положення роботи доповідались і обговорювались на III Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології (Soft-Tech-2022)». Публікації. Наукові положення дисертації опубліковані в: 1) Кувічка М.Є. Уніфікація структури надвеликих масивів текстових даних, зібраних з різних джерел / М.Є. Кувічка, Ю.О. Олійник // Матеріали III Всеукраїнської науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 23-25 листопада 2022 р.uk
dc.format.extent107 с.uk
dc.format.page107 с.uk
dc.identifier.citationКувічка, М. Є. Програмне забезпечення автоматизованого збору надвеликих масивів текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Кувічка Максим Євгенович. – Київ, 2022. – 107 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/53710
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.subjectвеликі даніuk
dc.subjectзбір данихuk
dc.subjectструктуризація данихuk
dc.subjectвебскрапінгuk
dc.subjectbig datauk
dc.subjectdata collectionuk
dc.subjectdata structuringuk
dc.subjectwebscrapinguk
dc.subject.udc004.912uk
dc.titleПрограмне забезпечення автоматизованого збору надвеликих масивів текстових данихuk
dc.title.alternativeBig Text Data Collection Softwareuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Kuvichka_magistr.pdf
Розмір:
9.16 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: