Програмне забезпечення автоматизованого збору надвеликих масивів текстових даних

Кувічка, Максим Євгенович

Програмне забезпечення автоматизованого збору надвеликих масивів текстових даних

dc.contributor.advisor	Олійник, Юрій Олександрович
dc.contributor.author	Кувічка, Максим Євгенович
dc.date.accessioned	2023-03-15T10:18:49Z
dc.date.available	2023-03-15T10:18:49Z
dc.date.issued	2022-12
dc.description.abstract	Розмір пояснювальної записки – 107 аркушів, містить 20 ілюстрацій, 28 таблиць, 3 додатки, 21 посиланя на джерела. Актуальність теми. З кожним роком даних стає все більше, вони можуть принести користь в будь-якій сфері нашого життя за умови правильної обробки. Тема роботи є актуальною, оскільки на сьогодні універсального засобу для збору надвеликих масивів текстових даних з різних джерел не існує. Метою роботи є створення уніфікації структури та формату надвеликих масивів текстових даних за рахунок використання архітектурних рішень, які дозволяють користувачам розширювати його для власних цілей з мінімальними зусиллями. Для досягнення цієї мети необхідно вирішити такі задачі: - порівняльний аналіз наявних рішень для збору надвеликих масивів текстових даних; - формулювання технічних особливостей збору надвеликих масивів текстових даних; - розробка уніфікованої структури надвеликих текстових даних, зібраних з різних джерел; - розробка програмного забезпечення для збору надвеликих масивів текстових даних; - реалізація модульної архітектури в програмному рішенні; - оцінка ефективності запропонованого рішення. Об'єктом дослідження роботи є математичне, інформаційне та програмне забезпечення збору надвеликих масивів текстових даних. Предметом дослідження є методи збору надвеликих масивів текстових даних. Науковою новизною роботи є створення уніфікованого структури даних для джерел великих текстових даних різної природи, що включає зберігання мітки часу та джерела даних, а також декларування строгої структури. Практичне значення отриманих результатів полягає у можливості використання запропонованої уніфікованої структури для інтеграції між різними системами збору надвеликих масивів текстових даних. Зв’язок роботи з науковими програмами, планами, темами: дисертаційна робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація: Основні положення роботи доповідались і обговорювались на III Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології (Soft-Tech-2022)». Публікації. Наукові положення дисертації опубліковані в: 1) Кувічка М.Є. Уніфікація структури надвеликих масивів текстових даних, зібраних з різних джерел / М.Є. Кувічка, Ю.О. Олійник // Матеріали III Всеукраїнської науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 23-25 листопада 2022 р.	uk
dc.description.abstracten	Explanatory note size – 107 pages, contains 20 illustrations, 28 tables, 3 applications, 21 references. Topicality. Every year, the amount of data is increasing, it can be useful in any area of our life, provided it is properly processed. The topic of the work is relevant, because today there is no universal tool for collecting extremely large arrays of text data from various sources. The goal of the work is to unify the structure and format of super-large arrays of text data through the use of architectural solutions that allow users to expand it for their own purposes with minimal effort. To achieve this goal, it is necessary to solve the following problems: - perform the comparative analysis of available solutions for collecting super-large arrays of text data; - formulation of the technical features of the collection of extremely large arrays of text data; - development of a unified structure of super-large text data collected from various sources; - development of software for collecting extremely large arrays of text data; - implementation of modular architecture in a software solution; - evaluation of the effectiveness of the proposed solution. The object of research of the work is mathematical, informational and software for collecting super-large arrays of text data. The subject of research is methods of collecting extremely large arrays of textual data. The scientific novelty of the work is the creation of a unified data structure for the sources of large text data of various nature, which includes the storage of the time stamp and data source, as well as the declaration of a strict structure. The practical significance of the obtained results lies in the possibility of using the proposed unified structure for integration between different systems for collecting extremely large arrays of text data. Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute” in the framework of the topic “Methods and technologies of highperformance computing and big data processing”. State registration number 0117U000924. Approbation. The main provisions of the work were reported and discussed at the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies (Soft-Tech- 2022)". Publications. The scientific provisions of the dissertation were published in: 1) Kuvichka M.Y. Unification of the structure of super-large arrays of text data collected from various sources / M.Y. Kuvichka, Yu.O. Oliinyk // Materials of the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies" (SoftTech- 2022 autumn) - Kyiv: NTUU "KPI them. Igor Sikorsky", November 23-25, 2022.	uk
dc.description.abstractother	Explanatory note size – 107 pages, contains 20 illustrations, 28 tables, 3 applications, 21 references. Topicality. Every year, the amount of data is increasing, it can be useful in any area of our life, provided it is properly processed. The topic of the work is relevant, because today there is no universal tool for collecting extremely large arrays of text data from various sources. The goal of the work is to unify the structure and format of super-large arrays of text data through the use of architectural solutions that allow users to expand it for their own purposes with minimal effort. To achieve this goal, it is necessary to solve the following problems: - perform the comparative analysis of available solutions for collecting super-large arrays of text data; - formulation of the technical features of the collection of extremely large arrays of text data; - development of a unified structure of super-large text data collected from various sources; - development of software for collecting extremely large arrays of text data; - implementation of modular architecture in a software solution; - evaluation of the effectiveness of the proposed solution. The object of research of the work is mathematical, informational and software for collecting super-large arrays of text data. The subject of research is methods of collecting extremely large arrays of textual data. The scientific novelty of the work is the creation of a unified data structure for the sources of large text data of various nature, which includes the storage of the time stamp and data source, as well as the declaration of a strict structure. The practical significance of the obtained results lies in the possibility of using the proposed unified structure for integration between different systems for collecting extremely large arrays of text data. Relationship with working with scientific programs, plans, topics. The work was performed at the Department of Informatics and Software Engineering of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute” in the framework of the topic “Methods and technologies of highperformance computing and big data processing”. State registration number 0117U000924. Approbation. The main provisions of the work were reported and discussed at the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies (Soft-Tech- 2022)". Publications. The scientific provisions of the dissertation were published in: 1) Kuvichka M.Y. Unification of the structure of super-large arrays of text data collected from various sources / M.Y. Kuvichka, Yu.O. Oliinyk // Materials of the III All-Ukrainian scientific and practical conference of young scientists and students "Software engineering and advanced information technologies" (SoftTech- 2022 autumn) - Kyiv: NTUU "KPI them. Igor Sikorsky", November 23-25, 2022.	uk
dc.description.abstractuk	Розмір пояснювальної записки – 107 аркушів, містить 20 ілюстрацій, 28 таблиць, 3 додатки, 21 посиланя на джерела. Актуальність теми. З кожним роком даних стає все більше, вони можуть принести користь в будь-якій сфері нашого життя за умови правильної обробки. Тема роботи є актуальною, оскільки на сьогодні універсального засобу для збору надвеликих масивів текстових даних з різних джерел не існує. Метою роботи є створення уніфікації структури та формату надвеликих масивів текстових даних за рахунок використання архітектурних рішень, які дозволяють користувачам розширювати його для власних цілей з мінімальними зусиллями. Для досягнення цієї мети необхідно вирішити такі задачі: - порівняльний аналіз наявних рішень для збору надвеликих масивів текстових даних; - формулювання технічних особливостей збору надвеликих масивів текстових даних; - розробка уніфікованої структури надвеликих текстових даних, зібраних з різних джерел; - розробка програмного забезпечення для збору надвеликих масивів текстових даних; - реалізація модульної архітектури в програмному рішенні; - оцінка ефективності запропонованого рішення. Об'єктом дослідження роботи є математичне, інформаційне та програмне забезпечення збору надвеликих масивів текстових даних. Предметом дослідження є методи збору надвеликих масивів текстових даних. Науковою новизною роботи є створення уніфікованого структури даних для джерел великих текстових даних різної природи, що включає зберігання мітки часу та джерела даних, а також декларування строгої структури. Практичне значення отриманих результатів полягає у можливості використання запропонованої уніфікованої структури для інтеграції між різними системами збору надвеликих масивів текстових даних. Зв’язок роботи з науковими програмами, планами, темами: дисертаційна робота виконувалась на кафедрі інформатики та програмної інженерії Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Апробація: Основні положення роботи доповідались і обговорювались на III Всеукраїнській науково-практичній конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології (Soft-Tech-2022)». Публікації. Наукові положення дисертації опубліковані в: 1) Кувічка М.Є. Уніфікація структури надвеликих масивів текстових даних, зібраних з різних джерел / М.Є. Кувічка, Ю.О. Олійник // Матеріали III Всеукраїнської науково-практичної конференції молодих вчених та студентів «Інженерія програмного забезпечення і передові інформаційні технології» (SoftTech-2022 осінь) – м. Київ: НТУУ «КПІ ім. Ігоря Сікорського», 23-25 листопада 2022 р.	uk
dc.format.extent	107 с.	uk
dc.format.page	107 с.	uk
dc.identifier.citation	Кувічка, М. Є. Програмне забезпечення автоматизованого збору надвеликих масивів текстових даних : магістерська дис. : 121 Інженерія програмного забезпечення / Кувічка Максим Євгенович. – Київ, 2022. – 107 с.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/53710
dc.language.iso	uk	uk
dc.publisher	КПІ ім. Ігоря Сікорського	uk
dc.publisher.place	Київ	uk
dc.subject	великі дані	uk
dc.subject	збір даних	uk
dc.subject	структуризація даних	uk
dc.subject	вебскрапінг	uk
dc.subject	big data	uk
dc.subject	data collection	uk
dc.subject	data structuring	uk
dc.subject	webscraping	uk
dc.subject.udc	004.912	uk
dc.title	Програмне забезпечення автоматизованого збору надвеликих масивів текстових даних	uk
dc.title.alternative	Big Text Data Collection Software	uk
dc.type	Master Thesis	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: Kuvichka_magistr.pdf
Розмір:: 9.16 MB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 1.71 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Магістерські роботи (ІПІ)
Магістерські роботи