Structured data extraction from template-generated web pages

Tomas Grigalis

Daktaro disertacija

Disertacijos neparduodamos

Kiekis

Aprašymas

Dauguma struktūrizuotų duomenų internete yra randami duomenų bazėmis paremtose interneto svetainėse. Paprastai, naršant tokio tipo svetainėse, kiekvienos užklausos metu yra kreipiamasi į duomenų bazę ir iš jos ištraukiami struktūrizuoti duomenys. Naudojant iš anksto paruoštus šablonus šie duomenys yra automatiškai integruojami į naršomą tinklalapį ir atvaizduojami vartotojui. Šioje disertacijoje yra tyrinėjama kaip šiuos duomenų išgauti iš minėtų tinklalapių. Internete gausu skirtingo dizaino ir struktūros internetinių svetainių, todėl siekis automatiškai atpažinti nežinomos struktūros tinklalapius ir išgauti juose esančius struktūrizuotus duomenis yra itin sudėtinga problema. Manoma, jog išsprendus šią problemą būtų galima pagerinti informacijos paieškos internete sistemas ir įgalinti organizacijas žymiai sumažinti internetinių duomenų rinkimo kaštus. Tad šios disertacijos tikslas yra pasiūlyti naują ir efektyvesnį metodą, skirtą išgauti struktūrizuotus duomenis iš tinklalapių sugeneruotų pagal šablonus. Disertacijos tyrimų objektas – struktūrizuotų duomenų išgavimas iš tinklalapių sugeneruotų pagal šablonus.

Disertaciją sudaro įvadas, keturi pagrindiniai skyriai ir bendrosios išvados. Pirmajame skyriuje yra supažindinama su struktūrizuotų duomenų gavybos internete problema, nagrinėjami pažangiausi struktūrizuotų duomenų gavybos metodai, jų pritaikymas verslo analitikos sistemose.

Antrajame skyriuje pristatomas naujas metodas skirtas automatiškai išgauti struktūrizuotus duomenis iš tinklalapių sugeneruotų pagal šablonus. Metodas yra grįstas struktūriškai ir vizualiai panašių tinklalapio elementų klasterizacija. Vaizdinei informacijai išgauti tinklalapis yra atvaizduojamas interneto naršyklėje. Vizualiai ir struktūriškai panašūs tinklalapio elementai suklasterizuojami, o gauti klasteriai išnaudojami siekiant atpažinti tinklalapyje esančių duomenų struktūrą. Tuomet automatiškai sugeneruojamas XPath eilučių rinkinys, kurį naudojant galima išgauti struktūrizuotus duomenis iš atitinkamo dizaino tinklalapio.

Trečiajame skyriuje pristatomas naujas metodas skirtas sparčiai klasterizuoti panašios struktūros tinklalapius. Metodas grįstas trimis įžvalgomis: kad vienoje interneto svetainėje dažniausiai yra randamas ribotas skaičius skirtingo dizaino vidinių tinklalapių; kad kiekvienam svetainės tinklalapio šablone yra numatytas ribotas skaičius vietų, kuriose yra talpinamos nuorodos į kitus vidinius svetainės tinklalapius; kad kiekviename to paties šablono tinklalapyje konkreti vieta su nuoroda veda į tarpusavyje panašios struktūros tinklalapius.

Paskutiniame ketvirtajame skyriuje yra eksperimentiškai išbandomi pasiūlyti metodai naudojant daugiau kaip vieną milijoną tinklalapių. Bandymų rezultatai atskleidžia, jog abu pasiūlyti metodai visais išbandytais atvejais savo efektyvumu lenkia kitų autorių naujausius metodus.

Skaityti leidinio elektroninį variantą:

DOI: https://doi.org/10.20334/2262-M

Detaliau
VGTU leidykla "Technika"

Charakteristikos

Metai:
2014
ISBN:
978-609-457-699-7
Leidyklos nr.:
2262-M
Matmenys:
145×205 mm
Puslapių skaičius:
138 p.
Viršelis:
minkštas
Kalba:
anglų
16 kitos knygos toje pačioje kategorijoje:

Sekite mus Facebook'e