Spiegelung: Unterschied zwischen den Versionen
S.Kuch (Diskussion | Beiträge) |
S.Kuch (Diskussion | Beiträge) |
||
Zeile 1: | Zeile 1: | ||
Für im Netz verfügbare Werke, die keinen flächigen Einsatz von dynamischen oder serverseitigen Elementen haben, wird Heritrix[https://webarchive.jira.com/wiki/display/Heritrix/Heritrix] verwendet. | Für im Netz verfügbare Werke, die keinen flächigen Einsatz von dynamischen oder serverseitigen Elementen haben, wird Heritrix[https://webarchive.jira.com/wiki/display/Heritrix/Heritrix] verwendet. | ||
+ | |||
+ | Das seit längerer Zeit am meisten genutzte Verfahren zur Webarchivierung ist das Remote Harvesting mittels eines Crawlers. | ||
+ | Das Remote Harvesting verwendet sogenannte Crawler, die zur Gruppe der „robots“ bzw. „spider“ gehören. Diese Gruppe von Software wurde dazu entwickelt mit Online Angeboten, also Websites, zu interagieren, als ob sie menschliche Nutzer wären und so Informationen zu sammeln. Auch Google verwendet solche „robots“, um Websites zu sammeln und zu indexieren. | ||
+ | |||
+ | Crawler dienen grundsätzlich dazu, einen HTTP request an einen Webserver zu übermitteln, also die gewünschte URL anzufordern. Der Inhalt der daraufhin vom Server übermittelt wird, wird gespeichert, sodass die gewünschte Website in ihrem zu diesem Zeitpunkt aktuellen Zustand gespeichert ist. Insoweit entspricht das Verhalten eines Crawler dem eines üblichen Desktop Browsers, wie Mozilla Firefox, Internet Explorer oder Safari. | ||
+ | Da für ein zweckmäßiges Arbeiten des Crawlers eine weitere Automatisierung notwendig ist, arbeitet der Crawler eine Liste von URLs, genannt seeds, ab. Er bearbeitet die erste URL in der Liste, speichert die Webseite und extrahiert alle Hyperlinks auf der Website. Diese werden dann zu den seeds hinzugefügt. Auf diese Weise werden eine Website und alle anderen Websites, auf die verlinkt wird, gespeichert. Dieser Vorgang kann und muss selbstverständlich durch Parameter beschränkt werden, z. B. die maximale Anzahl an Hyperlinks, denen gefolgt werden soll. |
Version vom 6. November 2013, 11:33 Uhr
Für im Netz verfügbare Werke, die keinen flächigen Einsatz von dynamischen oder serverseitigen Elementen haben, wird Heritrix[1] verwendet.
Das seit längerer Zeit am meisten genutzte Verfahren zur Webarchivierung ist das Remote Harvesting mittels eines Crawlers. Das Remote Harvesting verwendet sogenannte Crawler, die zur Gruppe der „robots“ bzw. „spider“ gehören. Diese Gruppe von Software wurde dazu entwickelt mit Online Angeboten, also Websites, zu interagieren, als ob sie menschliche Nutzer wären und so Informationen zu sammeln. Auch Google verwendet solche „robots“, um Websites zu sammeln und zu indexieren.
Crawler dienen grundsätzlich dazu, einen HTTP request an einen Webserver zu übermitteln, also die gewünschte URL anzufordern. Der Inhalt der daraufhin vom Server übermittelt wird, wird gespeichert, sodass die gewünschte Website in ihrem zu diesem Zeitpunkt aktuellen Zustand gespeichert ist. Insoweit entspricht das Verhalten eines Crawler dem eines üblichen Desktop Browsers, wie Mozilla Firefox, Internet Explorer oder Safari. Da für ein zweckmäßiges Arbeiten des Crawlers eine weitere Automatisierung notwendig ist, arbeitet der Crawler eine Liste von URLs, genannt seeds, ab. Er bearbeitet die erste URL in der Liste, speichert die Webseite und extrahiert alle Hyperlinks auf der Website. Diese werden dann zu den seeds hinzugefügt. Auf diese Weise werden eine Website und alle anderen Websites, auf die verlinkt wird, gespeichert. Dieser Vorgang kann und muss selbstverständlich durch Parameter beschränkt werden, z. B. die maximale Anzahl an Hyperlinks, denen gefolgt werden soll.