Scarping

aus SecuPedia, der Plattform für Sicherheits-Informationen

Anzeige
Wechseln zu: Navigation, Suche

Mittlerweile ist es fast schon Gewohnheit, dass durch Hacks und Datenpannen bei Online-Diensten regelmäßig Millionen von Nutzerdaten in falsche Hände geraten. So tauchten etwa im April 2021 die Daten von mehr als 553 Millionen Facebook-Nutzern, 500 Millionen LinkedIn-Accounts und 1,3 Millionen Clubhouse-Nutzer im Web auf.

Definition

Scraping als Kurzform von „Screen Scraping“ oder „Web Scraping“ ist eine Funktion, bei der eine Anwendung oder ein Script Informationen von einer Website oder einem Online-Dienst ausliest und speichert - also die Information vom Bildschirm "kratzt". Bekannte Anwendungsfälle dieser Technik sind etwa Bots von Suchmaschinen wie Google, die kontinuierlich im Internet unterwegs sind, um Websites zu indizieren (Crawling). Aber auch Vergleichsportale nutzen die Methode, um Unmengen an Daten zu sammeln und dann auszuwerten. In vielen Fällen ist eine derartige Praxis auch im Sinne der Website-Betreiber, da sie dank einer solchen Indexierung möglicherweise eine höhere Reichweite oder mehr Umsatz für ihre Produkte und Services erzielen. Die Technik kann allerdings auch missbräuchlich genutzt werden. Unternehmen sind etwa mittels Scraping in der Lage, die Webshops der Konkurrenz automatisch zu durchforsten. Im Anschluss können sie dann beispielsweise ihre Preise so anpassen, dass sie immer etwas billiger ist (Preis-Grabbing). Oder sie übernehmen deren Produktbeschreibungen und -bilder (Content-Grabbing) beziehungsweise gleich die ganze Webshop-Konstruktion und sparen sich viel Zeit und Geld. Die auf Facebook eingesammelten Telefonnummern und E-Mail-Adressen werden außerdem in direktem Zusammenhang mit darauffolgenden "Smishing"- und Phishing-Wellen gebracht.

Funktionsweise

Der Scraping-Prozess besteht im Großen und Ganzen aus zwei Teilen, nämlich dem Aufrufen der gewünschten Web-Seiten (statische und dynamisch erzeugte) und der anschließenden Extraktion der Daten. Es ist eine Vielzahl von Scraping-Tools verfügbar, allein auf Github finden sich zahlreiche Lösungen und Toolkits für die verschiedensten Einsatzgebiete. Im Fall des Facebook-Scraps, wo auch als privat gekennzeichnete Daten abgesaugt wurden, gehen die Betreiber von einer speziellen Methode aus, die sich eine Ende 2019 geschlossene Lücke in der Kontaktimport-Funktion der Plattform zunutze machte. Dieses Feature soll es Nutzern ermöglichen, Freunde und Bekannte auf Facebook zu identifizieren, indem sie ihr Telefonbuch hochladen. Laut Facebook nutzten die Angreifer diese Funktionalität im großen Stil, um ein Set an Benutzerprofilen abzufragen und dann Informationen über diese erhalten, die in ihren öffentlichen Profilen enthalten sind.

Data Scraping - Abwehrmaßnahmen

Auf Seiten des Website-Betreibers gibt es verschiedene Möglichkeiten, sich vor Scrapern zu schützen. Häufig eingesetzte Methoden sind etwa die Verwendung von Captcha-Abfragen oder einer robots.txt-Datei, um Web-Crawler den Zugang zu verwehren. Außerdem sind Web Application Firewalls meist in der Lage, verdächtige Aktivitäten eines Scrapers zu entdecken. Zudem sollte man es den automatisierten Datensammlern nicht zu einfach machen. Im Fall Clubhouse sieht es danach aus, dass bei der Erstellung von Benutzerprofilen in der SQL-Datenbank eine fortlaufende Nummerierung verwendet wurde. Die ermöglich Scrapern einen relativ einfachen Zugriff: Ein einfaches Skript, das den Profil-Links eine Nummer hinzufügt, genügt für massenhaftes Data Scraping.

Quelle: https://www.computerwoche.de/a/was-ist-scraping,3551081



Diese Seite wurde zuletzt am 21. Juli 2021 um 09:38 Uhr von Sebastian Frank geändert. Basierend auf der Arbeit von Klaus Kapinos.