
Was ist Parsing und wie funktioniert es?
Oft lassen sich benötigte Daten nicht manuell zusammentragen, oder es nimmt sehr viel Zeit in Anspruch. Hier kommt das Parsing (Web Scraping) ins Spiel – es ist der Prozess des automatischen Sammelns von Informationen von Websites in einem strukturierten Format. Es hilft jedem, der in irgendeiner Form mit Datenaggregation zu tun hat: Online-Unternehmen und deren Vertretern, Marketern, Analysten und SEO-Optimierern.
Heute erklären wir in einfachen Worten, was Parsing ist, wie es funktioniert und welche Dienste es Ihnen ermöglichen, die Aufgabe der Datenerfassung am schnellsten und effizientesten zu erledigen.
Wie Parsing funktioniert
Aus technischer Sicht ist Parsing eine Methode zur Extraktion von Daten aus den HTML-Seiten einer Website. Zum besseren Verständnis wollen wir einige grundlegende Begriffe einführen.
HTML — eine Auszeichnungssprache, die das Fundament jeder Seite bildet. HTML-Tags erklären dem Browser, wie Text angezeigt werden soll, wo Links eingefügt werden müssen und wo sich ein Bild befindet. Ein Parser lädt den HTML-Code herunter, um die benötigten Informationen daraus zu extrahieren.
XML — eine Sprache zur Speicherung und Übertragung von Daten zwischen Programmen. Websites exportieren ihre Produkte normalerweise im XML-Format. Es ist viel einfacher und bequemer, die benötigten Informationen daraus zu parsen.
JSON — ein beliebtes Datenaustauschformat, das sowohl für Computer als auch für Menschen verständlich ist. Informationen werden darin in Form von "Schlüssel-Wert"-Paaren gespeichert, zum Beispiel { "name": "Sergey", "age": 40 }. Die meisten Websites verwenden heute JSON beim Laden von Produkten, woraus Parser die benötigten Daten extrahieren.
CSS-Selektoren — dies sind eine Art von Zeigern auf bestimmte Elemente einer Webseite. Wenn Sie beispielsweise alle grün hervorgehobenen Überschriften finden möchten, benötigen Sie den Selektor h2.green.
XPath — eine Abfragesprache, die es Ihnen ermöglicht, wie mit einem Navigator durch die Struktur eines HTML- oder XML-Dokuments zu navigieren. Sie können ihr Aufgaben geben wie "Finde den dritten Absatz innerhalb der Tabelle in der rechten Spalte und nimm den Link daraus." Sie ist für sehr komplexen und tief verschachtelten Code unverzichtbar.
Reguläre Ausdrücke — ein Werkzeug zum Finden und Extrahieren von Text anhand eines Musters. Wenn Sie beispielsweise alle Telefonnummern im Format "+7 (999) 123-45-67" parsen müssen, erledigt ein regulärer Ausdruck dies sofort.
Nun können wir die Hauptphasen des Parsings auflisten und erklären:
1. Datenabruf. In der ersten Phase sendet der Parser eine Anfrage und lädt das Ausgangsmaterial herunter. Die Quelle kann eine Webseite (HTML-Code), eine Website-API (die Informationen in reiner Form zurückgibt, z. B. in JSON) oder eine vorgefertigte Datei (XML- oder CSV-Export) sein.
2. Datenvorverarbeitung. Das heruntergeladene Datenarray muss in Ordnung gebracht werden: Unnötige Elemente (HTML-Tags, CSS-Stile usw.), die die Analyse stören und keinen Wert für das Ergebnis haben, werden aus dem Rohtext entfernt.
3. Strukturanalyse. Das Programm untersucht das Gerüst des empfangenen Dokuments und bewertet die Hierarchie: wo sich jede Überschrift befindet, in welchem Block der Preis steht und so weiter.
4. Datenextraktion. Mithilfe von Navigationswerkzeugen (XPath, CSS-Selektoren usw.) wählt der Parser die benötigten Daten aus: Produktnamen, Kontakte, Preise oder Links.
5. Datenspeicherung. Die gesammelten Informationen werden sauber in einem praktischen Format strukturiert: einer einfachen Tabelle (CSV, Excel), einer Datenbank (SQL) oder einer flexiblen Datei für den Datenaustausch (JSON).
Parsing-Tools — ein Überblick über beliebte Lösungen
Nachdem wir nun wissen, was Parsing ist, können wir uns Tools ansehen, die sich in ihren Funktionen, Preisen und Zusatzoptionen unterscheiden. Betrachten wir die beliebtesten Lösungen, basierend auf der Art und Weise, wie sie mit Inhalten arbeiten.
Spezialisierte Programme
Wenn Sie ein leistungsstarkes und funktionales Tool benötigen, das direkt auf Ihrem Computer installiert wird, sollten Sie sich spezialisierte Programme ansehen. Sie bieten umfangreiche Optionen zur Konfiguration des Parsings, arbeiten oft über eine visuelle Schnittstelle (Point-and-Click) und eignen sich für die regelmäßige Datenerfassung von einer Vielzahl von Websites — von einfachen Online-Shops bis hin zu komplexen Webanwendungen mit dynamisch ladenden Inhalten.
Octoparse — ein beliebter Daten-Parser, der verwendet wird, um Informationen über Benutzer, Produkte und Dienstleistungen zu sammeln sowie verschiedene Recherchen durchzuführen. Mit ihm können Sie Websites nach Elementtyp parsen und die Ergebnisse nach Excel, CSV und über eine API exportieren, ohne Programmierkenntnisse zu benötigen.
Octoparse bietet eine kostenlose Version mit einem Limit von 10 Aufgaben pro Monat. Fortgeschrittenere Tarife beginnen bei 69 $ pro Monat, und es gibt die Möglichkeit zur Anpassung des persönlichen Kontos — in diesem Fall wird der Tarif in gegenseitigem Einvernehmen festgelegt.
ParseHub — ein Web-Scraping-Programm zur Automatisierung der Informationsbeschaffung aus dem Internet. Es wird aktiv von Vermarktern, Forschern, Analysten und E-Commerce-Spezialisten genutzt. Der Datenexport ist in den Formaten Excel, API oder JSON verfügbar.
Der kostenlose Tarif von ParseHub umfasst bis zu 5 Aufgaben, deren Daten für 14 Tage gespeichert werden. Der Preis für die Standardversion beträgt 189 $, und der Professional-Tarif mit 120 Aufgaben sowie der Speicherung von Dateien und Bildern kostet 599 $ pro Monat.
WebHarvy — eine spezialisierte Software zum Parsen von Daten mit Unterstützung für mehrseitiges Scraping, Schlüsselwörter und JavaScript. Zu ihren Vorteilen gehört die intelligente Mustererkennung, die keine zusätzliche Konfiguration erfordert.
WebHarvy zeichnet sich durch seine Erschwinglichkeit aus: Die Basisversion der Software für einen Benutzer kostet 129 $ pro Jahr. Und für 699 $ können Sie eine Jahreslizenz mit einer unbegrenzten Anzahl von Benutzern im Konto erwerben.
Online-Dienste
Für diejenigen, die ihren Computer nicht überlasten möchten oder eine vorgefertigte Infrastruktur für die groß angelegte Datenerfassung benötigen, sind cloudbasierte Online-Dienste die ideale Wahl. Sie kümmern sich um alle technischen Hürden, von der Verwaltung von Proxys und der Umgehung von Sperren bis hin zur Bereitstellung von Daten über eine praktische API. Solche Plattformen ermöglichen es Ihnen, schnell mit der Informationsbeschaffung zu beginnen, ohne komplexe Installationen und Konfigurationen vornehmen zu müssen.
Import.io — eine Website zur Erfassung von Informationen im Internet in Echtzeit. Sie ermöglicht es Ihnen, Telefonnummern, IP-Adressen, E-Mails und Bilder mit vollständiger Datenanalyse zu extrahieren. Mehr als 100 Webquellen stehen für die gleichzeitige Arbeit zur Verfügung.
Import.io bietet keine kostenlose oder Testversion an. Es gibt zwei Haupttarife — Fully Managed und Self-Service Solution, und der Preis für beide wird von einem Service-Manager individuell berechnet, abhängig von Ihren Aufgaben und Bedürfnissen.
Diffbot — ein Parsing-Dienst zum Sammeln von Daten von Unternehmenswebsites, Nachrichtenseiten und Produktkatalogen. Er ist für die Arbeit mit großen Informationsmengen konzipiert, wobei Kunden nur Zugang zu einer englischsprachigen Webversion haben.
Die kostenlose Version von Diffbot bietet recht viele Parsing-Funktionen und wird ohne die Verknüpfung einer Bankkarte aktiviert. Kostenpflichtige Tarife beginnen bei 299 $ pro Monat.
Apify — ein Datenerfassungsdienst, der seit 2015 in Betrieb ist. Er fungiert als einfache und zugängliche Web-Umgebung, die nur Frontend-JavaScript verwendet. Mit Apify können Sie beliebige Informationen von Websites sammeln und strukturieren, mit anschließendem Export nach CSV, Excel oder JSON.
Apify hat eine kostenlose Version, beinhaltet jedoch eine Zahlung von 0,3 $ für jede neue Recheneinheit. Der Starter-Tarif kostet 29 $, und der teuerste Business-Tarif liegt bei 999 $ pro Monat.
ScraperAPI— ein System zur Datenextraktion aus dem Internet mit flexiblen Lösungen für Einzelnutzer und große Unternehmen. Ein einzigartiger Vorteil des Dienstes ist seine Funktion zur Erkennung und Umgehung von Bot-Schutzmaßnahmen, wodurch fast alle seine Anfragen die Websites erreichen und mit einem Ergebnis zurückkehren.
ScraperAPI hat keine komplett kostenlose Version, aber Sie können eine 7-tägige Testversion mit eingeschränkten Funktionen nutzen. Für den persönlichen Gebrauch oder kleine Projekte ist der kleinste Hobby-Tarif zum Preis von 49 $ pro Monat perfekt; teurere Servicepakete kosten zwischen 149 $ und 475 $ pro Monat und bieten eine erhebliche Erweiterung des Anfragevolumens und der Datenspeicherdauer.
WebScraper — ein Parsing-Programm, das für die Arbeit mit Big Data entwickelt wurde, einschließlich Datenbanken, Produktkatalogen und verschiedenen Listen. Es verfügt über eine intuitive Benutzeroberfläche und funktioniert perfekt mit komplexen Websites, die eine mehrstufige Navigation aufweisen.
In der kostenlosen Version funktioniert WebScraper als Browser-Erweiterung mit einem Minimum an Arbeitsfunktionen, die nur den Datenexport nach CSV und XLSX umfassen. Daher ist es besser, mit dem Project-Tarif zum Preis von 50 $ pro Monat zu beginnen: Er bietet fast alle notwendigen Ressourcen für das Parsing, und Sie können sich auch für eine kostenlose einwöchige Testphase anmelden. Die Pakete Professional und Scale für 100 $ bzw. ab 200 $ pro Monat erhöhen die Anzahl der verfügbaren Links, parallelen Aufgaben und die Dauer der Datenspeicherung.
Nischen-Tools
Parsing kann nicht nur allgemein, sondern auch für spezifische berufliche Aufgaben eingesetzt werden. Eine eigene Nische nehmen hochspezialisierte Tools ein, die auf eine bestimmte Art von Daten oder Quelle zugeschnitten sind. Sie eignen sich nicht für universelle Aufgaben, sind aber nützlich für die Arbeit in bestimmten Bereichen.
Screaming Frog SEO Spider — ein Nischen-Tool für SEO-Spezialisten, das es ermöglicht, Website-Audits durchzuführen und Ungenauigkeiten darin zu identifizieren. So kann die Software fehlerhafte Seiten, doppelte Titel, Seiten mit fehlenden Beschreibungen und generell alle Seiten mit bestimmten sich wiederholenden Fragmenten erkennen. In die Suchleiste können Sie nicht nur die gesamte Website, sondern auch eine Reihe ausgewählter Seiten eingeben.
Die kostenlose Version des Screaming Frog SEO Spider ermöglicht ein begrenztes Daten-Parsing mit einem Limit von 500 URL-Links. Die kostenpflichtige Version eröffnet unbegrenzte Möglichkeiten für Parsing und Crawling und kostet 279 $ pro Jahr.
Netpeak Spider — ein fortschrittlicher Parser zur Untersuchung von Webressourcen und zur Fehlersuche darin. Der Dienst ermöglicht es Ihnen, Code-Fehler, falsch konfigurierte Weiterleitungen, Duplicate Content und andere Probleme zu identifizieren. Alle erhaltenen Informationen können im Excel-Format exportiert werden.
Netpeak Spider bietet eine 14-tägige Testversion. Kostenpflichtige Lösungen beginnen bei 20 $ monatlich, und der teuerste Tarif liegt bei 99 $ pro Monat.
Scrapingdog — ein Parsing-Programm mit der Fähigkeit, eine Vielzahl von Aufgaben zu lösen, das jedoch am häufigsten zum Sammeln von Daten aus dem sozialen Netzwerk LinkedIn verwendet wird. Der Dienst ermöglicht es Ihnen, Unternehmens- und Benutzerprofile nach ausgewählten Kriterien zu sammeln und exportiert die Daten im JSON-Format.
Sie können Scrapingdog 30 Tage lang kostenlos nutzen. Danach müssen Sie den Dienst abonnieren: Dies kostet mindestens 90 $ pro Monat und maximal 500 $ pro Monat (Business-Tarif).
Fazit
Parsing ist eine unverzichtbare Phase im Prozess des Online-Geldverdienens für Spezialisten aus vielen Online-Bereichen. Mit Hilfe von Parsing können Sie schnell öffentlich zugängliche Daten sammeln. Es gibt im Internet zahlreiche Dienste, die Parsing-Dienstleistungen für eine Vielzahl von Themen oder mit spezifischen Funktionen anbieten – wählen Sie denjenigen aus, der Ihre Aufgaben am besten löst, und machen Sie sich an die Arbeit. In zukünftigen Artikeln werden wir tiefer in das Thema Parsing eintauchen und ausführlicher über diese Technologie und die Dienste sprechen, die ihre Umsetzung ermöglichen.
Hier finden Sie die häufigsten Fragen und ihre Antworten

Was ist ClientRects
Hallo, liebe Freunde. Heute werden wir über den Browser-Fingerprint namens Client Rects sprechen. Nutzer begannen erstmals 2016 über diesen Fingerprint zu sprechen, nachdem die erste grundlegende und einfache Möglichkeit zu seiner Überprüfung im Browserleaks-Checker aufgetaucht w

Warum IP-Sauberkeit wichtig ist und wie man sie überprüft?
Die Sauberkeit einer IP-Adresse ist von entscheidender Bedeutung, wenn Sie ungehinderten Zugriff auf Webressourcen, kein Risiko von Sperren und eine erfolgreiche Zustellung von E-Mail-Kampagnen benötigen. Im heutigen Artikel werden wir aufschlüsseln, was saubere IPs sind, mit wel

SOCKS5-Proxy - Was er ist, wie er funktioniert und wie er sich von HTTP unterscheidet
Bei der Arbeit mit Proxys stellt sich oft die Frage nach der Wahl des richtigen Protokolls. Einige Proxys sind nur für HTTP- und HTTPS-Anfragen ausgelegt, während andere für die Übertragung jeder Art von Netzwerkdaten geeignet sind. SOCKS5 gehört zur zweiten Kategorie.