Es gibt immer mehr zum Teil Cloud-basierte Apps, die das saubere Crawlen von Webseiten erlauben und darin enthaltene Daten extrahieren können. Ein besonders populäres Beispiel ist Kimono – eine App, die sowohl für Mac als auch Windows zur Verfügung steht – und die als kostenloser Webscraper eingesetzt werden kann.
Mit Hilfe von Kimono lassen sich Inhalte aus Webseiten so aufbereiten, dass sie anschliessend als standardisierter RSS-Feed, als Datenpaket im JSON-Format oder – sofern die Kimonolabs Cloud-Infrastruktur genutzt wird auch via eigener API (z.B. zur Weiterverwendung in eigenen Apps und Services) abrufen lassen.
Da die Kimonolabs nun den Onlinedienst einstellen und nur noch die Kimono Desktop Lösungen zur Verfügung stellen, die einen ähnlichen Funktionsumfang aufweisen aber eben auf die API verzichten, lohnt sich einmal ein Blick auf alternative Angebote.
Hier sind uns als online basierte Alternativen zu Kimono bislang folgende Dienste aufgefallen:
- Import.io – Extract web data the easy way. The world’s leading web data extraction platform for businesses and individuals.
- APIFIER – Web crawler that works on every website – free for developers (max. 40k pages/month).
- Scrapinghub – Turn web content into useful data. Scrapinghub provides a cloud-based web crawling platform, off-the-shelf datasets, and turn-key web scraping services.
- Parsehub – Turn dynamic websites into APIs (Free for 5 Public Project, 5 Pages/Minute, 200 Pages per Run).
- Scrapy – An open source and collaborative framework for extracting the data you need from websites. In a fast, simple, yet extensible way.
- Scrapinghub/Portia – Portia is the open source tool used in Scrapinghub that allows you to visually scrape websites without any programming knowledge required. With Portia you can annotate a web page to identify the data you wish to extract, and Portia will understand based on these annotations how to scrape data from similar pages.
Wir schauen uns diese Alternativen zu Kimono einmal in Ruhe an und ergänzen unsere Einschätzungen/Empfehlungen fortlaufend.
Welche Webscraping Lösung nutzt ihr und welche Erfahrungen habt ihr damit gemacht?