yardım etmek mi istiyorsunuz? İşte seçenekleriniz:","Crunchbase","Hakkımızda","Muhteşem destek için herkese teşekkürler!","Hızlı Bağlantılar","Ortaklık programı","ProxyScrape premium deneme","Çevrimiçi Proxy Denetleyicisi","Proxy türleri","Vekil ülkeler","Proxy kullanım durumları","Önemli","Çerez politikası","Sorumluluk Reddi","Gizlilik Politikası","Şartlar ve koşullar","Sosyal Medya","Facebook","LinkedIn","Twitter","Quora","Telgraf","Discord"," © Telif Hakkı 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belçika | KDV BE 0749 716 760"]}
İyi bir müşteri kitlesine sahip olmanın en kolay yollarından biri, mümkün olduğunca çok sayıda iş e-posta adresine sahip olmak ve onlara hizmet detaylarınızı tekrar tekrar göndermektir. İnternette bu hizmetleri ücretsiz olarak sağlayan birçok kazıma aracı vardır, ancak bunların veri çekme limitleri vardır. Ayrıca sınırsız veri çekme limiti sunarlar, ancak ücretlidirler. Kendi ellerinizle bir tane oluşturabilecekken neden onlara ödeme yapasınız ki? Python kullanarak kaliteli bir kazıma aracı oluşturmanın adımlarını tartışalım.
Yeni başlayanlar için çok basit bir örnek olsa da, özellikle web kazıma konusunda yeni olanlar için bir öğrenme deneyimi olacaktır. Bu, herhangi bir sınırlama olmaksızın e-posta adreslerini almanıza yardımcı olacak adım adım bir öğretici olacaktır. Akıllı web kazıyıcımızın yapım süreci ile başlayalım.
Projemiz için aşağıdaki altı modülü kullanacağız.
İthal edilen modüllerin detayları aşağıda verilmiştir:
Bu adımda, kazınmış URL'leri, kazınmamış URL'leri ve web sitelerinden başarıyla kazınmış bir dizi kaydedilmiş e-postayı kaydedecek bir deque başlatacağız.
Bir kümede yinelenen öğelere izin verilmez, bu nedenle hepsi benzersizdir.
urlsplit() 5-tuple döndürür: (adresleme şeması, ağ konumu, yol, sorgu, parça, tanımlayıcı).
Gizli nedenlerden dolayı urlsplit() için örnek giriş ve çıkışları gösteremiyorum, ancak bir kez denediğinizde, kod sizden bir değer (web sitesi adresi) girmenizi isteyecektir. Çıktı SplitResult()'ı gösterecek ve SplitResult()'ın içinde beş özellik olacaktır.
Bu, web sitesi URL'si için taban ve yol kısmını almamızı sağlayacaktır.
The <a href=””> tag indicates a hyperlink that can be used to find all the linked URLs in the document.
Ardından yeni URL'leri bulacağız ve kazınmış veya kazınmamış kuyruğunda değillerse bunları kazınmamış kuyruğuna ekleyeceğiz.
Kodu kendi başınıza denediğinizde, tüm bağlantıların kazınamadığını fark edeceksiniz, bu yüzden onları da hariç tutmamız gerekiyor,
Sonuçları daha iyi bir şekilde analiz etmek için e-postaları CSV dosyasına aktaracağız.
Google Colab kullanıyorsanız, dosyayı yerel makinenize şu şekilde indirebilirsiniz
Daha önce de açıkladığım gibi, gizlilik sorunları nedeniyle hurdaya çıkarılan e-posta adreslerini gösteremiyorum.
[Yasal Uyarı! Bazı web siteleri web kazıma yapmaya izin vermez ve IP'nizi kalıcı olarak engelleyebilecek çok akıllı botlara sahiptir, bu nedenle riski kendiniz alın].
İşletmeler kişi listelerini oluşturmak için çok sayıda e-posta adresine ihtiyaç duyduklarından, birden fazla kaynaktan veri toplamak gerekir. Manuel veri toplama süreci sıkıcı ve zaman alıcı olabilir. Bu durumda, kazıyıcılar genellikle süreci hızlandırmak ve önlerine çıkan kısıtlamaları atlamak için proxy'leri tercih ederler. Proxyscrape , sınırsız veri kazıyabilen ve kesintisiz işlevsellik sağlamak için 7/24 çalışan yüksek bant genişliğine sahip proxy'ler sağlar. Proxy anonimlik seviyeleri, kazıyıcıların kimliğini gizleyecek kadar yüksektir.
Nitelikli e-posta adreslerinden oluşan bir potansiyel iletişim listesi oluşturmak, hedef kitleye ulaşma sürecini kolaylaştıracaktır. Çoğu insan iletişim aracı olarak e-postayı kullandığından, e-posta adresleri aracılığıyla onlara ulaşmak oldukça kolaydır.
E-posta adreslerini birden fazla kaynaktan kazırken, kazıyıcılar IP blokları veya coğrafi engeller gibi bazı zorluklarla karşılaşabilir. Bu durumda, proxy'ler kullanıcıların adreslerini proxy adresi ile gizleyecek ve engellenen web sitelerine erişimdeki engelleri kaldıracaktır.
Kamuya açık verileri toplamak her zaman yasaldır. Bu nedenle, kazıyıcılar topladıkları verilerin kamu malı olduğundan emin olmalıdır. Değilse, kazıma işleminde yasallığı korumak için önceden izin alarak veri toplayabilirler.
Bu makalede, e-posta adreslerini kazımanın pratik bir örneğini göstererek web kazımanın bir harikasını daha keşfettik. Web tarayıcımızı Python kullanarak yaparak en akıllı yaklaşımı denedik ve BeautfulSoup adlı en kolay ve yine de en güçlü kütüphane. Web Kazıma, gereksinimleriniz göz önünde bulundurularak doğru şekilde yapılırsa çok yardımcı olabilir. E-posta adreslerini kazımak için çok basit bir kod yazmış olsak da, tamamen ücretsizdir ve bunun için başka hizmetlere güvenmenize gerek yoktur. Kodu mümkün olduğunca basitleştirmek için elimden gelenin en iyisini yapmaya çalıştım ve ayrıca kendi gereksinimlerinize göre optimize etmeniz için özelleştirme için yer ekledim.