karanlık proxyscrape logo

How To Scrape Twitter Using Python- The Easy Approach in 2024

Nasıl yapılır, Python, Aralık-03-20225 dakika okuma

"Büyük veri" denildiğinde pek çok site bu kelimeyle ilişki kuramaz. Ancak Twitter bunu yapabilir çünkü platformunda günde 500 milyondan fazla tweet atılıyor ve bunların büyük bir kısmı resim, metin ve videolardan oluşuyor. Tek bir tweet size şu konularda bilgi verebilir:

  • Tweeti gören kişi sayısı
  • Tweeti beğenen veya retweetleyen kişilerin demografik özellikleri
  • Profilinize yapılan toplam tıklama sayısı

Diğer birçok sosyal medya platformunun aksine Twitter, platformundaki verilere erişmek için kullanılabilecek çok kolay, pahalı ve ücretsiz bir genel API'ye sahiptir. Ayrıca canlı Twitter verilerine erişmek için bir akış API'si de sağlar. Bununla birlikte, API'lerin bir pencere süresi içinde gönderebileceğiniz istek sayısı üzerinde bazı sınırları vardır. İstenen verilere API'ler aracılığıyla erişemediğinizde Twitter Kazıma ihtiyacı ortaya çıkar. Kazıma, Twitter'dan veri toplama işlemini otomatikleştirir, böylece bu verileri elektronik tablolarda, raporlarda, uygulamalarda ve veritabanlarında kullanabilirsiniz. 

Twitter verilerini kazımak için python koduna dalmadan önce, neden Twitter verilerini kazımamız gerektiğini görelim.

Python kullanarak Twitter'ı nasıl kazıyacağınızı öğrenmek için herhangi bir bölüme atlamaktan çekinmeyin!

İçindekiler

Twitter'ı Neden Kazımanız Gerekiyor?

Twitter'ın bir mikro blog sitesi ve kazıyabileceğiniz zengin bilgileri barındıran ideal bir alan olduğunu biliyorsunuz. Peki bu bilgileri neden kazımanız gerektiğini biliyor musunuz?

Aşağıda, araştırmacılara yardımcı olan Twitter verilerini kazıma nedenlerinden bazıları verilmiştir:

  • Twitter ağınızı ve tweetlerinizin etkisini anlama
  • Kullanıcı adları aracılığıyla kimden bahsedildiğini bilmek
  • Bilginin nasıl yayıldığının incelenmesi
  • Trendlerin zaman içinde nasıl geliştiğini ve değiştiğini keşfetmek
  • Ağların ve toplulukların incelenmesi
  • Tweetlerin ve kişilerin popülerliğini/etkisini bilmek
  • Tweet atanlar hakkında aşağıdakileri içerebilecek verileri toplamak:
    • Arkadaşlar
    • Takipçiler
    • Favoriler
    • Profil resmi
    • Kayıt tarihi vb.

Benzer şekilde Twitter kazıma da pazarlamacılara yardımcı olabilir:

  • Rakiplerini etkin bir şekilde izleme
  • İlgili tweetlerle pazarlama kitlesini hedefleme
  • Duygu analizi gerçekleştirme
  • Pazar markalarının izlenmesi
  • Büyük pazar etkileyicileri ile bağlantı kurmak
  • Müşteri davranışlarının incelenmesi

Python Kullanarak Twitter Nasıl Kazınır?

Twitter verilerini yapılandırılmış bir biçimde kazımak için birçok araç mevcuttur. Bunlardan bazıları şunlardır:

  • Güzel Çorba - HTML ve XML belgelerini ayrıştıran bir Python paketidir ve Twitter'ı kazımak için çok kullanışlıdır.
  • Twitter API tweet indirme, kullanıcı arama ve çok daha fazlası gibi API isteklerini gerçekleştiren bir Python sarmalayıcıdır. OAuth anahtarlarını almak ve Twitter API'sine erişmek için bir Twitter uygulaması oluşturabilirsiniz.
  • Twitter Kazıyıcı - Twitter verilerini anahtar kelimelerle veya diğer özelliklerle kazımak için Twitter Scraper'ı kullanabilirsiniz

Python'un twitterscraper kütüphanesini kullanarak belirli bir konu için tweetleri nasıl kazıyacağımızı görelim.

Twitterscraper'ı yükleyin

Aşağıdaki komutu kullanarak twitterscraper kütüphanesini kurabilirsiniz:

!pip install twitterscraper

En son sürümü yüklemek için aşağıdaki komutu kullanabilirsiniz.

!pip install twitterscraper==1.6.1

VEYA

!pip install twitterscraper --upgrade

Kütüphaneleri İçe Aktar

Üç şey ithal edeceksiniz, yani..;

  1. get_tweets
  2. pandalar

from twitter_scraper import get_tweets
import pandas as pd

Teknik Özelliklerden Bahsedin

Aşağıdaki hashtag listesini kazımakla ilgilendiğimizi varsayalım:

  • Makine öğrenimi
  • Derin öğrenme
  • NLP
  • Bilgisayarla Görme
  • YAPAY ZEKA
  • Tensorflow
  • Pytorch
  • Veri Bilimi 
  • Veri analizi vb.

keywords = ['machinelearning', 'ML', ' deeplearning', 
           '#artificialintelligence', ' #NLP', ' computervision', ' AI', 
           'tensorflow', 'pytorch', " sklearn", " pandas", "plotly", 
           "spacy", "fastai", 'datascience', 'dataanalysis']

.

DataFrame Oluştur

get_tweets kütüphanesinin nasıl uygulanacağını anlamak için bir iterasyon çalıştırıyoruz. İlk argümanımızı veya konumuzu tweet'lerini toplamak istediğimiz bir hashtag olarak iletiyoruz. 

tweets = get_tweets("#machinelearning", pages = 5)

Burada tweet bir nesnedir. Aşağıdaki kodu kullanarak bir Pandas DataFrame oluşturmamız gerekiyor:

tweets_df = pd.DataFrame()

Anahtarları ve elde edilen değerleri yazdırmak için aşağıdaki fonksiyonu kullanırız.

for tweet in tweets:
 print('Anahtarlar:', list(tweet.keys()), '\n')
  Mola

Görüntülenen tuşlar aşağıdaki gibidir:

İlgili Verileri Çıkarın

Şimdi, kodu bir anahtar kelime için çalıştırıyoruz ve ilgili verileri çıkarıyoruz. Aşağıdaki verileri çıkarmak istediğimizi varsayalım:

  • Metin
  • isRetweet
  • cevaplar
  • retweetler
  • seviyor

Bu verileri ayıklamak için for döngüsünü kullanabilir ve ardından verilerimizin ilk beş satırını almak için head() işlevini kullanabiliriz.

for tweet in tweets:
  _ = pd.DataFrame({'text' : [tweet['text']],
                    'isRetweet' : tweet['isRetweet'],
                    'replies' : tweet['replies'],
                    'retweets' : tweet['retweets'],
                    'likes' : tweet['likes']
                    })
  tweets_df = tweets_df.append(_, ignore_index = True)
tweets_df.head()

İşte istediğimiz verileri içeren veri çerçevesi ve toplanan tüm tweetleri kolayca görselleştirebilirsiniz. 

Twitter'dan tweetleri hurdaya çıkardığınız için tebrikler. Şimdi Twitter proxy'lerine olan ihtiyacı anlamaya geçiyoruz.

Neden Twitter Proxy'leri Kullanılmalı?

Hiç yapmamanız gereken bir şey paylaştınız mı? Twitter proxy'leri, takipçi kitlesini uzun bir süre boyunca yeni içerik olmadan bırakmayı göze alamayan kullanıcılar için en iyi çözümdür. Onlar olmadan şansınız olmaz ve etkinlik eksikliği nedeniyle takipçilerinizi kaybedebilirsiniz. Bu proxy'ler bilgisayarınız adına hareket eder ve IP adresinizi Twitter sunucularından gizler. Böylece hesabınız engellenmeden platforma erişebilirsiniz.

Twitter verilerini kazımak için bir kazıma aracı kullandığınızda da uygun bir proxy'ye ihtiyacınız vardır. Örneğin, dünyanın dört bir yanındaki pazarlamacılar, Twitter'ı değerli pazar bilgileri için çok kısa sürede kazımak için kazıma araçlarıyla birlikte Twitter otomasyon proxy'lerini kullanıyor.

Konut Proxy'leri - Hızlı, güvenli, güvenilir ve uygun maliyetli olan konut proxy'lerini kullanabilirsiniz. Güvenli ve yasal İnternet Servis Sağlayıcı IP'leri oldukları için son derece yüksek kaliteli bir deneyim sunarlar.

Otomasyon araçları - Twitter proxy'si kullanırken bir otomasyon aracı da kullanabilirsiniz. Bu araçlar, aynı anda birçok görevi yerine getirebildikleri için birden fazla hesabın yönetilmesine yardımcı olur.

Örneğin, TwitterAttackPro sizin için neredeyse tüm Twitter görevlerini yerine getirebilen harika bir araçtır:

  • Takip etme/takipten çıkma
  • Tweetleme/Retweetleme
  • Bir yoruma yanıt verme
  • Favoriler

Bu otomasyon araçlarını kullanmak için bir Twitter proxy'si kullanmanız gerekir. Bunu yapmazsanız, Twitter tüm hesaplarınızı yasaklayacaktır.

Python Kullanarak Twitter'ı Kazımak İçin En İyi Proxy Hangisi?

ProxyScrape çevrimiçi en popüler ve güvenilir proxy sağlayıcılarından biridir. Üç proxy hizmeti arasında özel veri merkezi proxy sunucuları, konut proxy sunucuları ve premium proxy sunucuları bulunur. Peki, python kullanarak Twitter'ı kazımak için mümkün olan en iyi proxy nedir? Bu soruyu yanıtlamadan önce, her bir proxy sunucusunun özelliklerini görmek en iyisidir.

Özel bir veri merkezi proxy'si analiz amacıyla çeşitli sunuculardan büyük miktarda veri (boyut açısından) akışı gibi yüksek hızlı çevrimiçi görevler için en uygunudur. Bu, kuruluşların kısa sürede büyük miktarda veri iletmek için özel proxy'leri seçmelerinin ana nedenlerinden biridir.

Özel bir veri merkezi proxy'si, sınırsız bant genişliği ve eşzamanlı bağlantılar, kolay iletişim için özel HTTP proxy'leri ve daha fazla güvenlik için IP kimlik doğrulaması gibi çeşitli özelliklere sahiptir. 99,9 çalışma süresi ile, özel veri merkezinin herhangi bir oturum sırasında her zaman çalışacağından emin olabilirsiniz. Son olarak, ProxyScrape mükemmel müşteri hizmetleri sunar ve sorununuzu 24-48 iş saati içinde çözmenize yardımcı olur. 

Sırada bir konut proxy'si. Konut, her genel tüketici için gidilecek bir proxy'dir. Bunun ana nedeni, bir konut proxy'sinin IP adresinin ISP tarafından sağlanan IP adresine benzemesidir. Bu, hedef sunucudan verilerine erişmek için izin almanın normalden daha kolay olacağı anlamına gelir. 

ProxyScrape'un konut proxy'sinin diğer bir özelliği de dönen bir özelliktir. Dönen proxy, hesabınızın kalıcı olarak yasaklanmasını önlemenize yardımcı olur çünkü konut proxy'niz IP adresinizi dinamik olarak değiştirerek hedef sunucunun proxy kullanıp kullanmadığınızı kontrol etmesini zorlaştırır. 

Bunun dışında, bir konut proxy'sinin diğer özellikleri şunlardır: eşzamanlı bağlantıyla birlikte sınırsız bant genişliği, özel HTTP / s proxy'leri, proxy havuzundaki 7 milyondan fazla proxy nedeniyle herhangi bir zaman oturumunda proxy'ler, daha fazla güvenlik için kullanıcı adı ve şifre kimlik doğrulaması ve son olarak, ülke sunucusunu değiştirme yeteneği. Ülke kodunu kullanıcı adı kimlik doğrulamasına ekleyerek istediğiniz sunucuyu seçebilirsiniz. 

Sonuncusu ise premium proxy. Premium proxy'ler özel veri merkezi proxy'leri ile aynıdır. İşlevsellik aynı kalır. Temel fark erişilebilirliktir. Premium proxy'lerde, proxy listesi (proxy'leri içeren liste) ProxyScrapeağındaki her kullanıcı için kullanılabilir hale getirilir. Bu nedenle premium proxy'ler özel veri merkezi proxy'lerinden daha ucuzdur.

Peki, python kullanarak Twitter'ı kazımak için mümkün olan en iyi proxy nedir? Cevap "konut proxy 'si" olacaktır. Nedeni basittir. Yukarıda belirtildiği gibi, konut proxy'si dönen bir proxy'dir, yani IP adresiniz belirli bir süre boyunca dinamik olarak değişecektir, bu da IP bloğu almadan küçük bir zaman dilimi içinde çok sayıda istek göndererek sunucuyu kandırmaya yardımcı olabilir. 

Daha sonra, en iyi şey proxy sunucusunu ülkeye göre değiştirmek olacaktır. IP kimlik doğrulamasının veya kullanıcı adı ve parola kimlik doğrulamasının sonuna ülke ISO_CODE'unu eklemeniz yeterlidir. 

SSS:

1. Python kullanarak Twitter nasıl kazınır?
"twitterscraper" olarak adlandırılan bir python kütüphanesi yardımıyla python kullanarak Twitter'ı kazıyabilirsiniz. Diğer kazıma kütüphanelerine kıyasla kullanımı çok daha kolaydır. Bu kütüphane ile retweetler, yanıtlar, yorumlar ve çok daha fazlası gibi verileri hızlı bir şekilde kazıyabilirsiniz.
2. Twitter'ı kazımak yasal mı?
Duruma göre değişir. Twitter'dan herkese açık verileri herhangi bir sorun olmadan kazıyabilirsiniz. Ancak kısa bir süre içinde anormal sayıda istek gönderirseniz Twitter sizi engelleyebilir. IP adresinizi gizlemek için bir proxy kullanmak daha iyidir.
3. Python kullanarak Twitter'ı kazımak için en iyi proxy nedir?
Bir konut proxy'si, python kullanarak Twitter'ı kazımak için en iyi proxy'dir. Nedeni basittir. Konut proxy'si dönen bir proxy'dir, yani IP adresiniz belirli bir süre boyunca dinamik olarak değiştirilir ve bu da IP bloğu almadan küçük bir zaman dilimi içinde çok sayıda istek göndererek sunucuyu kandırmaya yardımcı olabilir.

Sonuç

Twitter API'lerini ve kazıyıcıları kullanarak Twitter'ı kazıyabileceğinizden bahsetmiştik. Yukarıda yaptığımız gibi, anahtar kelimeleri ve diğer özellikleri belirterek Twitter'ı kazımak için bir Twitter kazıyıcı kullanabilirsiniz. Daha geniş bir erişim için birden fazla Twitter hesabına sahip olmak isteyen sosyal medya pazarlamacıları, hesapların yasaklanmasını önlemek için Twitter proxy'leri kullanmalıdır. En iyi proxyler, süper hızlı olan ve asla engellenmeyen konut proxyleridir. 

Umarım Python kullanarak Twitter'ı nasıl kazıyacağınız hakkında bir fikir edinmişsinizdir.