آموزش کراولینگ، اسکرپینگ

بعد از نصب پایتون و پایچارم:

باید دقت داشت سیستم به وی پی متصل باشد. یا تحریم شدیم یا فیلتر – لعنت به هر دو

نصب کتابخانه:

نمایش کتابخانه های نصب شده در cmd دستور زیر تایپ شود

pip list

نصب کتابخانه virtualenv

pip install virtualenv

با دستورcd به پوشه ی مورد نظر برای پروژه می رویم و سپس با دستور vitualenv test

پروژه رو ایجاد می کنیم ( در اینجا نام پروژه test  می باشد)

سپس با cd وارد پوشه scripts شده و دستور activate را می زنیم

کتابخانه requests  و bs4 را هم نصب می کنیم.

توی پارچارم با اوپن کردن فایل پروژه ای که ساختیم test  می شه ادامه ی کار و از طریق پای انجام داد.

در فایرفاکس با کلیک راست روی پیج لود شده، گزینه inspect یک سری اطلاعات از سورس وبسایت نمایش داده می شه. مانند librarie ها و نحوه ی اتصال آنها.

9 روش برای ارسال درخواست به کتابخانه های سایت داریم. requset librarie  . متد get  درج ادرس در url  می شود متد get  برای درخواست از کتابخانه. وقتی داریم داده ارسال می کنیم مثل پر کردن فرم از متد post   استفاده می کنیم.

status code  وضعیت درخواست . 200 اوکی . 404 پیدا نکردن صفحه .

برای شروع کار با کتابخانه requests در پایچارم:

import requests

url = https:/www…com

respons = requests.get(url)

print(response)

 

در ادامه انواع requests get

نمایش نوع درخواست : request – get  یا post

print(response.request)

مشخص کردن اطلاعاتی که ما درخواست کردیم

print(response.request.headers)

مشخص کردن وضعیت درخواست  نمایش عددی / 200 –   404

print(response.status_cod)

وضعیت درخواست مشخص می کند به صورت نوشتاری . OK

print(response.reason)

هم request  و هم  erespons . پاسخ کلی در مورد درخواست کننده و سرور

print(response.headers)

کاربردی ترین متد . کل سورس کد صفحه را نمایش می دهد

print(response.text)

اگر به جای url ادرس فایل عکس یا چیزهای دیگر بزاریم، با متد گت می تونیم فایل و دریافت کنیم

import requests

url = https:/www…com/xxx.jpg

respons = requests.get(url)

with open(‘1.jpg’, ‘web’) as r:

r.write(response.content)

 

 

ادامه دارد …

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *