آموزش کراولینگ، اسکرپینگ

۱۰بهمن ۱۴۰۲ by رهگذر No Comments

بعد از نصب پایتون و پایچارم:

باید دقت داشت سیستم به وی پی متصل باشد. یا تحریم شدیم یا فیلتر – لعنت به هر دو

نصب کتابخانه:

نمایش کتابخانه های نصب شده در cmd دستور زیر تایپ شود

pip list

نصب کتابخانه virtualenv

pip install virtualenv

با دستورcd به پوشه ی مورد نظر برای پروژه می رویم و سپس با دستور vitualenv test

پروژه رو ایجاد می کنیم ( در اینجا نام پروژه test می باشد)

سپس با cd وارد پوشه scripts شده و دستور activate را می زنیم

کتابخانه requests و bs4 را هم نصب می کنیم.

توی پارچارم با اوپن کردن فایل پروژه ای که ساختیم test می شه ادامه ی کار و از طریق پای انجام داد.

در فایرفاکس با کلیک راست روی پیج لود شده، گزینه inspect یک سری اطلاعات از سورس وبسایت نمایش داده می شه. مانند librarie ها و نحوه ی اتصال آنها.

9 روش برای ارسال درخواست به کتابخانه های سایت داریم. requset librarie . متد get درج ادرس در url می شود متد get برای درخواست از کتابخانه. وقتی داریم داده ارسال می کنیم مثل پر کردن فرم از متد post استفاده می کنیم.

status code وضعیت درخواست . 200 اوکی . 404 پیدا نکردن صفحه .

برای شروع کار با کتابخانه requests در پایچارم:

import requests

url = https:/www…com

respons = requests.get(url)

print(response)

در ادامه انواع requests get

نمایش نوع درخواست : request – get یا post

print(response.request)

مشخص کردن اطلاعاتی که ما درخواست کردیم

print(response.request.headers)

مشخص کردن وضعیت درخواست نمایش عددی / 200 – 404

print(response.status_cod)

وضعیت درخواست مشخص می کند به صورت نوشتاری . OK

print(response.reason)

هم request و هم erespons . پاسخ کلی در مورد درخواست کننده و سرور

print(response.headers)

کاربردی ترین متد . کل سورس کد صفحه را نمایش می دهد

print(response.text)

اگر به جای url ادرس فایل عکس یا چیزهای دیگر بزاریم، با متد گت می تونیم فایل و دریافت کنیم

import requests

url = https:/www…com/xxx.jpg

respons = requests.get(url)

with open(‘1.jpg’, ‘web’) as r:

r.write(response.content)

ادامه دارد …

آموزش کراولینگ، اسکرپینگ

دیدگاهتان را بنویسید لغو پاسخ