Unixga o'xshash tizimlarda veb-saytlarni qanday arxivlash mumkin

Link rot (eski saytlar va sahifalar yo'q bo'lib, havolalarni foydasiz holga keltiradigan hodisa) Internetda juda katta muammodir. [1] Eski veb-saytlar endi yo'q bo'lganda, o'quvchilar uchun bu umidsizlikka uchraydi. Internetda yozuvlari juda havolali havolaga ega bo'lgan yozuvchilar uchun havolalar o'lganda ma'lumotni tekshirishning iloji yo'q. Qanday motivatsiya bo'lishidan qat'i nazar, Internetda ma'lumotlarni arxivlash imkoniyatiga ega bo'lish juda muhimdir.
Saytni arxivlashga bo'lgan motivlaringizni tushunib oling. Saytni arxivlashda nima qilishga harakat qilayotganingizni bilish juda muhimdir.
  • Veb-saytni arxivlashtirishni istashining bir nechta sabablari bor va ular sizning strategiyangizga ta'sir qiladi: Siz shunchaki sayt arxivi bo'lishini xohlashingiz mumkin, bu kimga xizmat qilishi haqida qayg'urmasdan. Agar shunday bo'lsa, "Veb-saytning so'nggi arxivlari bor-yo'qligini tekshiring" bosqichiga qarang. Shaxsiy nusxangizni saqlashni xohlashingiz mumkin (ya'ni arxivni mahalliy joyda saqlang). Agar siz boshqalarni arxivni onlayn saqlashiga ishonmasangiz (masalan, sayt mazmuni mualliflik huquqi bilan himoyalangan yoki noqonuniy bo'lsa, u olib tashlanishi mumkin, bu holda mahalliy nusxalarini olish xavfsizroq bo'ladi). Siz ma'lum vaqt ichida faqat saytning suratini olishni xohlashingiz mumkin. Agar biror narsa yozayotgan bo'lsangiz va iqtiboslaringizning barqaror bo'lishini istasangiz, bu holat bo'lishi mumkin; saytni resurs sifatida ishlatgan paytingizda, shunchaki saytning suratini olishingiz mumkin. Siz doimiy ravishda saytning suratlarini yaratishni xohlashingiz mumkin. Agar siz sayt tarkibiga yoki uning egalariga beparvolik bilan munosabatda bo'lsangiz, bu holat yuz berishi mumkin. Siz saytning faqat qismlarini istashingiz mumkin (masalan, siz keltirgan sahifalar).
  • E'tibor bering, yuqoridagi fikrlar bir-birini inkor etmaydi (garchi ba'zilari bir-biriga zid bo'lsa-da, saytning qismlarini butun sayt bilan taqqoslash kabi); boshqacha qilib aytganda, siz kimdirning arxivga ega bo'lishini xohlashingiz mumkin, o'zingiz o'zingizning arxivingizni saqlashingiz va doimiy suratlar bir vaqtning o'zida tayyorlanishini xohlashingiz mumkin.
Axlatlarni olish uchun sayt egalari bilan bog'laning. Ehtimol sayt egalari saytning zaxira nusxalarini sizga berish orqali majburlashlari mumkin. Ammo shuni yodda tutingki, bu sizning xohishingizni oshkor qiladi, shuning uchun ular nomaqbul munosabatda bo'lishlari mumkin (masalan, saytning parol bilan himoyalangan qismlari orqali).
Yaqinda veb-sayt arxivlari mavjudligini tekshiring. Shuni yodda tutish kerakki, ish bajarish qimmatga tushmaydi; Ishonish shuni anglatadiki, ishda noaniqlik bo'ladi. [2] Katta veb-saytlarni arxivlash ko'pincha ko'p vaqt va kuch talab qilishi mumkin. Agar boshqa birov siz uchun ishning asosiy qismini allaqachon bajargan bo'lsa, demak, vazifani yana takrorlashga majburlashning hojati yo'q.
  • Agar kimdir saytni yaqinda zaxiralashni amalga oshirgan bo'lsa, unda siz (agar siz boshqa birovning nusxasini olishini istasangiz) yoki bajarilish yaqin bo'lgan (agar siz bitta mahalliy rasmni olishni xohlasangiz; sizning vazifangiz aks ettirishgacha kamayadi). ularning zaxira nusxasi, bu asl vazifadan ancha osonroqdir).
  • Arxivlash to'g'risida qaror qabul qilishdan oldin tekshirish kerak bo'lgan bir nechta joylar mavjud (qolgan bosqichlarda keltirilgan): Archiveteam wiki. Arxiv jamoasi veb-saytlarni arxivlashga ixtisoslashgan ko'ngillilar guruhi. Ushbu vikida turli veb-saytlar va ularni arxivlash borasida erishilgan yutuqlar haqida ma'lumotlar mavjud. Qanday ish qilinganligini (agar mavjud bo'lsa) ko'rish uchun wiki-dan qidirib ko'ring. Arxiv jamoasi o'zlarining ARM (Internet relay chat) kanallarining ommaviy jurnallariga ham ega. Xususan, #archiveteam va # arxivteam-bs-ni qidirib ko'ring. Internet arxivi. Internet-arxivda turli veb-saytlarning keshlangan versiyalarining ulkan do'koni mavjud. Bunga qanday kirish to'g'risida ko'proq ma'lumot olish uchun Archiveteam-ning vikidagi qo'llanmani ko'ring. Google orqali qidirish. Sayt nomini izlang, so'ng "arxiv" va "oyna" kabi so'zlarni izlang.
Saytni yuklab olish uchun maxsus vositalar mavjudligini tekshiring. Ba'zan muayyan tarkibni yuklab olish uchun maxsus vositalar mavjud. Masalan, ko'plab YouTube videolarini yuklab olishni xohlasangiz, ushbu vosita mavjud youtube-dl . Ko'pgina saytlarda tarkibiy qismlarga dasturiy ravishda osongina kirishga imkon beradigan API (ilova dasturlash interfeysi) mavjud. Bu masalan, reddit bilan bog'liq yaxshi hujjatlangan API (shunga qaramay, allaqachon mavjudligiga e'tibor bering redditning etarli darajada to'liq arxivi , o'zi reddit API yordamida yaratilgan).
Sayt ma'lum vaqt ichida qancha so'rovlar qilish imkoniyati cheklanganligini aniqlang. Agar yaqinda hech kim saytni arxivlamagan bo'lsa va saytni arxivlash uchun maxsus vositalar mavjud bo'lmasa, unda siz o'zingizsiz. Siz mo'ljallayotgan sayt tarkibni qancha yoki qanchalik tez yuklab olishingiz mumkinligi to'g'risida maxsus qoidalar bor-yo'qligini aniqlash yaxshi. Ko'pgina saytlarda aniq belgilangan qoidalar mavjud, ular ko'pincha xizmat / foydalanish shartlari ostida ro'yxatga olinadi. Agar siz saytga kirishni cheklashni xohlashingizga shaxsan ahamiyat bermasangiz ham, bu yodda tutish kerak, chunki odamlar o'zlarining serverlarini haddan tashqari yuklamasliklari yoki "o'g'irlashi" uchun avtomatik IP taqiqlanishi (va boshqa choralar) bo'lishi mumkin. "ularning tarkibi.
  • Ushbu chegarani bosib o'tish usullarini bilish uchun "Arxivlashni tezlashtirish uchun bir nechta kompyuterlardan yoki IP-manzillardan foydalaning" bosqichiga qarang.
Saytda wget buyrug'ini ishlatib ko'ring. Wget - bu Internetdan tarkibni yuklab oladigan va sukut bo'yicha Unixga o'xshash ko'plab tizimlarda kiritilgan dastur. Ba'zida bitta wget buyrug'i saytni to'liq yoki ko'p qismini yuklab olishi mumkin. [3] Agar shunday bo'lsa, vazifa ahamiyatsiz bo'ladi. Ammo, boshqa ko'plab sahifalar bilan bog'lanishi mumkin bo'lgan sahifada tekshiruvni boshlash hali ham muhim, chunki wget boshlang'ich sahifadan boshlanadi ("urug '" deb nomlanadi) va ichki havolalarni rekursiv ravishda kuzatadi. Sayt sahifasini topish juda mosdir, agar sayt bo'lsa.
  • Bu erda juda ko'p foydali bayroqchalar mavjud buyruq: wget --mirror --page-rekvizitlari - - to'g'irlash-kengaytmasi --convert-havolalar \ --wait = 1 - tasodifiy kutish --no-klavber \ - e robotlar = o'chirilgan \ http://example.com/sitemap.html
  • Http://example.com/sitemap.html, shuningdek har qanday bayroqlarni sizning ehtiyojlaringizga mos ravishda o'zgartirganingizga ishonch hosil qiling. Bayroqlarning ma'nosi quyidagicha, lekin rasmiy rasmiy hujjatlar (yoki ma'lumotlar wget) va uning qo'llanmasiga (man man wget) murojaat qilishingiz kerak: -mirror saytni aks ettirish uchun qulay bo'lgan bir nechta variantlarni, shu qatorda quyidagi havolalarni ham o'z ichiga oladi. . - sahifa-rekvizitlari Wget-ni yuklab olish rasmlarini, uslublar jadvallarini va boshqa fayllarni asl nusxada sodda ko'rinishga olib kelishga yordam beradi. --adjust-kengaytmasi HTML fayllariga .html qo'shimchasini qo'shib, ularni mahalliy ko'rib chiqishni osonlashtiradi. - yuklab olingan fayllarni mahalliy ko'rib chiqish uchun mos keladigan tarzda o'zgartiradigan havolalar. - kutish = 1 kuchlar so'rovlar orasida 1 soniya kutishini kutishadi (ammo, keyingi variantni ham ko'ring). - tasodifiy-kutish tasodifiy ravishda doimiyni ko'paytiradi - har bir so'rov uchun kuting, shunda yuklab olish shakli kamroq shubhali bo'ladi Bu IP-ning taqiqlanishining oldini olishga yordam beradi. - klaviatura yangi nusxalarni yozish yoki yuklab olish o'rniga faylning mahalliy nusxalarini saqlab qoladi. Agar yuklab olish o'rtada to'xtatilgan bo'lsa, bu e'tiborga olinadigan narsa. -e robotlar = off saytning robots.txt fayliga rioya qilish bilan o'chadi. Ba'zi odamlar robots.txt-da qoidalarga rioya qilishni hurmatli deb bilishadi, lekin ba'zida robotlar.txt tomonidan barcha saytlar chiqarib tashlanadi (agar egalari taqiqlasa: /). Archiveteam robotlar.txt-ni "o'z joniga qasd qilish to'g'risida eslatma" deb hisoblaydi va bunga ahamiyat bermaydi. Quyidagi optsiyalardan foydalanishni ham o'ylab ko'ring: --user-agent = 'Mozilla / 5.0 Firefox / 40.0' foydalanuvchi agentingizni saytga kirish uchun Firefox-dan foydalanayotganingiz kabi paydo bo'ladi. Buning foydasi bor, chunki ba'zi saytlar brauzerga o'xshash foydalanuvchi agentlarini taqiqlaydi yoki foydalanuvchi agentiga qarab har xil sahifalarni namoyish qiladi. --restrict-file-names = nokontrol URL-dagi maxsus belgilarga tegib qolishidan saqlaydi. Ko'pincha unicode belgilariga ega fayl nomlari bilan saytdan yuklab olsangiz, bu foydali bo'ladi. [4] X tadqiqot manbai cURL xuddi shunga o'xshash xususiyatlarga ega bo'lgan wget-ga o'xshash yordamchi dasturdir. Mac OS X va ko'plab BSD tizimlarida cURL - bu Wget o'rniga odatiy yuklab olish vositasi. Shuningdek, siz HTTrack kabi saytlarni aks ettirish uchun mo'ljallangan boshqa dasturlarni topishga qiziqishingiz mumkin.
Saytda biron bir naqsh yoki tuzilish mavjudligini bilish uchun uni ko'rib chiqing. Agar saytni wget (yoki shunga o'xshash yordam dasturi) yordamida osongina aks ettirmasa, unda boshqa strategiyaning vaqti keldi. Ko'pgina veb-forumlar, masalan veb-forumlar, URL-da aniqlangan naqshlarga ega, masalan, raqamlangan iplar.
  • Namuna olish uchun biz taniqli munozaralar taxtasi bo'lgan AutoAdmit-ga qarashimiz mumkin. Saytdagi mavzulardan birida http://autoadmit.com/thread.php?thread_id=2993725&mc=12&forum_id=2 URL mavjud. Biroq, biz bu erda faqat muhim raqam - thread_id ekanligini payqashimiz mumkin. haqiqatan ham http://autoadmit.com/thread.php?thread_id=2993725 sahifasiga yo'naltirish aslida bir xil sahifani ko'rsatadi. Endi biz AutoAdmit URL-ning umumiy tuzilishi http://autoadmit.com/thread.php?thread_id=N, N esa bu raqam; ushbu umumiy namunaning bir nechta URL manzillarini sinab ko'rish buni tasdiqlaydi. Shundan so'ng, barcha iplarni aylanib o'tish va yuklab olish masalasi; bash ichida: i uchun wget qiling -A 'Mozilla / 5.0 Firefox / 40.0' \ "http://xoxohth.com/thread.php?thread_id=$i" uxlash 0,3s.
  • Albatta, AutoAdmit-ning URL tuzilishi eng oddiylaridan biridir. Boshqa saytlar, masalan, WordPress bloglari, masalan, har oyda qancha sahifalar yozilishini hisoblashdan so'ng arxiv sahifalarini ko'rib chiqishni talab qilishi mumkin (garchi WordPress bloglari ham sodda ishlov berishga moyil bo'lsa). Bu borada umumiy yo'l yo'q, shuning uchun siz yolg'iz qolishingiz mumkin; Google orqali qidirish ko'pincha foydali bo'lishi mumkin.
Agar JavaScript juda ko'p bo'lsa, saytni yuklab olish uchun yanada rivojlangan yoki zerikarli usullarni ko'rib chiqing. So'nggi paytlarda Internet tobora ko'proq JavaScript va boshqa interfaol elementlardan (ba'zan shunday nomlanadi) ko'proq foydalanishga o'tmoqda DOM skriptlari ). Ushbu o'zgartirish veb-ga "dastlabki dasturlarni yuklab olishsiz, o'rnatish jarayonisiz va eski va yangi qurilmalarda bajaradigan" mahalliy dasturlarga raqobat qilishiga imkon berdi. [5] , u hali ham ko'pincha masxara qilish mavzusi [6] va tanqid [7] . Veb-saytlarni arxivlash nuqtai nazaridan, JavaScript va interfaol elementlar deyarli har doim yomon yangiliklar hisoblanadi. JavaScript og'ir saytni arxivlash bilan shug'ullanishning bir nechta strategiyalari mavjud.
  • Bitta yondashuv - JavaScript-ni butunlay chetlab o'tishga harakat qilish. Ko'pgina saytlar RSS yoki Atom kanallarini o'qiydiganlar tomonidan yangi tarkibni kuzatishda foydalanishi mumkin. Arxivchilar uchun veb-tasmalar foydalidir, chunki bu statik XML bo'lib, uni yuklab olish va qayta ishlashni osonlashtiradi. Agar siz saytning suratlarini suratga olishni davom ettirishni xohlasangiz, ayniqsa foydalidir: shunchaki tegishli tasmalarga rioya qiling va avtomatik ravishda o'zingiz xohlagan narsaga ega bo'lasiz (agar omadingiz bo'lsa; ko'plab saytlar faqat kanallarda oldindan ko'rishlarni namoyish qiladi yoki mualliflar tarkibni tahrirlashlari mumkin keyinchalik muammolarni murakkablashtiradigan va hokazo). Ahamiyatli tomoni shundaki, aksariyat veb-lentalarda faqat bir nechta yangi xabarlar yoki maqolalar mavjud, shuning uchun saytni retroaktiv ravishda arxivlash mumkin bo'lmasligi mumkin.
  • Ko'zdan kechirish kerak bo'lgan boshqa narsalar: brauzerda JavaScript, masalan PhantomJS va boshqa boshsiz brauzerlarning elementlarini avtomatik ravishda bosish Veb-saytlar tez-tez o'z interfeyslarini o'zgartiradi, shuning uchun saqlash qiyin bo'ladi.
Agar sayt parol bilan himoyalangan yoki boshqa usulda autentifikatsiyani talab qilsa, cookie fayllarini eksport qiling. Haqiqiylikni tekshirishni talab qiladigan saytlarga wget kabi vositalar orqali kirish qiyin. Biroq, Firefox kabi grafik brauzerlardan cookie fayllarini eksport qilish, so'ngra wget-dagi saytlarga kirish uchun cookie-fayllardan foydalanish mumkin. [8]
Arxivlashni tezlashtirish uchun bir nechta kompyuter yoki IP-manzillardan foydalaning. Agar veb-sayt tez tekshiruvchini nisbatan tez aniqlasa va ularni taqiqlasa, bitta tanlov (sekinlashuvdan tashqari) saytga bir nechta IP manzilidan foydalanib ulanishdir. Buning bir necha yo'li mavjud; bu erda ikkitasi bor: bir nechta IP manzilga ega bo'lishning oddiy shakli - bu sizning manzilingizni o'zgartirish, masalan bir nechta kafe yoki kutubxonalarga tashrif buyurish orqali; har bir yangi joyda siz saytdan yuklab olish uchun yangi IP-manzilga ega bo'lasiz. Boshqa imkoniyat, bir nechta kompyuterlarga kirish huquqini olish, masalan, kirish huquqini sotib olish virtual xususiy serverlar . Ikkinchi variantning afzalligi shundaki, siz bir nechta IP manzillarini yuklab olishingiz mumkin , bu shunchaki yuklashni davom ettirishga imkon berishning o'rniga, yuklab olish jarayonini tezlashtiradi. Ammo shuni unutmangki, oxirgi variant ko'pincha pul sarflashni o'z ichiga oladi, garchi bu yiliga 15 dollarni tashkil qilishi mumkin. Yuklab olishning oxirgi shakli qo'shimcha ravishda shubhali qonuniylik .
  • Tor anonimlik tarmog'idan doimiy ravishda chiqish tugunlarini o'zgartirib IP-ni o'zgartirish uchun foydalanish mumkin. Ammo Torni shu tarzda suiiste'mol qilish juda tushkunlikka tushgan. [9] X tadqiqot manbai
Iloji boricha avtomatlashtirish. Agar siz saytning arxivini yaratishni davom ettirmoqchi bo'lsangiz yoki maqsadli sayt juda katta bo'lsa, unda bu jarayonni iloji boricha avtomatlashtirish juda muhimdir.
Arxivingizni topshirish haqida o'ylab ko'ring. Arxivingizni ommaga oshkor qilishni istashingiz mumkin bo'lgan bir qator sabablar mavjud. Birinchidan, siz hozirda ko'p vaqt talab qiladigan saytni arxivlash jarayonidan o'tdingiz; agar boshqalar ham mahalliy nusxalarni olishlarini xohlasalar, unda boshqa birov ular uchun bu ishni amalga oshirganligini bilib, xursand bo'lishlari mumkin. Bundan tashqari, "ko'plab nusxalar ma'lumotlarni xavfsiz saqlaydi", shuning uchun boshqalarga sizning arxivingizni aks ettirishga imkon berish uning disk etishmovchiligi kabi tahdidlardan himoyalanganligini ta'minlaydi. Masalan qarang Internet Archive-ning yuklash sahifasi ko'proq uchun.
Ba'zi saytlarda botlar uchun "chakalakchalar" bo'lishi kerak bo'lgan maxsus havolalar mavjud. Bular bir nechta shakllarda bo'ladi, lekin odatda havolalar yashiringan bo'lib, saytning doimiy foydalanuvchilari ularni bosmaydilar, ammo barcha havolalarni ko'rib chiquvchi tekshiruvchi ularni bajara oladigan tarzda. Chig'anoqning bir turi ma'lum bir havolani bosgan odamlarni qora ro'yxatga oladi [10] , boshqalar esa sudraluvchini aldab, cheksiz pastadir [11] (shuningdek, a deb nomlanadi) o'rgimchak to'ri ).
Turli xil so'rovlar havolalarini bog'laydigan saytlarga ehtiyot bo'ling, shunda siz bitta sahifaning bir nechta nusxasini boshqa yo'l bilan saralashingiz yoki turli xil so'rovlardan foydalanishingiz mumkin.
Ba'zi saytlar amalga oshiradilar CAPTCHA'lar , bu arxivni o'ta qiyinlashtiradi. Agar siz ko'plab CAPTCHA-larni hal qilishingiz kerak bo'lsa, ularni o'zingiz hal qilish uchun hal qiluvchi yoki to'lash uchun odamlarni topishga harakat qiling (buning uchun onlayn xizmatlar mavjud). Ammo buni amalga oshirish ushbu qo'llanmaning doirasiga kirmaydi.
Agar siz juda ko'p yuklab olsangiz, uyda tarmoq bilan bog'liq muammolarga duch kelishingiz mumkin.
Agar siz juda ko'p yoki juda tez yuklab olsangiz, siz maqsad qilgan sayt uchun muammolarga olib kelishi mumkin (va hatto uni olib tashlashingiz mumkin). Agar yuklab olish uchun bir nechta kompyuterlardan foydalanish yoki yuklab olish uchun tavsiya etilgan cheklovlarga rioya qilmaslik kabi shubhali usullardan foydalansangiz, bu ayniqsa muammodir.
Ba'zi saytlar avvalgidan ko'ra kattaroq. Siz duch kelishi mumkin bo'lgan muammolardan biri bu sizning kompyuteringizdagi diskda bo'sh joy. Arxiv qancha hajmda bo'lishini oldindan o'ylab ko'rish va shuningdek fayllarni siqish orqali arxiv hajmini kamaytirish choralarini ko'rish juda muhimdir.
  • Fayllarni siqish masalasiga kelsak, bup kabi ma'lumotlarni ko'paytirish dasturlari juda zo'r, ayniqsa agar siz saytning suratlarini cheksiz qilishni davom ettirmoqchi bo'lsangiz. Shunchaki xz kabi fayllarni siqish dasturlaridan foydalansangiz, disk maydoni sezilarli darajada qisqarishi mumkin, chunki ko'pgina veb-saytlar juda ko'p matnni o'z ichiga oladi, bu esa yaxshi siqadi. Siz hatto sayt mazmunini qoldiradigan qilib shablonni filtrlaydigan skriptni yozishni xohlashingiz mumkin. Bunday skript Kvora uchun mavjud bo'lib, bitta misol keltiring.
ma'lumotlarni qisqartirish
tumomentogeek.com © 2020