إن الحريق الذي شب في مكتبة الإسكندرية بمصر القديمة قضى على المخطوطات والكتب القديمة وبدت كقصاصات ورق يتعذر تمييزها. كما تم إعادة تدوير recycling الأفلام السينمائية القديمة للاستفادة من محتوياتها من الفضة. ولسوء الحظ يمكن للتاريخ أن يعيد نفسه أثناء مراحل تطور الإنترنت وشبكتها العنكبوتية العالمية (الويب).
لم يحاول أحد أن ينشئ سجلا كاملا للنصوص والصور المحتواة في الوثائق التي تظهر على الويب. ومن المعروف أن تاريخ الطباعة والتصوير هو قصة فقدان وإعادة بناء جزئي. ولكن لا حاجة إلى أن يتكرر هذا السيناريو من أجل الويب، التي تتحول بشكل متزايد إلى مخزن ضخم لمعلومات علمية وثقافية وتاريخية قيِّمة.
إن ما يعنيه انخفاض تكاليف التخزين الرقمي هو أنه يمكن إنشاء سجل دائم لمحتويات الويب ولسائر الإنترنت بوساطة مجموعة صغيرة من المهنيين المحترفين المزوَّدين بمحطات عمل حاسوبية وبأدوات تخزين البيانات. وقد بدأت العمل قبل سنة مع عدد قليل من الباحثين على تحقيق هذا الهدف كجزء من مشروع يُعرف بأرشيف الإنترنت.
ومع حلول وقت نشر هذه المقالة نكون قد أخذنا نسخا من جميع محتويات الشبكة المتاحة لنا تقنيا. وقد يبلغ حجم هذه البيانات تريليوني بايت (2 تيرابايت أو 2x1012 بايت) موزعة بين نص وصورة وتسجيلات صوتية. وبالمقارنة، فإن مكتبة الكونگرس تحوي 20 تيرابايت تقريبا من المعلومات النصية. وفي الأشهر القادمة، ستعمل الحواسيب ووسائط التخزين لدينا على إنشاء سجلات لأجزاء أخرى من الإنترنت، بما في ذلك النظام جوفرGopher ولوحات النشر الإلكترونية يوزنت Usenet. وقد أثبتت بالفعل المعلومات المجمَّعة حتى الآن أنها مصدر مفيد للمؤرخين. كما أنها ستوفر المادة الأولية اللازمة لإنشاء مكتبة مصنفة بعناية، يسهل البحث فيها عن المعلومات.
يزود أرشيف الإنترنت متحف معهد سميثونيان الوطني للتاريخ الأمريكي بمجموعة من مواقع الويب التي شاركت في بث حملات انتخابات الرئاسة الأمريكية لعام 1996. إن الحاسوب الذي يدخل إلى هذه المواقع يصبح جزءا من معرض لتلك الحملات. |
تعتبر التدابير اللازمة لحفظ معلومات الويب سهلة نسبيا؛ حيث تتألف مجموعتنا الأرشيفية من عشرة أشخاص يعملون في مكاتب محوَّلة أصلا من قاعدة عسكرية ـ تدعى پريسيديو ـ في وسط مدينة سان فرانسيسكو، ويديرون حاسوبا لجمع المعلومات موجودا في مركز سان دييگو للحواسيب الفائقة في جامعة كاليفورنيا بمدينة سان دييگو الأمريكية.
إن برمجيات الحواسيب لدينا تسعى وراء بيانات الشبكة؛ حيث تحضر الوثائق، المسماة بالصفحات ـ من موقع تلو آخر. وبمجرد إحضار الصفحة، يبحث البرنامج عن عناوين ملحقة بها أو وصلات links تقود إلى صفحات أخرى. وتقوم البرمجيات بعد ذلك بعمل نسخ مرة أخرى، ثم تسعى وراء العناوين الإضافية الملحقة بالصفحات الجديدة. تتجنب إنسالة الفهرسة crawler هذه إحضار صفحات مكررة وذلك بمقارنة الأسماء التعريفية التي تدعى محددات المصادر الموحدة uniform resource locators URLs للتأكد من عدم وجود مقابل لها في قاعدة البيانات. وتستخدم برامج البحث الأخرى، مثل برنامج آلتاڤيستا الذي صممته شركة التجهيزات الرقمية، إنسالات مماثلة من أجل فهرسة مواقع الويب.
ترجع إمكانية إجراء هذه التجربة إلى الانخفاض في كلفة تخزين المعلومات. فمثلا قيمة جيگابايت واحدة (1 بليون بايت) من سعة القرص الصلب هي 200 دولار أمريكي، في حين أن شريط تخزينٍ باستخدام أداة تركيب أوتوماتيكية يكلف 20 دولارا أمريكيا لكل جيگابايت. ونختار التخزين على القرص الصلب من أجل تخزين كمية قليلة من البيانات التي يرجح استخدامها من قِبَل مستخدمي الأرشيف، في حين أننا نختار أداة إنسالية لتركيب أشرطة التخزين وقراءتها بصورة أوتوماتيكية للمعلومات التي هي أقل استخداما. تستطيع سواقة القرص الصلب أن تصل إلى البيانات المخزنة بزمن قدره 15 ملّي ثانية في حين أن أشرطة التخزين تحتاج إلى أربع دقائق. وقد تكون المعلومات التي يتم الوصول إليها باستمرار عبارة عن وثائق تاريخية أو مجموعة من محددات المصادر الموحدة (URLs) التي لم تعد مستخدمة.
نخطط لتحديث المعلومات المجمعة مرة على الأقل كل بضعة أشهر. وقد تطلب تجميع السجل الكامل الأول سنة تقريبا، ولكن في استعراضاتنا القادمة للويب سيكون بإمكاننا تحديث المعلومات التي تغيرت منذ قراءتنا الأخيرة لها فقط.
ونتيجة لعدم قدرة إنسالة الفهرسة على الوصول إلى العديد من مئات الآلاف من المواقع، فإن النصوص والأشكال والفقرات الصوتية والمعلومات الأخرى المجمَّعة من الويب لن تكون شاملة أبدا. فالناشرون يمنعون إنسالات الفهرسة البسيطة من الوصول إلى البيانات أو يخزِّنون الوثائق في صيغة منيعة عليها. ومع ذلك، فإن الأرشيف يعطي فكرة عن موجودات الويب خلال فترة زمنية معينة، على الرغم من أنه لا يشكل سجلا كاملا.
ما الخدمات التي سيوفرها الأرشيف بعد الانتهاء من جمع المحتويات العامة للإنترنت وتخزينها؟ فنحن نمتلك القدرة على توفير الوثائق التي لم تعد موجودة لدى الناشر الأصلي. وهذا عمل مهم إذا ما أريد لنظام النص الممنهلHypertext في الويب أن يصبح وسطا للنشر الثقافي. وربما تثبت هذه الخدمة أيضا أنها ذات شأن لا يستهان به في أبحاث المؤسسات التجارية. وقد تقوم بيانات الأرشيف مقام سجلٍ للأحداث القياسية copy of record تعتمده الحكومة أو المؤسسات الأخرى التي لديها وثائق متاحة للجميع. وبالتالي فإنه مع مرور الوقت سيصبح الأرشيف شبيها بمكتبة رقمية.
الإبقاء على الوصلات المفتقدة
لقد وجد المؤرخون بالفعل أن هذا الأرشيف مفيد. فقد اتصل <D. أليسون>، من متحف معهد سميثونيان، بأرشيف المعرض الذي يبثه موقع الويب الخاص بالمتحف أثناء حملات انتخابات الرئاسة الأمريكية، وهو مشروع يعتبره أليسون شبيها بتخزين أشرطة الڤيديو التي تتضمن دعايات الحملات الانتخابية السابقة. ولكن العديد من الوصلات التي تقود إلى هذه المواقع، مثل دعايات الحملة الانتخابية لسيناتور تكساس <فيل گرام>، قد اختفت بالفعل من الإنترنت.
سيكون لتشكيل الأرشيف آثار في مواضيع عديدة تتراوح من الخصوصية إلى حقوق النشر. ماذا لو أن طالبة جامعية قامت بإنشاء صفحة خاصة بها على الويب تتضمن صورا لها ولصديقها حينئذ، وقامت فيما بعد ـ مثلا ـ بتمزيق هذه الصور ولكنها بقيت في الأرشيف؟. هل يجب أن يكون لها الحق في إزالة هذه الصور من الأرشيف؟ وبالمقابل، هل يجب أن يكون لشخصية عامة ـ سيناتور أمريكي مثلا ـ الحق في إزالة بيانات تتعلق بحياته الجامعية؟ هل يَنتهك جمع المعلومات وإتاحتها للجميع أحكام «الاستخدام العادل» لقانون حقوق النشر؟ نرى أنه ليس من السهل حل هذه الأمور.
ومن أجل تبديد هذه المخاوف، فإننا نسمح للمؤلفين باستثناء أعمالهم من عملية الأرشفة. كما أننا نبحث أيضا في إمكانية السماح للباحثين بالحصول على إحصائيات عامة من بيانات الأرشيف بدلا من الوثائق الفردية. فمثلا بإمكان المرء أن يحصي العدد الكلي للمرات التي يشار فيها إلى الشَّشْنيات(1) prachyderms على الويب، من غير الدخول إلى صفحة فيل elephant محددة. ونأمل أن تكون هذه الإجراءات كافية لتقليل المخاوف المباشرة حول الخصوصية وحقوق الملكية الفكرية. ومع مرور الوقت، قد تساعد المواضيع المتناولة أثناء إنشاء أرشيف الإنترنت على حل الجدل حول السياسات المتبعة حيال الخصوصية والملكية الفكرية، وذلك باختبار تطبيق بعض المفاهيم، مثل الاستخدام العادل، على الشبكة.
يكمل أرشيف الإنترنت مشروعات أخرى تهدف إلى ضمان تعمير المعلومات على الإنترنت. وتبحث لجنة الحفاظ على الشبكة وضمان الوصول إليها في العاصمة الأمريكية واشنطن في كيفية ضمان بقاء البيانات عندما تتبدل السمات المعيارية لوسائط التخزين الرقمية عبر السنين. وفي جهد آخر، يتعاون فريق عمل هندسة الإنترنت مع فرق أخرى على وضع المواصفات التقنية التي تعطي أسماء تعريفية وحيدة للوثائق الرقمية؛ حيث يمكن لأسماء المصادر الموحدةuniform resource names URNs هذه، كما تسمى، أن تكمل عمل محددات المصادر الموحدة (URL's) المستخدمة حاليا في الوصول إلى وثائق الويب. فالهدف من تخصيص اسم مصدر موحد للوثيقة هو ضمان إمكانية تتبعها بعد اختفاء الوصلة المؤدية إليها، لأن فترة بقاء محددِ المصدر الموحد (URL) تقدر ب44 يوما. وسيكون اسم المصدر الموحد (URN) قادرا على تحديد محددات مصادر موحدة أخرى لايزال بإمكانها تأمين الوصول إلى الوثائق المطلوبة.
وقد بدأت أيضا محاولات أخرى، لكنها محدودة، لأرشفة أجزاء من الإنترنت؛ حيث يحتفظ البرنامج ديجانيوزDejaNews بسجل للرسائل الموجودة على لوحات النشر الإلكترونية (يوزنت)، كما يقوم برنامج الإسنادInReference بإنشاء أرشيف للقوائم البريدية على الإنترنت. وتُموَّل هاتان الخدمتان من عائدات المعلنين، التي يمكن أن تكون أيضا مصدر تمويل لمشروع أرشيف الإنترنت. لقد تم حتى الآن تمويل المشروع الحالي من أموال حصلنا عليها من بيع برمجيات خاصة بالإنترنت ومن أرباح شركة للخدمات. كما تبرعت لنا شركات الحاسوب الرئيسية بالأجهزة والمعدات اللازمة.
ستمضي سنوات عديدة قبل أن تكتمل البنية التحتية المناسبة للحفاظ على الإنترنت والتحرر من المخاوف المتعلقة بحقوق الملكية الفكرية. ومن جانبنا، فإننا نشعر بأهمية المضي قُدُما في جمع مكونات الأرشيف لأنه لا يمكن استرجاع هذه المواد مستقبلا بعد فقدانها. وبالتالي ستضيع فرصة الاستحواذ على سجل ولادة بيئة جديدة.