اليوم، تتحكم شركة واحدة- Google- في كل وصول العالم تقريبًا إلى المعلومات على الإنترنت. يعني احتكارهم في البحث وجود مليارات الأشخاص، وبوابتهم إلى المعرفة والمنتجات، واستكشافهم للويب في أيدي شركة واحدة. يتفق معظمهم على أن هذا الافتقار إلى المنافسة في البحث أمر سيء للأفراد والمجتمعات والديمقراطية.
دون علم الكثيرين، فإن أحد أكبر العقبات التي تعترض التنافس في البحث هو الافتقار إلى حيادية الزحف (lack of crawl neutrality). الطريقة الوحيدة لبناء محرك بحث مستقل وفرصة التنافس العادل ضد Big Tech هي الزحف أولاً بكفاءة وفعالية إلى الإنترنت. ومع ذلك، يعد الويب بيئة معادية بشكل نشط لبرامج الزحف في محركات البحث المبتدئة، حيث تسمح معظم مواقع الويب فقط لزاحف Google والتمييز ضد برامج الزحف بمحركات البحث الأخرى مثل Neeva.
هذه المشكلة البالغة الأهمية، والتي غالبًا ما يتم تجاهلها، لها تأثير هائل على منع محركات البحث المبتدئة مثل Neeva من تزويد المستخدمين ببدائل حقيقية، مما يقلل المنافسة في البحث. على غرار حياد الشبكة، نحتاج اليوم إلى نهج للزحف إلى الحياد. بدون تغيير في السياسة والسلوك، سيظل المنافسون في البحث يقاتلون بيد واحدة مقيدة خلف ظهورنا.
دعونا نبدأ من البداية. يعد إنشاء فهرس شامل للويب شرطًا أساسيًا للمنافسة في البحث. بعبارة أخرى، فإن الخطوة الأولى لبناء محرك بحث Neeva هي "تنزيل الإنترنت" عبر زاحف Neeva، المسمى Neevabot.
هنا حيث تبدأ المشكلة. بالنسبة للجزء الأكبر، تسمح مواقع الويب فقط لبرامج الزحف الخاصة بـ Google و Bing بالوصول غير المقيد مع التمييز ضد برامج الزحف الأخرى مثل Neeva. إما أن هذه المواقع لا تسمح بأي شيء آخر في ملفات robots.txt الخاصة بها، أو (بشكل أكثر شيوعًا) لا تذكر أي شيء في ملف robots.txt، ولكنها تعرض الأخطاء بدلاً من المحتوى إلى برامج الزحف الأخرى. قد يكون القصد هو تصفية الجهات الخبيثة، لكن النتيجة هي لا يمكنك عرض نتائج البحث إذا لم تتمكن من الزحف إلى الويب.
هذا يفرض على الشركات الناشئة قضاء قدر هائل من الوقت والموارد للتوصل إلى حلول بديلة. على سبيل المثال، تطبق Neeva سياسة "الزحف إلى موقع طالما أن ملف robots.txt يسمح لبرنامج GoogleBot ولا يمنع Neevabot على وجه التحديد". حتى بعد حل بديل مثل هذا، تظل أجزاء الويب التي تحتوي على نتائج بحث مفيدة غير قابلة للوصول إلى العديد من محركات البحث.
كمثال ثانٍ، تسمح العديد من مواقع الويب غالبًا بزاحف غير تابع لـ Google عبر ملف robots.txt وتحظره بطرق أخرى، إما عن طريق إلقاء أنواع مختلفة من الأخطاء (503s، 429s، ...) أو تقييد السرعة. للزحف إلى هذه المواقع، يتعين على المرء نشر حلول مثل "التشويش عن طريق الزحف باستخدام بنك من عناوين IP الوكيل التي يتم تدويرها بشكل دوري". محركات البحث الشرعية مثل Neeva تكره نشر الحلول العدائية مثل هذه.
غالبًا ما تكون حواجز الطرق هذه مخصصة للروبوتات الخبيثة، ولكن لها تأثير خنق منافسة البحث المشروعة. في Neeva، يبذل الكثير من الجهد في بناء زاحف حسن التصرف يحترم حدود المعدل ويزحف بأقل معدل مطلوب لبناء محرك بحث رائع. وفي الوقت نفسه، تمتلك Google تفويضًا مطلقًا. يزحف إلى صفحات الويب بمعدل 50 مليار صفحة يوميًا. يزور كل صفحة على الويب مرة واحدة كل ثلاثة أيام، ويفرض ضرائب على النطاق الترددي للشبكة على جميع مواقع الويب. هذه هي ضريبة المحتكر على الإنترنت.
بالنسبة إلى برامج الزحف المحظوظة بيننا، يمكن لمجموعة من أصحاب المهن الجيدة ومشرفي المواقع والناشرين ذوي النوايا الحسنة المساعدة في وضع برنامج الروبوت الخاص بك في القائمة البيضاء. بفضلهم، يصل زحف Neeva الآن إلى مئات الملايين من الصفحات يوميًا، على المسار الصحيح للوصول إلى مليارات الصفحات يوميًا قريبًا. ومع ذلك، لا يزال هذا يتطلب تحديد الأفراد المناسبين في هذه الشركات الذين يمكنك التحدث إليهم، وإرسال البريد الإلكتروني والمكالمات الباردة، والأمل في حسن النية من مشرفي المواقع على الأسماء المستعارة لمشرفي المواقع والتي يتم تجاهلها عادةً. إصلاح مؤقت غير قابل للتطوير.
لا يجب أن يتعلق الحصول على إذن بالزحف بمن تعرفه. يجب أن يكون هناك ملعب متساوٍ لأي شخص يتنافس ويتبع القواعد. جوجل يحتكر البحث. تواجه مواقع الويب ومشرفي المواقع خيارًا مستحيلًا. إما أن تسمح لـ Google بالزحف إليها، أو لا تظهر بشكل بارز في نتائج Google. ونتيجة لذلك، أدى احتكار بحث Google إلى قيام الإنترنت بشكل عام بتعزيز الاحتكار من خلال منح Googlebot وصولاً تفضيليًا.
لا ينبغي السماح للإنترنت بالتمييز بين برامج الزحف لمحركات البحث بناءً على هويتهم. زاحف Neeva قادر على الزحف إلى الويب بالسرعة والعمق اللذين تقوم بهما Google. لا توجد قيود فنية، فقط قوى السوق المعادية للمنافسة تجعل المنافسة عادلة أكثر صعوبة. وإذا كان الأمر يتطلب الكثير من العمل الإضافي على مشرفي المواقع للتمييز بين الروبوتات السيئة التي تبطئ مواقعهم على الويب من محركات البحث الشرعية، فيجب أن يُطلب من أولئك الذين لديهم حرية التصرف مثل GoogleBot مشاركة بياناتهم مع الجهات الفاعلة المسؤولة.
يحتاج المنظمون وواضعو السياسات إلى التدخل إذا كانوا يهتمون بالمنافسة في البحث. يحتاج السوق إلى حيادية الزحف، على غرار حياد الشبكة.
Vivek Raghunathan هو أحد مؤسسي Neeva، وهو محرك بحث خاص خالٍ من الإعلانات. Asim Shankar هو رئيس قسم التكنولوجيا في شركة Neeva.
دون علم الكثيرين، فإن أحد أكبر العقبات التي تعترض التنافس في البحث هو الافتقار إلى حيادية الزحف (lack of crawl neutrality). الطريقة الوحيدة لبناء محرك بحث مستقل وفرصة التنافس العادل ضد Big Tech هي الزحف أولاً بكفاءة وفعالية إلى الإنترنت. ومع ذلك، يعد الويب بيئة معادية بشكل نشط لبرامج الزحف في محركات البحث المبتدئة، حيث تسمح معظم مواقع الويب فقط لزاحف Google والتمييز ضد برامج الزحف بمحركات البحث الأخرى مثل Neeva.
هذه المشكلة البالغة الأهمية، والتي غالبًا ما يتم تجاهلها، لها تأثير هائل على منع محركات البحث المبتدئة مثل Neeva من تزويد المستخدمين ببدائل حقيقية، مما يقلل المنافسة في البحث. على غرار حياد الشبكة، نحتاج اليوم إلى نهج للزحف إلى الحياد. بدون تغيير في السياسة والسلوك، سيظل المنافسون في البحث يقاتلون بيد واحدة مقيدة خلف ظهورنا.
دعونا نبدأ من البداية. يعد إنشاء فهرس شامل للويب شرطًا أساسيًا للمنافسة في البحث. بعبارة أخرى، فإن الخطوة الأولى لبناء محرك بحث Neeva هي "تنزيل الإنترنت" عبر زاحف Neeva، المسمى Neevabot.
هنا حيث تبدأ المشكلة. بالنسبة للجزء الأكبر، تسمح مواقع الويب فقط لبرامج الزحف الخاصة بـ Google و Bing بالوصول غير المقيد مع التمييز ضد برامج الزحف الأخرى مثل Neeva. إما أن هذه المواقع لا تسمح بأي شيء آخر في ملفات robots.txt الخاصة بها، أو (بشكل أكثر شيوعًا) لا تذكر أي شيء في ملف robots.txt، ولكنها تعرض الأخطاء بدلاً من المحتوى إلى برامج الزحف الأخرى. قد يكون القصد هو تصفية الجهات الخبيثة، لكن النتيجة هي لا يمكنك عرض نتائج البحث إذا لم تتمكن من الزحف إلى الويب.
هذا يفرض على الشركات الناشئة قضاء قدر هائل من الوقت والموارد للتوصل إلى حلول بديلة. على سبيل المثال، تطبق Neeva سياسة "الزحف إلى موقع طالما أن ملف robots.txt يسمح لبرنامج GoogleBot ولا يمنع Neevabot على وجه التحديد". حتى بعد حل بديل مثل هذا، تظل أجزاء الويب التي تحتوي على نتائج بحث مفيدة غير قابلة للوصول إلى العديد من محركات البحث.
كمثال ثانٍ، تسمح العديد من مواقع الويب غالبًا بزاحف غير تابع لـ Google عبر ملف robots.txt وتحظره بطرق أخرى، إما عن طريق إلقاء أنواع مختلفة من الأخطاء (503s، 429s، ...) أو تقييد السرعة. للزحف إلى هذه المواقع، يتعين على المرء نشر حلول مثل "التشويش عن طريق الزحف باستخدام بنك من عناوين IP الوكيل التي يتم تدويرها بشكل دوري". محركات البحث الشرعية مثل Neeva تكره نشر الحلول العدائية مثل هذه.
غالبًا ما تكون حواجز الطرق هذه مخصصة للروبوتات الخبيثة، ولكن لها تأثير خنق منافسة البحث المشروعة. في Neeva، يبذل الكثير من الجهد في بناء زاحف حسن التصرف يحترم حدود المعدل ويزحف بأقل معدل مطلوب لبناء محرك بحث رائع. وفي الوقت نفسه، تمتلك Google تفويضًا مطلقًا. يزحف إلى صفحات الويب بمعدل 50 مليار صفحة يوميًا. يزور كل صفحة على الويب مرة واحدة كل ثلاثة أيام، ويفرض ضرائب على النطاق الترددي للشبكة على جميع مواقع الويب. هذه هي ضريبة المحتكر على الإنترنت.
بالنسبة إلى برامج الزحف المحظوظة بيننا، يمكن لمجموعة من أصحاب المهن الجيدة ومشرفي المواقع والناشرين ذوي النوايا الحسنة المساعدة في وضع برنامج الروبوت الخاص بك في القائمة البيضاء. بفضلهم، يصل زحف Neeva الآن إلى مئات الملايين من الصفحات يوميًا، على المسار الصحيح للوصول إلى مليارات الصفحات يوميًا قريبًا. ومع ذلك، لا يزال هذا يتطلب تحديد الأفراد المناسبين في هذه الشركات الذين يمكنك التحدث إليهم، وإرسال البريد الإلكتروني والمكالمات الباردة، والأمل في حسن النية من مشرفي المواقع على الأسماء المستعارة لمشرفي المواقع والتي يتم تجاهلها عادةً. إصلاح مؤقت غير قابل للتطوير.
لا يجب أن يتعلق الحصول على إذن بالزحف بمن تعرفه. يجب أن يكون هناك ملعب متساوٍ لأي شخص يتنافس ويتبع القواعد. جوجل يحتكر البحث. تواجه مواقع الويب ومشرفي المواقع خيارًا مستحيلًا. إما أن تسمح لـ Google بالزحف إليها، أو لا تظهر بشكل بارز في نتائج Google. ونتيجة لذلك، أدى احتكار بحث Google إلى قيام الإنترنت بشكل عام بتعزيز الاحتكار من خلال منح Googlebot وصولاً تفضيليًا.
لا ينبغي السماح للإنترنت بالتمييز بين برامج الزحف لمحركات البحث بناءً على هويتهم. زاحف Neeva قادر على الزحف إلى الويب بالسرعة والعمق اللذين تقوم بهما Google. لا توجد قيود فنية، فقط قوى السوق المعادية للمنافسة تجعل المنافسة عادلة أكثر صعوبة. وإذا كان الأمر يتطلب الكثير من العمل الإضافي على مشرفي المواقع للتمييز بين الروبوتات السيئة التي تبطئ مواقعهم على الويب من محركات البحث الشرعية، فيجب أن يُطلب من أولئك الذين لديهم حرية التصرف مثل GoogleBot مشاركة بياناتهم مع الجهات الفاعلة المسؤولة.
يحتاج المنظمون وواضعو السياسات إلى التدخل إذا كانوا يهتمون بالمنافسة في البحث. يحتاج السوق إلى حيادية الزحف، على غرار حياد الشبكة.
Vivek Raghunathan هو أحد مؤسسي Neeva، وهو محرك بحث خاص خالٍ من الإعلانات. Asim Shankar هو رئيس قسم التكنولوجيا في شركة Neeva.