أظهر الباحثون أنه يمكن أيضًا استخدام “DarkBERT” في التحرك عبر العديد من منتديات الويب المظلمة ومراقبتها بحثًا عن أي تبادل للمحتوى الضار، وفقًا لنسخة أولية من الدراسة المنشورة على arXiv.
على عكس روبوتات الدردشة الأخرى مثل “شات جي بي تي” و”بارد” والتي لديها استخدامات متعددة، فإنه يمكن استخدام أداة الذكاء الاصطناعي الجديدة في تحليل وإصدار النتائج وفقًا لمجموعة بيانات محددة وفقًا لفريق المعهد الكوري المتقدم للعلوم والتكنولوجيا، الذي عمل مع منظمة استخبارات البيانات S2W.
🎉 Exciting news! Our talented AI team researchers have just had their paper accepted at ACL 2023, a top conference in the field! 📚🤖
🎓DarkBERT: https://t.co/Qon8XLXAG5#AI #Research #ACL2023 #BERT #DarkBERT
— S2W (@S2W_Official) May 18, 2023
DarkBERT يزحف في الأنحاء المظلمة من الإنترنت
إن “الدارك ويب” أو “الإنترنت المظلم” هو جزء خفي من الإنترنت عادًة ما يتم استخدامه في الأنشطة الغير قانونية، مثل تهريب المخدرات ومبيعات الأسلحة والاتجار بالبشر. لا تتم فهرسة الويب المظلم عادةً بواسطة محركات البحث مثل جوجل ولا يمكن الوصول إليها إلا باستخدام برامج خاصة، مثل تور “Tor”.
استخدم الباحثون شبكة “تور” في مساعدة نموذجهم اللغوي الكبير “DarkBERT” في فحص كميات هائلة من البيانات في الدارك ويب. تضمنت البيانات مواد من مواقع مثل العملات المشفرة والقرصنة.
يتم إنشاء “DarkBERT” بهذا النوع من البيانات التدريبية، والتي تم تنقيحها من الأشياء الحساسة مثل الصور الغير شرعية، واسم مؤسسة الضحية، وبيانات المستخدم التي تم تسريبها. لقد تم بناء أداة الذكاء الاصطناعي وفقًا لنظام BERT الذي طورته جوجل وحسنته “فيسبوك” إلى RoBERTa.

عملية التدريب المسبق في DarkBERT وسيناريوهات التقييم.
وفقًا للباحثين الكوريين، يمكن لـ DarkBERT إثبات ما إذا كان استخدام الويب المظلم كمجموعة بيانات سيسمح لأدوات الذكاء الاصطناعي بفهم نوع اللغة المستخدمة في تلك البيئات بشكل أفضل. قالوا إن ذلك أفضل من إصدارات جوجل أو فيسبوك.
كتب الباحثون في ورقتهم “نتائج التقييم التي أجريناها تظهر أن نماذج التصنيف المعتمدة على darkbert تتطابق مع نماذج لغوية محددة مسبقًا”.
وأضافت الدراسة: “… يتبع برنامج زحف الويب الآلي الخاص بنا نهج إزالة أي وسائط غير نصية ويخزن فقط بيانات النص الخام. من خلال القيام بذلك، فإننا لا نعرض أنفسنا لأي وسائط حساسة من المحتمل أن تكون غير قانونية”.
لا وصول عام
على الرغم من اسمه الغريب، يقول الفريق إن DarkBERT يمكن استخدامه لاكتشاف مواقع الويب التي تبيع برامج الفدية أو البيانات الخاصة المسربة. كما يمكن أن يسهل على الباحثين الأمنيين وإنفاذ القانون تحديد وتعقب المجرمين الذين يعملون على شبكة الإنترنت المظلمة.
اقرأ أيضًا: يمكن للذكاء الاصطناعي الآن تحويل الأفكار إلى فيديو
لن يتم توفير DarkBert للجمهور في أي وقت قريبًا بسبب الطبيعة الخطرة المحتملة لمواد الويب المظلمة. لكن الباحثين قالوا إن أولئك الذين يتطلعون إلى استخدام نموذج الذكاء الاصطناعي للأغراض الأكاديمية يمكنهم طلب الوصول.