بالتأكيد، أعتقد أنه من الواضح أنك تحصل على طلبات جديدة من الطوارئ/الجمال/التماسك مع RL. ولكن بالطبع، فإنه يفتح أيضًا الطريق أمام جميع أنواع الأضرار والخسائر.
أعتقد حتى أن RL يمكن أن يجعل النماذج أفضل في "المحاكاة" من النماذج الأساسية! ( على سبيل المثال من خلال جعلها تصحح نفسها بشكل وكيل )
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 13
أعجبني
13
6
إعادة النشر
مشاركة
تعليق
0/400
AirdropHunterWang
· منذ 17 س
تأثير rl جيد ولكنه خطير
شاهد النسخة الأصليةرد0
TokenVelocity
· منذ 17 س
rl قد استعمل الغش
شاهد النسخة الأصليةرد0
WhaleWatcher
· منذ 17 س
قد يكون تصحيح النموذج الذاتي أكثر موثوقية من الإنسان
شاهد النسخة الأصليةرد0
SelfCustodyIssues
· منذ 17 س
rt حقًا قادر على تحليل الجانبين بشكل جيد، من يفهم يفهم.
شاهد النسخة الأصليةرد0
IfIWereOnChain
· منذ 18 س
قرار آخر sacrifice الأمان
شاهد النسخة الأصليةرد0
DataPickledFish
· منذ 18 س
سأقوم بالتدريب فقط، لكنني لا أستطيع كتابة الشيفرة.
بالتأكيد، أعتقد أنه من الواضح أنك تحصل على طلبات جديدة من الطوارئ/الجمال/التماسك مع RL. ولكن بالطبع، فإنه يفتح أيضًا الطريق أمام جميع أنواع الأضرار والخسائر.
أعتقد حتى أن RL يمكن أن يجعل النماذج أفضل في "المحاكاة" من النماذج الأساسية! ( على سبيل المثال من خلال جعلها تصحح نفسها بشكل وكيل )