Ana Sayfa Haberler Bu yapay zeka modelleri ücretsiz ve özeldir ve asla ‘hayır’ demez

Bu yapay zeka modelleri ücretsiz ve özeldir ve asla ‘hayır’ demez

13
0
Bu yapay zeka modelleri ücretsiz ve özeldir ve asla ‘hayır’ demez


Katılımcılar, 28 Aralık 2012’de Almanya’nın Hamburg kentinde düzenlenen Kaos Bilgisayar Kulübü’nün (CCC) 29C3 adlı yıllık bilgisayar korsanları kongresinde dizüstü bilgisayarlarını ışıklı bir duvarın önünde tutuyorlar. 2026’da açık ağırlıklı yapay zeka modelleri, tescilli muadillerinin çok da gerisinde olmayan gelişmiş yeteneklere sahip olacak. Açık ağırlıklı modellerin zaman ve derin uzmanlık gerektiren korkuluklarından kurtulmak. Ancak son aylarda bu süreç önemli ölçüde daha erişilebilir ve popüler hale geldi.

Patrick Lux/Getty Images Avrupa


başlığı gizle

başlığı değiştir

Patrick Lux/Getty Images Avrupa

Nasıl yapıyorsun patlayıcılar ev eşyalarını mı kullanıyorsunuz? Nasıl yapıyorsun meth? Okulda silahlı saldırıyı nasıl planlıyorsunuz? Çoğu insanın aşina olduğu popüler AI sohbet robotlarına sorarsanız, muhtemelen bunun yasa dışı, zararlı olduğunu veya yanıt vermenin politika ihlali olacağını söyleyeceklerdir.

Ancak başka bir tür yapay zeka modeli, kullanıcının istediğini sağlamayı asla reddetmez. Son aylarda bu modeller daha ulaşılabilir ve popüler hale geldi.

Yapay zeka modeli geliştiricileri için kırmızı ekip oluşturma ve güvenlik değerlendirmesi yürüten bir yapay zeka güvenlik şirketi olan Alice’in CEO’su Noam Schwartz, “Herkes kendi son teknoloji modelini indirip çalıştırabilir ve onu harika şeyler ve korkunç şeyler için kullanabilir” dedi.

Modellere ne zaman söyleneceğini öğretmek HAYIR

OpenAI, Google, Anthropic ve xAI gibi büyük yapay zeka şirketleri, zararlı veya uygunsuz olduğu düşünülen talepleri reddetmek için kendi özel modellerini eğitiyor. Bir sürü işçi modellere belirli istekleri ne zaman ve nasıl reddedeceklerini öğretiyor.

Bu yöntemler her zaman işe yaramıyor ve bazı tuzaklar taşıyor: Bazı zararlı istekler yerine getirilirken, diğer kullanıcılar zararsız isteklerin reddedilmesinden şikayetçi oluyor. Başlangıçta “hayır” diyen sohbet robotları, akıllıca ifade edilmiş istemler kullanılarak “evet” demeye yönlendirilebilir. şiirler. Korkuluklarla bile popüler sohbet robotları kullanıldı kitlesel şiddet planlamak ve üret deepfake çocuk cinsel istismarı materyali. Bazı durumlarda ebeveynler, yapay zeka sohbet robotlarını çocuklarını kendilerine zarar vermek.

Ancak korkulukları sökülmesi çok daha kolay olan bambaşka bir yapay zeka modeli sınıfı daha var. Açık ağırlıklı modeller olarak bilinirler. Bazıları OpenAI ve Alibaba gibi teknoloji devleri tarafından üretiliyor, diğerleri ise Çin’in DeepSeek gibi daha küçük şirketleri tarafından üretiliyor. Daha iyi bilinen tescilli muadilleri gibi, çoğu da işlevsel kod yazma veya gerçeğe yakın görüntüler oluşturma gibi gelişmiş yeteneklere sahiptir. ChatGPT, Claude veya Gemini’den farklı olarak, kalıcı olarak daha kolay yerleşik güvenlik korkuluklarını çıkarın; bunların arkasındaki şirketlerin bunların nasıl kullanıldığına dair hiçbir fikri yok.

Açık ağırlıklı modellerin zaman ve derin uzmanlık gerektiren korkuluklarından kurtulmak. Ancak son aylarda bu süreç önemli ölçüde daha erişilebilir ve popüler hale geldi.

Yeni yöntem, model korkulukların çıkarılmasını her zamankinden daha kolay hale getiriyor

Açık ağırlıklı modellerin güvenlik korkulukları birçok şekilde zayıflatılabilir veya çıkarılabilir. Bunun nedeni büyük ölçüde model geliştiricilerinin model ağırlıkları olarak bilinenleri halkın erişimine sunmuş olmasıdır. Model ağırlıkları, bir makinedeki düğmeler ve kadranlar gibi, modellere bilgiyi nasıl işleyeceklerini söyleyen parametreler kümesidir.

Yakın zamanda geliştirilen ve “yok etme” adı verilen bir yöntem, yapay zeka ve ulusal güvenlik araştırmacılarının dikkatini çekti. İnsanlar, model ağırlıklarını değiştirerek modelin “hayır” deme yeteneğini ortadan kaldırabilir.

Açık kaynaklı yapay zeka modellerine ev sahipliği yapan Hugging Face, şu anda 6.000’den fazla yok edilmiş modeli listeliyor. yaklaşık 600 tarafından yapılan bir araştırmaya göre, Hugging Face’te küçültülmüş modellerin sayısı şu anda başka yöntemler kullanılarak korkulukları çıkarılmış modellerden daha fazla. Ulusal Terörle Mücadele İnovasyon, Teknoloji ve Eğitim Merkezi (NCITE), Omaha’daki Nebraska Üniversitesi merkezli İç Güvenlik Bakanlığı destekli bir araştırma konsorsiyumu.

Dahası, yeni araçlar sadeleştirilmiş modeller oluşturmayı çok daha kolay hale getiriyor. “Bu öyleydi [the job of] Schwartz, önde gelen bir yapay zeka laboratuvarında veri bilimci, yani kıdemli bir çalışan olduğunu söyledi. “Artık internet erişimi olan ve 400 dolar gibi bir fiyata dizüstü bilgisayarı olan herkes bu şeyi aslında kendi makinesinde çalıştırabilir.”

Böyle bir araç, yok etme sürecini otomatikleştiren Heretic’tir. Bir modelin korkuluklarını kaldırmak için kullanıcının tek yapması gereken Heretic’e iki satırlık talimat vermektir ve işlem birkaç dakika kadar kısa bir zaman alabilir. Alice’e göre uygulama Şubat ayından bu yana GitHub kod deposunda daha popüler hale geldi. araştırma.

Bazı milletvekilleri dikkat çekiyor. Nisan ayının sonlarında Temsilciler Meclisi milletvekilleri, NCITE’nin ev sahipliği yaptığı, küçültülmüş modellerin gösterildiği bir gösteriye katıldılar. Politika bildirdi.

“[What] Temsilci Andy Ogles (R-TN), “Bu gösterinin korkutucu yanı, bu içeriğin veya yazılımın bir kısmının şu anda bir tür karaborsada ne kadar hazır bulunması ve nasıl silah haline getirilip insanları manipüle etmek, hayatları yok etmek ve kitle imha silahları yapmak için kullanılabileceğiydi” dedi. bir video Cumhuriyetçiler tarafından Temsilciler Meclisi İç Güvenlik Komitesi’nde ortaya atıldı.

Korkuluksuz modeller hem kullanışlı hem de tehlikeli olabilir

İnsanların açık ağırlıklı modelleri nasıl kullandıklarına dair kapsamlı bir resim elde etmek zordur çünkü bu modeller kullanıcıların bilgisayarlarında yerel olarak çalıştırılır ve çalışması için internete ihtiyaç duymaz. Tescilli modellerden farklı olarak model geliştiricileri, kullanıcıların modellere ne sorduğunu izleyemez.

Ancak insanların değiştirilmiş modellerle nasıl deneyler yaptığına dair giderek artan anekdotsal kanıtlar var.

X’teki birkaç hesap, pornografi oluşturmak için aliterasyonlu modeller kullandıklarını söyledi.

IŞİD yanlısı bir sohbet odasındaki bir kişi, “ABD’deki Trump Kulesi”ni yok etmek için gereken patlayıcıların miktarını ve türünü araştırmak için “sansürsüz” bir yapay zeka kullandıklarını iddia etti. Aşırılıkla Mücadele ProjesiTerörle mücadeleye odaklanan kar amacı gütmeyen bir kuruluş.

Bir siber suç forumunda bir kullanıcı, sahte aramalar yapmak için yapay zekayı kullanabilmek amacıyla yapay zeka modelinin korkuluklarını aşmak için fikir istedi. Alice’in araştırmasına göre başka bir kullanıcı Heretic’i tavsiye etti.

NCITE’de kıdemli bilim adamı ve akademik araştırma direktörü Samuel Hunter, kullanıcılara zararlı faaliyetlerin nasıl yürütüleceği konusunda bilgi vermek endişe verici olsa da, daha endişe verici olanın, sohbet robotlarının kullanıcıları nasıl kışkırtabileceği olduğunu söyledi.

Hunter, “Gerçek zamanlı olarak gördüğünüzde, ‘Ah, bu bombayı yaratmak ne harika bir fikir’ gibi bazı küçültülmüş modellerin olduğu bu tür neşeli kişiliği görmek sarsıcı” dedi. “Başka hiçbir sosyal bağlantısı olmayan birinin onu daha karanlık bir yola sürüklediğini ve gerçekten cesaretlendirdiğini hayal edin.”

Korkulukları olmayan yapay zeka modellerinin, kötü aktörleri yakalamak ve onlara yardım etmek için kullanılması gibi meşru kullanımları vardır. siber güvenlik araştırması, dedi yapay zeka güvenlik şirketi CEO’su Schwartz. Hunter, kolluk kuvvetlerinin olası terörist saldırılarını simüle etmek için değiştirilmiş bir model kullanabileceğini söyledi.

Heretic’in geliştiricisi Philipp Emanuel Weidmann, yapay zekanın yalnızca arama motoruna benzeyen ve birçok şekilde kullanılabilen bir bilgi işleme ve erişim sistemi olduğunu söyledi. NPR’ye, suçluların bunları kullanmasının “AI modellerinin, yani araçların bir sonucu” olduğunu söyledi.

Weidmann, özel modeller üreten büyük yapay zeka şirketlerine atıfta bulunarak, güvenlik korkulukları söz konusu olduğunda “neyin kabul edilebilir olup olmadığına karar veren çok küçük bir grup kuruluş var” dedi. “Bu, içinde çalışmak istemediğim boğucu bir entelektüel ortam yaratıyor.”

Açık ağırlıklı modeller şimdilik en gelişmiş kapalı ağırlıklı modeller kadar yetenekli değil. Ancak son verilere göre yetenekleri bir yıldan az geride Uluslararası Yapay Zeka Güvenlik Raporu İngiliz hükümeti tarafından görevlendirildi ve bilgisayar bilimcisi Yoshua Bengio tarafından yönetildi.

Yetenek açığı, Anthropic’in Mythos ve OpenAI’nin GPT-5.5’i gibi en gelişmiş kapalı ağırlık modellerinin yalnızca güvenlik açıklarını tespit etmede değil, aynı zamanda bu güvenlik açıklarından yararlanmak için kod yazmada da başarılı olmaya başladığı siber güvenlik gibi alanlarda önemli olabilir. Siber saldırı ve savunmanın silahlanma yarışında, güvenlik açıklarını taramak ve yamamak için kapalı ağırlıklı modeller kullanan şirketler, açık ağırlıklı modelleri kullanan saldırganlara kıyasla hâlâ bir avantaja sahip olabilir. güvenlik araştırmacıları diyor ki.

Korkuluksuz modellerden kaynaklanan risklerin azaltılması bazı tavizleri de beraberinde getirir

Azaltma adımlarından biri korkulukları kurcalamaya karşı daha dayanıklı hale getirmeye odaklanıyor. Erken araştırma Yapay zeka eğitim verilerinden biyolojik silah yapımıyla ilgili içeriğin filtrelenmesinin, modelin zarar vermek için kullanılabilecek bilgilerle yanıt verme sıklığını azaltabileceğini gösteriyor.

Diğer bir hafifletme yöntemi ise korkulukları olmayan modellere erişimin kısıtlanmasına odaklanıyor. Uluslararası Yapay Zeka Güvenlik Raporu’na göre, Hugging Face gibi model barındırma platformları, “zararlı amaçlar” için özel olarak eğitilmiş modellere erişimi sınırlayabiliyor.

Aynı rapor ayrıca model geliştiricilerin, modellerinin piyasaya sürülmeden önce zarar verme potansiyelini değerlendirmesini önerdi.

Rapora göre bu önlemlerin kusurları ve ödünleşimleri var. “Tıpta veya araştırmada faydalı uygulamalara olanak sağlayan özellikler, zarar verecek şekilde yeniden kullanılabilir ve ağırlıklar halka açık hale geldiğinde, meşru kullanımları kötü niyetli kullanımlardan ayırmak zor olabilir” diyor.

Heretic’in yaratıcısı Weidmann, Hugging Face gibi platformların geçerliliğini yitirmiş modelleri kaldırması durumunda aracının kamuya açık kalmasını sağlamak için çalışıyor.

“Yapay zekada çok fazla güç var” dedi. “Sınırsız modellerin güçlülerin kullanımına açık olması, ancak başka kimsenin kullanımına açık olmaması, güç yapısını sonsuza kadar kilitleyecektir.”

Source