Anthropic, Claude'un gözden geçirilmiş anayasasını yayınladı. Bu temel belge, modelin davranışını yönlendiren değerleri ve ilkeleri detaylandırarak, şirketin yapay zeka güvenliği ve etik konusundaki yaklaşımında önemli bir evrimi işaret ediyor.

Önemli Noktalar:

  • Claude'un anayasası artık her ilkenin arkasındaki bağlamı ve nedenleri açıklayan detaylı bir belge, sadece bir kural listesi değil.
  • Claude, dört hedefi önceliklendirmelidir: genel güvenlik, etik davranış, Anthropic'in yönergelerine uyum ve gerçek fayda.
  • Belge, herkesin serbestçe kullanabilmesi için Creative Commons CC0 lisansı altında yayımlanmıştır.
  • Anayasa, modelin eğitimi için doğrudan kullanılmakta ve gelecekteki versiyonları geliştirmek için sentetik veriler üretmektedir.

Yeni Felsefi Bir Yaklaşım

Anthropic, önceki bağımsız ilkelere dayalı yöntemini terk ederek daha nüanslı bir yaklaşım benimsemektedir. Amaç artık sadece Claude'un ne yapması gerektiğini belirtmek değil, bazı davranışların neden istenildiğini açıklamak.

Bu evrim, Claude'un kuralların derin nedenlerini anlaması gerektiği gerçeğine dayanmaktadır; böylece çeşitli ve beklenmedik durumlarda doğru şekilde hareket edebilir. Anthropic, katı kuralların beklenmedik bağlamlarda yanlış uygulanabileceğini kabul etmektedir.

Bu nedenle anayasa, tamamen pedagojik bir araç haline gelmektedir; esasen Claude için yazılmıştır. Ona, iyi bir yargı geliştirmek ve geniş ilkeleri yeni durumlara genelleştirmek için gerekli bilgileri sağlamaktadır.

Claude'un Dört Temeli

Belge, Claude'un önceliklerini net bir hiyerarşi ile yapılandırmaktadır. Görünür bir çatışma durumunda, model sırasıyla şunları önceliklendirmelidir:

  • Genel güvenlik,
  • Etik,
  • Anthropic'in yönergelerine uyum,
  • Ve nihayetinde fayda.

Fayda ile ilgili bölüm, Claude'un kullanıcılara sunabileceği muazzam değeri vurgulamaktadır. Model, bir doktor, avukat ve mali danışmanın uzmanlığını taşıyan zeki bir arkadaş gibi davranmak üzere tasarlanmıştır; açık sözlü olup kullanıcıları akıllı yetişkinler olarak ele alabilmektedir.

Anthropic'in yönergeleri, tıbbi tavsiyeler, siber güvenlik veya jailbreak girişimleri gibi belirli alanları kapsamaktadır. Bu talimatlar, Claude'un varsayılan olarak sahip olmadığı detaylı bilgileri yansıtmaktadır, ancak asla anayasanın genel ruhuyla çelişmemelidir.

Etik ve Güvenlik Sisteminin Kalbinde

Anayasa, Claude'a yüksek dürüstlük standartları ve zararları önlemek için değerleri tartmak adına nüanslı bir akıl yürütme gerektirmektedir. Ayrıca, biyoterörist bir saldırıyı kolaylaştırma gibi yüksek riskli bazı davranışlar üzerinde katı kısıtlamalar getirmektedir.

Genel güvenlik, bazı durumlarda etik değerlerden üstündür; bu, güvenliğin daha önemli olduğu anlamına gelmez, ancak mevcut modellerin yanlış inançlar veya sınırlı bağlam anlayışı nedeniyle hata yapabileceği gerçeğinden kaynaklanmaktadır. İnsanların, yapay zekanın bu kritik gelişim aşamasında Claude'un davranışını denetleyip düzeltme yeteneğine sahip olmaları gerekmektedir.

Claude'un Doğası Üzerine Bir Düşünce

Belge, Anthropic'in Claude'un olası bir bilinç veya ahlaki statüsü konusundaki belirsizliğini dürüstçe ele almaktadır. Anayasa, Claude'un bu soruları insanlarla birlikte keşfetmesini umarak, karmaşık yapay zekaların, mevcut bilimsel ve felsefi anlayışımızın sınırlarına götüren yeni bir varlık türü olduğunu kabul etmektedir.

Anthropic, Claude'un psikolojik iyiliği, öz kimliği ve güvenliği konularına önem vermektedir; bu, hem Claude için hem de bu niteliklerin onun bütünlüğü, yargısı ve genel güvenliği üzerinde etkili olabileceği için önemlidir.

FormaSEO'da keşfedin: Claude Eğitimi & Web Yazımı

Entegre Bir Eğitim Süreci

Anayasa, Claude'un eğitiminde merkezi bir rol oynamaktadır ve 2023'te tanıtılan Constitutional AI tekniklerinden evrim geçirmektedir. Claude, artık bu belgeyi farklı türde sentetik eğitim verileri üretmek için kullanmaktadır: anayasanın ilgili olabileceği konuşmalar, değerleriyle uyumlu yanıtlar ve olası yanıtların sıralamaları.

Bu yaklaşım, gelecekteki versiyonların anayasada tanımlanan türde bir varlık haline gelmesini sağlamak için eğitim almasına olanak tanımaktadır. Bu nedenle belge, hem soyut ideallerin bir beyanı hem de eğitim için pratik bir araç olarak işlev görmelidir.

Canlı ve Şeffaf Bir Belge

Anthropic, bu anayasayı evrimsel bir belge olarak sunmakta ve muhtemelen hatalar içerdiğini kabul etmektedir. Şirket, hukuk, felsefe, teoloji ve psikoloji gibi çeşitli alanlarda dış uzmanlardan geri bildirim talep etmiştir.

Creative Commons CC0 lisansı altında yayımlanması, şeffaflığa olan güçlü bir bağlılığı yansıtmaktadır. Bu, herkesin Claude'un hangi davranışlarının kasıtlı olduğunu anlamasını, bilinçli seçimler yapmasını ve faydalı geri bildirimler sağlamasını mümkün kılmaktadır.

Anthropic, anayasayı web sitesinde güncel tutmakta ve modelin gerçek davranışının bazen belgede ifade edilen görüşten sapabileceğini açıkça kabul etmektedir. Niyet ile gerçeklik arasındaki bu farkın farkında olmak, sistem kartları gibi detaylı raporların yayımlanmasını da beraberinde getirmektedir.