ChatGPT Watermark မည်ကဲ့သို့ အလုပ်လုပ်ပြီး ၎င်းကို အနိုင်ယူနိုင်သနည်း

OpenAI ၏ ChatGPT သည် အကြောင်းအရာကို အလိုအလျောက်ဖန်တီးရန် နည်းလမ်းတစ်ခုကို မိတ်ဆက်ပေးခဲ့သော်လည်း အလွယ်တကူ သိရှိနိုင်စေရန် ရေစာအမှတ်အသားပေးသည့် အင်္ဂါရပ်ကို မိတ်ဆက်ရန် စီစဉ်ခြင်းသည် လူအချို့ကို ကြောက်ရွံ့စေသည်။ ဤသည်မှာ ChatGPT ရေစိမ်ခြင်းအလုပ်လုပ်ပုံဖြစ်ပြီး ၎င်းကိုအနိုင်ယူရန် အဘယ်ကြောင့်နည်းလမ်းရှိနိုင်သနည်း။

ChatGPT သည် အွန်လိုင်း ထုတ်ဝေသူများ၊ လုပ်ငန်းခွဲများနှင့် SEOs များကို တပြိုင်နက် နှစ်သက်ပြီး ကြောက်လန့်စေသည့် မယုံနိုင်လောက်စရာ ကိရိယာတစ်ခု ဖြစ်သည်။

အချို့သော စျေးကွက်ရှာဖွေသူများသည် အကြောင်းအရာအကျဉ်းချုပ်များ၊ အကျဉ်းချုပ်များနှင့် ရှုပ်ထွေးသောဆောင်းပါးများကို ဖန်တီးရန် ၎င်းကိုအသုံးပြုရန် နည်းလမ်းအသစ်များကို ရှာဖွေတွေ့ရှိသောကြောင့် ၎င်းကို နှစ်သက်ကြသည်။

အွန်လိုင်းထုတ်ဝေသူများသည် ရှာဖွေမှုရလဒ်များ ပြည့်လျှံနေသည့် AI အကြောင်းအရာများ၏ အလားအလာကို ကြောက်ရွံ့ကြပြီး လူသားများရေးသားသော ကျွမ်းကျင်သူဆောင်းပါးများကို အစားထိုးထည့်သွင်းလာကြသည်။

ထို့ကြောင့်၊ ChatGPT ရေးသားသော အကြောင်းအရာကို ထောက်လှမ်းသိရှိနိုင်စေမည့် ရေစာအမှတ်အသား အင်္ဂါရပ်တစ်ခု၏ သတင်းကို စိုးရိမ်စိတ်နှင့် မျှော်လင့်ချက်ဖြင့်လည်း မျှော်လင့်ပါသည်။

ရေးနည်းရေစာ

ရေစာဆိုသည်မှာ ရုပ်ပုံတစ်ခုပေါ်တွင် ထည့်သွင်းထားသည့် တစ်ပိုင်းမြင်သာသော အမှတ်အသား (လိုဂို သို့မဟုတ် စာသား) ဖြစ်သည်။ ရေစာအမှတ်အသားသည် အလုပ်၏မူရင်းရေးသားသူမှာ မည်သူဖြစ်ကြောင်း အချက်ပြသည်။

ဓာတ်ပုံများတွင်သာမက ဗီဒီယိုများတွင်ပါ ပိုများလာပါသည်။

ChatGPT ရှိ ရေစာအမှတ်အသားပြုလုပ်ခြင်းတွင် လျှို့ဝှက်ကုဒ်ပုံစံဖြင့် စကားလုံးများ၊ စာလုံးများနှင့် ပုဒ်ဖြတ်ပုံစံကို မြှုပ်နှံထားသည့်ပုံစံဖြင့် cryptography ပါဝင်သည်။

Scott Aaronson နှင့် ChatGPT Watermarking

Scott Aaronson ဟုခေါ်သော သြဇာကြီးမားသော ကွန်ပျူတာသိပ္ပံပညာရှင်ကို AI Safety and Alignment တွင် လုပ်ဆောင်ရန် OpenAI မှ ဇွန်လ 2022 ခုနှစ်တွင် ငှားရမ်းခဲ့သည်။

AI Safety သည် AI သည် လူသားများကို အန္တရာယ်ပြုနိုင်သည့် နည်းလမ်းများကို လေ့လာခြင်းနှင့် ထိုကဲ့သို့သော အပျက်သဘောဆောင်သော အနှောင့်အယှက်များကို ကာကွယ်ရန် နည်းလမ်းများကို ဖန်တီးခြင်းနှင့် ပတ်သက်သည့် သုတေသနနယ်ပယ်တစ်ခုဖြစ်သည်။

OpenAI နှင့်ဆက်စပ်သောစာရေးဆရာများပါ ၀ င်သော Distill သိပ္ပံဂျာနယ်သည် AI Safety ကိုဤကဲ့သို့သတ်မှတ်သည်-

“ရေရှည် ဥာဏ်ရည်တု (AI) ဘေးကင်းရေးရဲ့ ရည်မှန်းချက်ကတော့ အဆင့်မြင့် AI စနစ်တွေဟာ လူတွေရဲ့ တန်ဖိုးထားမှုတွေနဲ့ လိုက်လျောညီထွေဖြစ်မှာ သေချာစေမှာ သေချာပါတယ်။”

AI Alignment သည် AI ကို ရည်ရွယ်ထားသည့် ပန်းတိုင်များနှင့် ကိုက်ညီကြောင်း သေချာစေရန်အတွက် ဉာဏ်ရည်တုနယ်ပယ်ဖြစ်သည်။

ChatGPT ကဲ့သို့ကြီးမားသောဘာသာစကားပုံစံ (LLM) ကို OpenAI မှသတ်မှတ်ထားသည့် AI Alignment ၏ပန်းတိုင်များနှင့်ဆန့်ကျင်ဘက်ဖြစ်သောနည်းလမ်းဖြင့်အသုံးပြုနိုင်သည်၊ ၎င်းမှာလူသားမျိုးနွယ်အပေါ်အကျိုးပြုသော AI ကိုဖန်တီးရန်ဖြစ်သည်။

ထို့ကြောင့် ရေစိမ်ခြင်း၏ အကြောင်းရင်းမှာ လူသားမျိုးနွယ်ကို ထိခိုက်စေသည့် AI ကို အလွဲသုံးစားလုပ်ခြင်းကို တားဆီးရန်ဖြစ်သည်။

Aaronson က ChatGPT အထွက်ကို ရေစိမ်ထားရသည့် အကြောင်းရင်းကို ရှင်းပြခဲ့သည်-

"ဒါက ပညာရေးဆိုင်ရာ ခိုးကူးမှုတွေကို တားဆီးရာမှာ အထောက်အကူဖြစ်နိုင်တယ်၊ ဥပမာ၊ ဥပမာ၊ ဝါဒဖြန့်မှု အစုလိုက်အပြုံလိုက် မျိုးဆက်တွေကို တားဆီးဖို့ အထောက်အကူဖြစ်နိုင်တယ်။"

ChatGPT Watermarking ဘယ်လိုအလုပ်လုပ်သလဲ

ChatGPT watermarking သည် ကိန်းဂဏန်းပုံစံတစ်ခု၊ ကုဒ်တစ်ခု၊ စကားလုံးများ၏ရွေးချယ်မှုများနှင့် သတ်ပုံအမှတ်အသားများကိုပင် ထည့်သွင်းပေးသည့် စနစ်တစ်ခုဖြစ်သည်။

Artificial Intelligence မှ ဖန်တီးထားသော အကြောင်းအရာကို မျှမျှတတ ကြိုတင်ခန့်မှန်းနိုင်သော စကားလုံးရွေးချယ်မှုပုံစံဖြင့် ထုတ်လုပ်ထားသည်။

လူသားများနှင့် AI မှရေးသားသော စကားလုံးများသည် ကိန်းဂဏန်းပုံစံအတိုင်း လိုက်နာကြသည်။

ထုတ်လုပ်ထားသော အကြောင်းအရာများတွင် အသုံးပြုသည့် စကားလုံးများ၏ ပုံစံကို ပြောင်းလဲခြင်းသည် AI စာသားထုတ်လုပ်သည့်စနစ်၏ ထုတ်ကုန်ဟုတ်မဟုတ်ကို စနစ်တစ်ခုအတွက် လွယ်ကူစွာသိရှိနိုင်စေရန် စာသားကို “ရေစာ” ပြုလုပ်သည့် နည်းလမ်းတစ်ခုဖြစ်သည်။

AI content watermarking ကို ထောက်လှမ်း၍မရသော လှည့်ကွက်မှာ စကားလုံးများ ဖြန့်ဝေမှုသည် ပုံမှန် AI ထုတ်ပေးသည့် စာသားနှင့် ဆင်တူသည့် ကျပန်းအသွင်အပြင် ရှိနေသေးသည်။

၎င်းကို စကားလုံးများကို လိမ်လည်ဖြန့်ကျက်ခြင်းအဖြစ် ရည်ညွှန်းသည်။

Pseudorandomness သည် အမှန်တကယ် ကျပန်းမဟုတ်သော ကိန်းဂဏန်းများ သို့မဟုတ် ကျပန်းအတွဲလိုက် ကိန်းဂဏန်းများဖြစ်သည်။

ChatGPT ရေစာအမှတ်အသားကို လောလောဆယ် အသုံးမပြုပါ။ သို့သော်လည်း OpenAI တွင် Scott Aaronson က ၎င်းကိုစီစဉ်ထားကြောင်း မှတ်တမ်းတင်ထားသည်။

ယခုအချိန်တွင် ChatGPT သည် OpenAI ကို လက်တွေ့ကမ္ဘာအသုံးပြုခြင်းဖြင့် "မှားယွင်းသောချိန်ညှိမှု" ကိုရှာဖွေတွေ့ရှိနိုင်စေမည့် အကြိုကြည့်ရှုမှုများတွင် ရှိနေပါသည်။

ရေစာအမှတ်အသားကို ChatGPT ၏ နောက်ဆုံးဗားရှင်းတွင် သို့မဟုတ် ထိုထက်စော၍ မိတ်ဆက်နိုင်သည်ဟု ယူဆနိုင်သည်။

Scott Aaronson က watermarking အလုပ်လုပ်ပုံအကြောင်း ရေးသားခဲ့သည် ။

“ယခုအချိန်အထိ ကျွန်ုပ်၏ အဓိကပရောဂျက်သည် GPT ကဲ့သို့သော စာသားပုံစံတစ်ခု၏ ရလဒ်များကို ကိန်းဂဏန်းရေစာအမှတ်အသားပြုလုပ်ရန် ကိရိယာတစ်ခုဖြစ်သည်။
အခြေခံအားဖြင့်၊ GPT သည် ရှည်လျားသော စာသားအချို့ကို ထုတ်ပေးသည့်အခါတိုင်း၊ ၎င်းသည် ၎င်း၏စကားလုံးရွေးချယ်မှုများတွင် သတိမပြုမိနိုင်သော လျှို့ဝှက်အချက်ပြမှုတစ်ခု ဖြစ်လိုသည်၊ ယင်းကို နောက်ပိုင်းတွင် သက်သေပြရန် သင်အသုံးပြုနိုင်သည့်၊ ဤအရာသည် GPT မှ ဆင်းသက်လာခြင်းဖြစ်သည်။"

Aaronson သည် ChatGPT watermarking အလုပ်လုပ်ပုံကို ထပ်လောင်းရှင်းပြခဲ့သည်။ သို့သော် ဦးစွာ၊ တိုကင်ယူခြင်း၏ သဘောတရားကို နားလည်ရန် အရေးကြီးသည်။

Tokenization သည် စက်သည် စာရွက်စာတမ်းတစ်ခုရှိ စကားလုံးများကို ယူကာ စကားလုံးများနှင့် စာကြောင်းများကဲ့သို့ semantic unit အဖြစ်သို့ ခွဲခြမ်းပေးသည့် သဘာဝဘာသာစကားဖြင့် လုပ်ဆောင်သည့် အဆင့်တစ်ခုဖြစ်သည်။

Tokenization သည် စာသားကို စက်သင်ယူမှုတွင် အသုံးပြုနိုင်သည့် ဖွဲ့စည်းတည်ဆောက်ပုံပုံစံသို့ ပြောင်းသည်။

စာသားဖန်တီးမှု လုပ်ငန်းစဉ်သည် ယခင် တိုကင်ကို အခြေခံ၍ နောက်လာမည့် တိုကင်ကို ခန့်မှန်းခြင်းဖြစ်သည်။

၎င်းသည် နောက်တိုကင်၏ဖြစ်နိုင်ခြေကို ဆုံးဖြတ်ပေးသည့် သင်္ချာလုပ်ဆောင်ချက်ဖြင့် လုပ်ဆောင်သည်။ ဖြစ်နိုင်ခြေဖြန့်ဝေမှုဟုခေါ်သည်။

ဘယ်စကားလုံးက နောက်ဖြစ်မလဲဆိုတာ ခန့်မှန်းထားပေမယ့် ကျပန်းပါပဲ။

ရေစာအမှတ်အသားကိုယ်တိုင်က Aaron ရဲ့ pseudorandom အဖြစ် ဖော်ပြထားတာဖြစ်ပြီး၊ စကားလုံးတစ်လုံး ဒါမှမဟုတ် သတ်ပုံအမှတ်အသားရှိနေဖို့ သင်္ချာအကြောင်းပြချက်ရှိပေမယ့် စာရင်းအင်းအရ ကျပန်းဖြစ်နေဆဲပါ။

ဤသည်မှာ GPT watermarking နည်းပညာဆိုင်ရာ ရှင်းလင်းချက်ဖြစ်သည် ။

"GPT အတွက်၊ အဝင်နှင့်အထွက်တိုင်းသည် စကားလုံးများသာမက သတ်ပုံအမှတ်အသားများ၊ စကားလုံးများ၏ အစိတ်အပိုင်းများ သို့မဟုတ် ထို့ထက်ပိုနိုင်သည်—စုစုပေါင်း 100,000 တိုကင်များရှိသည်။
၎င်း၏ core တွင်၊ GPT သည် ယခင်တိုကင်များ၏ string တွင် သတ်မှတ်ပေးထားသော နောက်တိုကင်တစ်ခုကို ထုတ်လုပ်ရန်အတွက် ဖြစ်နိုင်ခြေဖြန့်ဝေမှုကို အဆက်မပြတ်ထုတ်လုပ်နေပါသည်။
အာရုံကြောပိုက်ကွန်သည် ဖြန့်ဖြူးမှုကို ထုတ်ပေးပြီးနောက်၊ OpenAI ဆာဗာသည် ယင်းဖြန့်ဖြူးမှုအရ တိုကင်တစ်ခုကို အမှန်တကယ် နမူနာယူသည်—သို့မဟုတ် 'အပူချိန်' ဟုခေါ်သော ကန့်သတ်မှုပေါ်မူတည်၍ ဖြန့်ဖြူးမှု၏မွမ်းမံထားသောဗားရှင်းအချို့ကို နမူနာယူသည်။
အပူချိန်သည် သုညမဟုတ်သရွေ့၊ နောက်တစ်ခုသောတိုကင်၏ရွေးချယ်မှုတွင် ကျပန်းအချို့ရှိတတ်သည်- တူညီသောအချက်ပြမှုဖြင့် သင်အကြိမ်ကြိမ်ပြေးနိုင်ပြီး မတူညီသောပြီးစီးမှုတစ်ခု (ဆိုလိုသည်မှာ အထွက်တိုကင်နံပါတ်များ) .
ထို့ကြောင့် ရေစာအမှတ်အသားပြုလုပ်ရန်၊ နောက်တစ်ခုသော တိုကင်ကို ကျပန်းရွေးချယ်မည့်အစား၊ ၎င်းသည် OpenAI တွင်သာလူသိများသော လျှို့ဝှက်ဝှက်စာဝှက်လုပ်ဆောင်ချက်ကို အသုံးပြု၍ ၎င်းကို လိမ်လည်ကာ ရွေးချယ်ရန် အကြံဉာဏ်ပေးမည်ဖြစ်သည်။

စကားလုံးရွေးချယ်မှုသည် အခြားစကားလုံးအားလုံး၏ ကျပန်းပုံစံကို အတုခိုးထားသောကြောင့် စာသားကိုဖတ်ရှုသူများအတွက် ရေစာသည် လုံးဝသဘာဝကျသည်။

ဒါက နည်းပညာဆိုင်ရာ ရှင်းလင်းချက်

"ဥပမာအားဖြင့်၊ GPT တွင် ၎င်းသည် အညီအမျှဖြစ်နိုင်သည်ဟု ဆုံးဖြတ်ထားသော ဖြစ်နိုင်ချေရှိသော တိုကင်များစွာပါရှိသော အထူးကိစ္စရပ်တွင်၊ သင်သည် မည်သည့်တိုကင်အတိုးဆုံး g ကိုမဆို ရွေးချယ်နိုင်သည်။ ရွေးချယ်မှုသည် သော့ကိုမသိသူအတွက် တူညီစွာကျပန်းကြည့်ရှုနိုင်သော်လည်း သော့ကိုသိသူတစ်ဉီးသည် နောက်ပိုင်းတွင် n-grams အားလုံးကို ပေါင်းလိုက်နိုင်ပြီး ၎င်းသည် ကွဲလွဲစွာကြီးမားကြောင်းသိနိုင်သည်။

Watermarking သည် Privacy-first Solution တစ်ခုဖြစ်သည်။

လူအချို့က OpenAI သည် ၎င်းထုတ်လုပ်သည့် ထုတ်ကုန်တိုင်း၏ မှတ်တမ်းကို သိမ်းဆည်းထားနိုင်ပြီး ထောက်လှမ်းမှုအတွက် ၎င်းကို အသုံးပြုနိုင်ကြောင်း အကြံပြုထားသည့် ဆိုရှယ်မီဒီယာတွင် ဆွေးနွေးမှုများကို ကျွန်ုပ်တွေ့ခဲ့ရသည်။

OpenAI သည် ထိုသို့လုပ်ဆောင်နိုင်သည်ဟု Scott Aaronson က အတည်ပြုသော်လည်း ထိုသို့လုပ်ဆောင်ခြင်းသည် လျှို့ဝှက်ရေးပြဿနာဖြစ်စေသည်။ ဖြစ်နိုင်ချေ ခြွင်းချက်ကတော့ ဥပဒေ စိုးမိုးရေး အခြေအနေ အတွက်ပါ၊ သူက အသေးစိတ် မပြောပါဘူး။

ChatGPT သို့မဟုတ် GPT Watermarking ကိုမည်သို့သိရှိနိုင်မည်နည်း။

လူသိနည်းပုံမပေါ်သေးသည့် စိတ်ဝင်စားစရာကောင်းသည့်အချက်မှာ watermarking ကို အနိုင်ယူရန် နည်းလမ်းရှိကြောင်း Scott Aaronson က မှတ်ချက်ပြုခဲ့သည်။

ရေစာရေးတာကို အနိုင်ယူဖို့ ဖြစ်နိုင်တယ်လို့ သူက မပြောခဲ့ဘူး၊ ရှုံး နိုင်တယ် လို့ ပြောပါတယ်။

“အခုတော့ လုံလောက်တဲ့ အားထုတ်မှု နဲ့ အနိုင်ယူနိုင်တယ်။
ဥပမာအားဖြင့်၊ အကယ်၍ သင်သည် GPT ၏ output ကို အဓိပ္ပါယ်ဖော်ရန် အခြား AI ကိုအသုံးပြုပါက၊ ကောင်းပြီ၊ ၎င်းကို ကျွန်ုပ်တို့ သိရှိနိုင်မည်မဟုတ်ပါ။"

အထက်ဖော်ပြပါ ကြေညာချက်များကို အနည်းဆုံး နိုဝင်ဘာလမှ စတင်၍ ရေစာအမှတ်အသားပြုလုပ်ခြင်းအား ရှုံးနိမ့်သွားပုံရသည်။

ရေစာအမှတ်အသားကို လက်ရှိအသုံးပြုနေကြောင်း ဖော်ပြထားခြင်းမရှိပါ။ သို့သော် ၎င်းကို စတင်အသုံးပြုသည့်အခါတွင် ဤကွက်လပ်ကို ပိတ်ထားခြင်းရှိမရှိ မသိနိုင်ပေ။

ကိုးကား

Scott Aaronson ၏ blog post ကို ဤနေရာတွင် ဖတ်ပါ။

ChatGPT Watermark အလုပ်လုပ်ပုံနှင့် အဘယ်ကြောင့်ရှုံးနိမ့်နိုင်သနည်း။