مۆدێلی زمانی گەورە

مۆدێلی زمانی گەورە (LLM) مۆدێلێکی بژمێرە (computational) کە توانای درووستکردنی زمان یان ئەرکەکانی تری پێواژۆی زمانی سروشتی natural language processingھەیە. وەک مۆدێلی زمان، LLMەکان ئەم توانایانە بەدەست دەھێنن بە فێربوونی پەیوەندییە ئامارییەکان لە بڕێکی زۆر لە دەق لە کاتی پرۆسەی ڕاھێنانی خۆسەرپەرشتیکراو و نیمچە سەرپەرشتیکراودا.^[١]

گەورەترین و بەتواناترین LLM، ھەتا ڕێکەوتی ئابی ٢٠٢٤^{[نوێکردنەوە]}، تۆڕە دەمارییە دەستکردەکانن کە بە بیناسازییەکی پشتبەستوو بە ترەنسفۆرمەری تەنھا دیکۆدەر دروستکراون، کە پرۆسێسکردنی کارا و دروستکردنی داتای دەقی گەورە دەکات. دەتوانرێت مۆدێلە مۆدێرنەکان بۆ ئەرکە تایبەتەکان ورد بکرێتەوە یان دەتوانرێت بە ئەندازیاری دەستووری ڕێنمایی بکرێن.^[٢] ئەم مۆدێلانە ھێزی پێشبینیکردن بەدەست دەھێنن سەبارەت بە ڕستەسازی، واتاسازی و بوون ناسی (ئۆنتۆلۆژیا) کە لە کۆدەقەکانی (corpora) زمانی مرۆڤدا ھەن، بەڵام ھەروەھا نادروستی و لایەنگرییەکانیش بە میرات دەگرن کە لە پێدراوەکاندا ھەن کە لەسەریان ڕاھێنراون.^[٣]

ھەندێک لە LLMە جێگای سەرنجەکان بریتین لە زنجیرە مۆدێلەکانی GPT ی OpenAI (بۆ نموونە، GPT-3.5، GPT-4 و GPT-4o ; لە ChatGPT و Microsoft Copilot بەکاردێت)، Gemini ی گووگڵ (کە دووەمیان لە ئێستادا لە بۆتێکی دوێنەر بە ھەمان ناو بە کار دەھێنرێت)، خێزانی مۆدێلەکانی LLaMA ی مێتا، مۆدێلەکانی گرانیتی IBM کە سەرەتا لەگەڵ Watsonx بڵاوکرانەوە، مۆدێلەکانی Claude ی Anthropic و مۆدێلەکانی Mistral AI.

مێژوو

پێش ساڵی ٢٠١٧ چەند مۆدێلێکی زمان ھەبوون کە گەورە بوون بە بەراورد بەو تواناکانی کە ئەوکاتە کە لە بەردەست بوون. لە ساڵانی ١٩٩٠ەکاندا، مۆدێلەکانی ڕێکخستنی IBM پێشەنگ بوون لە مۆدێلکردنی زمانی ئاماری. مۆدێلێکی نەرمکراوی n-گرام لە ساڵی ٢٠٠١ کە لەسەر ٠٫٣ ملیار وشە ڕاھێنرابوو، باشترین (SOTA) سەرلێشێواوی (perplexity) ئەوکاتەی بەدەستھێنا.^[٤] لە ساڵانی ٢٠٠٠دا، لەگەڵ بڵاوبوونەوەی بەکارھێنانی ئینتەرنێت، ھەندێک لە توێژەران کۆمەڵە داتایەکی زمانییان لەسەر ئاستی ئینتەرنێت دروست کرد ("وێب وەک کۆمەڵەدەق"^[٥])، کە لەسەریان مۆدێلی زمانی ئامارییان ڕاھێنا.^[٦]^[٧] لە ساڵی ٢٠٠٩دا، بەھۆی توانای ھەرسکردنی کۆمەڵە داتای گەورە بە شێوازێکی کارا، لە زۆربەی ئەرکەکانی پرۆسێسی زماندا، مۆدێلی زمانی ئاماری زاڵ بوو بەسەر مۆدێلی زمانی ھێماداردا.^[٨]

دوای ئەوەی تۆڕە دەمارییەکان لە دەوروبەری ساڵی ٢٠١٢دا زاڵ بوون لە پرۆسێسی وێنەدا، ئەوان لە مۆدێلکردنی زمانیشدا بەکارھێنران. گووگڵ لە ساڵی ٢٠١٦ خزمەتگوزاری وەرگێڕانی خۆی گۆڕی بۆ وەرگێڕانی ئامێری دەمار. پێش ترەنسفۆرمەرەکان (Transformers)، بە تۆڕەکانی seq2seq deep LSTM ئەنجام دەدرا.

نموونەیەک لە پێکھاتەی سەرەکی مۆدێلی ترانسفۆرمەر لە وتارە سەرەکییەکەی، کە چینەکان دوای (لەبری پێش) سەرنجی فرە-سەر ئاسایی دەکرانەوە

لە کۆنفرانسی NeurIPS 2017، توێژەرانی گووگڵ لە وتارە گرینگەکەیاندا " Attention Is All You Need " بیناسازی ترەنسفۆرمەر ناساند. ئامانجی ئەم توێژینەوەیە باشترکردنی تەکنەلۆژیای Seq2seq 2014 بوو،^[٩] و بە شێوەیەکی سەرەکی لەسەر بنەمای میکانیزمی سەرنجدان بوو کە لەلایەن Bahdanau et al. لە ساڵی ٢٠١٤ پێشنیار کرابوو. ساڵی دواتر لە ساڵی ٢٠١٨دا، BERT ناسێندرا و بە خێرایی «گشتگیر» بوو.^[١٠] ھەرچەندە ترەنسفۆرمەرە ڕەسەنەکە ھەردوو بلۆکی ئینکۆدەر و دیکۆدەری ھەیە، بەڵام BERT مۆدێلێکی تەنھا ئینکۆدەرە.

ھەرچەندە مۆدیلی تەنیا-دیکۆدەری GPT-1 لە ساڵی ٢٠١٨ ناسێندرا، بەڵام ئەوە GPT-2 بوو لە ساڵی ٢٠١٩ کە سەرنجی زۆری ڕاکێشا چونکە OpenAI سەرەتا بە زۆر بەھێزی زانی بۆ ئەوەی بڵاوی بۆ-گشتی بکاتەوە، لە ترسی بەکارھێنانی بە شێوازێکی زیانبەخش.^[١١] GPT-3 لە ساڵی ٢٠٢٠ ھەنگاوێکی زیاتر ڕۆیشت و ھەتا ڕێکەوتی ٢٠٢٤^{[نوێکردنەوە]} تەنھا لە ڕێگەی API بەردەستە بەبێ ئەوەی ھیچ پێشکەشکردنی دابەزاندنی مۆدێلەکە بۆ جێبەجێکردنی خۆجێیی ببێت؛ بەڵام ئەوە ChatGPT بوو کە لە ساڵی ٢٠٢٢دا ڕووبەڕووی بەکاربەر بووەوە کە لەسەر بنەمای وێبگەڕ بوو کە خەیاڵی دانیشتووانی گشتی گرت و بووە ھۆی ھەندێک بانگەشەی میدیا و جەنجاڵی ئۆنلاین. ئۆتۆمبێلی GPT-4 ی ساڵی ٢٠٢٣ بەھۆی زیادبوونی وردبینییەوە و وەک «جامێکی پیرۆز» بەھۆی توانا فرە شێوازییەکانییەوە ستایشی کرا.^[١٢] OpenAI پوختەی بیناسازی و ژمارەی پارامێتەرەکانی GPT-4ی ئاشکرا نەکرد.

مۆدێلی زمانی کێبڕکێکار لە زۆربەی کاتەکاندا ھەوڵیان داوە لەگەڵ زنجیرەی GPT یەکسان ببنەوە، لانیکەم لە ڕووی ژمارەی پارامێتەرەکانەوە.

لە ساڵی ٢٠٢٢ەوە، مۆدێلەکانی سەرچاوەی بەردەست ناوبانگیان بەدەستھێناوە، بە تایبەت لە سەرەتادا لەگەڵ BLOOM و LLaMA، ھەرچەندە ھەردووکیان سنووردارکردنیان لە بواری بەکارھێناندا ھەیە. مۆدێلەکانی Mistral AI Mistral 7B و Mixtral 8x7b مۆڵەتی ئەپاچییان ھەیە کە ڕێگەپێدراوترە. ھەتا ڕێکەوتی حوزەیرانی ٢٠٢٤^{[نوێکردنەوە]}, جۆری ڕێنمایی کراو (Instruction fine tuned) لە مۆدێلی Llama ٣ بە ٧٠ ملیارد پارامێتەرەوە بەھێزترین LLMی سەرچاوە کراوەیە بەپێی LMSYS Chatbot Arena Leaderboard، بەھێزترە لە GPT-3.5 بەڵام بەڵام نەک ئەوەندەی GPT-4.

لە ساڵی ٢٠٢٤ەوە گەورەترین و بەتواناترین مۆدێلەکان ھەموویان لەسەر بنەمای بیناسازی ترانسفۆرمەرە. ھەندێک لە جێبەجێکردنەکانی ئەم دوایییە لەسەر بنەمای بیناسازییەکانی ترە، وەک جۆرەکانی تۆڕی دەماری دووبارەبووەوە و مامبا (مۆدێلێکی دۆخ مەودا -- a state space model).^[١٣]^[١٤]

پێش-کرداری (پێش پرۆسێسکردن- Preprocessing) پێدراوەکان

بە ھێما (نیشانە) کردن (Tokenization)

لەبەر ئەوەی ئەلگۆریتمەکانی فێربوونی ئامێر ژمارەکان پرۆسێس دەکەن نەک دەق، دەقەکە دەبێت بگۆڕدرێت بۆ ژمارە. لە ھەنگاوی یەکەمدا بڕیار لەسەر وشەدانێک دەدرێت، پاشان پێوەرەکانی ژمارە تەواوەکان بە ھەڕەمەکی بەڵام بە بێ دووبارە بوونەوە بۆ ھەر پێدراوەیەکی وشەدانەکە دیاری دەکرێن و لە کۆتاییدا، جێگیرکردنێک پەیوەست دەکرێت بە جێپێوەرە (index) ژمارە تەواوەکانەوە. ئەلگۆریتمەکان بریتین لە کۆدکردنی جووتە بایت (BPE) و WordPiece. ھەروەھا نیشانە تایبەتەکان ھەن کە وەک کاراکتەری کۆنترۆڵ کاردەکەن، وەک [MASK] بۆ نیشانەی دەمامککراو (وەک لە BERT بەکارھاتووە)، و [UNK] ("نەناسراو") بۆ ئەو کاراکتەرانەی کە لە وشەسازیدا دەرناکەون.

بۆ نموونە، بەھێماکەری BPE کە لەلایەن GPT-3 (Legacy) بەکاردەھێنرێت tokenizer: texts -> series of numerical "tokens" دابەش دەکات بە

ens

ok

t

"

numerical

of

series

<

texts

:

izer

token

ھەروەھا بەھێما کردن کۆمەڵە پێدراوەکان پاڵەپەستۆ دەکات. لەبەر ئەوەی LLMەکان بەگشتی پێویستیان بە پێدراوەیەکی ڕیزکراو ھەیە کە زەق نەبێت، دەقە کورتەکان دەبێت "پڕکرانەوە" بکرێن تاوەکو لەگەڵ درێژی درێژترینەکەدا بگونجێن. ژمارەی ھێماکان بۆ ھەر وشەیەک بەندە بە زمانی داتا کۆمەڵەپێدراوەکەوە.^[١٥]^[١٦]

کۆدکردنی جووتە بایت (BPE)

وەک نموونەیەک، بەھێماکەرێک لەبەرچاو بگرن کە لەسەر بنەمای کۆدکردنی جووتە بایت دامەزراوە. لە ھەنگاوی یەکەمدا، ھەموو پیتە ناوازەکان (لەوانەش بۆشایییەکان و نیشانەکانی خاڵبەندی) وەک کۆمەڵەیەکی سەرەتایی n-گرام (واتە کۆمەڵەیەکی سەرەتایی یەک گرام) مامەڵەیان لەگەڵ دەکرێت. یەک لە دوای یەک زۆرترین جووتە کارەکتەری تەنیشت یەکتر تێکەڵ دەکرێن بۆ دوو گرام و ھەموو نموونەکانی جووتەکە بەو جێگایە دەگۆڕدرێن. ھەموو ڕوودانی جووتە تەنیشت یەکەکانی (پێشتر یەکگرتوو) n -گرامەکان کە زۆرترین جار پێکەوە ڕوودەدەن دواتر دووبارە تێکەڵ دەکرێنەوە بۆ تەنانەت درێژتر n-گرام، تاوەکو وشەدانێکی قەبارە دیاریکراو بەدەست دێت (لە حاڵەتی GPT-3، قەبارەکە 50257).^[١٧] دوای ئەوەی بەھێماکەرێک ڕاھێنرا، ھەر دەقێک دەتوانرێت لەلایەن ئەوەوە بەھێما بکرێت، بە مەرجێک ئەو کاراکتەرانەی تێدا نەبێت کە لە کۆمەڵە سەرەتایییەکەی یونی-گرامەکاندا دەرنەکەوتوون.^[١٨]

کێشەکان

وشەدانی نیشانەکان لەسەر بنەمای ئەو دووباربوونەوانەی (فرێکوێنسییانەی) کە لە کۆمەڵەدەقەکانی ئینگلیزییەوە وەرگیراون، تا دەتوانرێت کەمترین نیشانە بۆ وشەیەکی ئینگلیزی مامناوەند بەکاردەھێنێت. وشەیەکی مامناوەند لە زمانێکی تردا کە لەلایەن بەھێماکەرێکی ئینگلیزی باشکراوەوە کۆد کرابێت، بەسەر بڕی ھێمای ژێر-گونجاودا دابەش دەکرێت. بەھێماکەری GPT-2 دەتوانێت تا ١٥ ھێندە زیاتر تۆکن لە ھەر وشەیەکدا بۆ ھەندێک زمان بەکاربھێنێت، بۆ نموونە بۆ زمانی شان لە میانمارەوە. تەنانەت زمانە بەربڵاوترەکانی وەک پورتوگالی و ئەڵمانی "بە بەراورد بە ئینگلیزی "کارایییەکی ٥٠٪"یان ھەیە.^[١٩]

ھەروەھا بەھێماکردنی تەماحکار کێشەی ورد لە تەواوکردنی دەقدا دروست دەکات.^[٢٠]

پاککردنەوەی کۆمەڵە پێدراوە (Dataset)

لە چوارچێوەی ڕاھێنانی LLMەکاندا، کۆمەڵە پێدراوەکان بە شێوەیەکی گشتی بە لابردنی دەقە نالەبارەکان لە کۆمەڵە دەقەکان، فڕێدانی پێدراوە کوالیتی نزمەکان و دووبارە نەکردنەوە، پاک دەکرێنەوە. کۆمەڵە پێدراوە پاککراوەکان دەتوانن کارایی ڕاھێنان زیاد بکەن و ببێتە ھۆی باشترکردنی بەکارھێنانەکانی دواتر.^[٢١]^[٢٢] دەتوانرێت LLM ی ڕاھێنراو بەکاربھێنرێت بۆ پاککردنەوەی داتا سێتەکان بۆ ڕاھێنانی LLM ی زیاتر.

لەگەڵ زیادبوونی ڕێژەی ناوەڕۆکی دروستکراوی LLM لە وێبدا، پاککردنەوەی پێدراوەکان لە داھاتوودا ڕەنگە فلتەرکردنی ئەو جۆرە ناوەڕۆکە لەخۆبگرێت. ناوەڕۆکی دروستکراوی LLM دەتوانێت کێشەیەک دروست بکات ئەگەر ناوەڕۆکەکە ھاوشێوەی دەقی مرۆڤ بێت (کە فلتەرکردن قورس دەکات) بەڵام کوالیتی نزمتر بێت (دابەزاندنی دەدای ئەو مۆدێلانەی کە لەسەری ڕاھێنراون).^[٢٣]

پێدراوەی دەستکرد

ڕاھێنانی گەورەترین مۆدێلی زمان لەوانەیە زیاتر پێویستی بە پێدراوەی زمانەوانی ھەبێت لەوەی کە بە شێوەیەکی سروشتی بەردەستە، یان کە پێدراوەکانی سروشتی کە ڕوودەدەن کوالیتییەکی تەواویان نییە. لەم حاڵەتانەدا، ڕەنگە پێدراوەی دروستکراو بەکاربھێنرێت. زنجیرەی LLM ی Phi ی مایکرۆسۆفت لەسەر پێدراوەکانی ھاوشێوەی کتێبی خوێندن ڕاھێنراون کە لەلایەن LLM ی ترەوە دروست دەکرێن.^[٢٤]

ڕاھێنان و بیناسازی

فێربوونی بەھێزکردنی لە پێڕاگەیاندنەوەی مرۆڤی (RLHF)

فێربوونی بەھێزکردن لە پێڕاگەیاندنەوەی مرۆڤ (RLHF) لە ڕێگەی ئەلگۆریتمەکانەوە، وەکو باشکردنی سیاسەتی نزیک، بەکاردەھێنرێت بۆ زیاتر باشکردنی مۆدێلێک لەسەر بنەمای کۆمەڵە پێدراوەیەکی پەسەندکردنی مرۆڤ.^[٢٥]

باشتر کردن بە ڕێنمایییەکان

بە بەکارھێنانی ڕێبازەکانی «خۆڕێنمایی»، LLM توانیویانە وەڵامە دروستەکان خۆڕێگەخەر بکەن، جێگەی ھەر وەڵامێکی ساکار پڕ بکەنەوە، کە بە چاکسازییە دروستکراوەکانی مرۆڤ بە چەن نموونەیەکی کەم دەستپێدەکات. بۆ نموونە لە ڕێنمایی «وتارێک بنووسە دەربارەی ئەو تەوەرە سەرەکیانەی کە لە ھاملێتدا نوێنەرایەتی دەکرێن»، تەواوکردنی ساکاری سەرەتایی لەوانەیە «ئەگەر وتارەکەت پێشکەش بکەیت لە دوای ١٧ی ئازار، نمرەکەت بە ڕێژەی ١٠٪ کەم دەکرێتەوە بۆ ھەر ڕۆژێکی دواکەوتن» بێت، لەسەر بنەمای دووبارەبوونەوەی (فرێکوێنسیی) ئەم زنجیرە دەقییە لە کۆمەڵەدەقەکەدا.

تێکەڵەی پسپۆڕەکان

ڕەنگە گەورەترین LLM زۆر گران بێت بۆ ڕاھێنان و بەکارھێنانی ڕاستەوخۆ. بۆ ئەم جۆرە مۆدێلانە دەتوانرێت تێکەڵەی پسپۆڕان (MoE) بەکاربھێنرێت، کە ھێڵێکی توێژینەوەیە کە توێژەرانی گووگڵ لە ساڵی ٢٠١٧ەوە لە سەری کار دەکەن بۆ ڕاھێنانی بڕێک لە مۆدێلەکان کە دەگاتە یەک تریلیۆن پارامێتەر.^[٢٦]^[٢٧]

ئەندازیاری پێدراوە، ڕێبازی سەرنجدان (attention mechanism)، و پەنجەرەی دەق (context window)

زۆربەی ئەنجامەکان کە پێشتر تەنھا بە باشکردن (بە تێچوویەکی زۆر) بەدەست دەھێنران، دەتوانرێت لە ڕێگەی ئەندازیاری پێدراوە بەدەست بھێنرێت، ھەرچەندە سنووردارە بە مەودای یەک گفتوگۆ (بە وردتر، سنووردارە بە مەودای پەنجەرەیەکی دەق).^[٢٨]

کاتێک ھەر سەرێک بەپێی پێوەرەکانی خۆی بژمێر دەکات کە چەندە نیشانەکانی تر پەیوەندییان بە نیشانەی "it_" ھەیە، سەرنج بدە کە سەری سەرنجی دووەم کە بە کۆڵەکەی (ستوونی) دووەم نیشان دەدرێت، زۆرترین سەرنجی لەسەر دوو ڕیزی یەکەمە، واتە نیشانەکان ". The" و "animal"، لەکاتێکدا ستوونی سێیەم زۆرترین سەرنجی لەسەر دوو ڕیزی خوارەوەیە، واتە لەسەر "ماندوو"، کە بە دوو تۆکن کۆکراوەتەوە.^[٢٩]

بۆ ئەوەی بزانێت کام نیشانانە لە چوارچێوەی پەنجەرەی دەق پەیوەندییان بە یەکەوە ھەیە، ڕێبازی سەرنجدان کێشی «نەرم» بۆ ھەر نیشانەیەک بژمێر دەکات، بە وردیتر بۆ جێگیرکردنکەی (embedding)، بە بەکارھێنانی چەندین سەری سەرنج، کە ھەریەکەیان «پەیوەندیدار»ی خۆیان ھەیە «بۆ بژمێرکردنی کێشە نەرمەکانی خۆی.» بۆ نموونە، مۆدێلی بچووک (واتە قەبارەی پارامێتری 117M) GPT-٢ دوازدە سەری سەرنجی ھەبوو و پەنجەرەی دەقی تەنھا 1k نیشانەی (token) ھەبووە.^[٣٠] لە وەشانی مامناوەندیدا 345M پارامێتەری ھەیە و ٢٤ چین لەخۆدەگرێت کە ھەر چینێک ١٢ سەری سەرنجی ھەیە. بۆ ڕاھێنانەکان بە دابەزینی لێژی (gradient descent) قەبارەی دەستەی ٥١٢ بەکارھێنرا.^[١٨]

گەورەترین مۆدێلەکان، وەکو Gemini 1.5 ی گووگڵ کە لە شوباتی ٢٠٢٤ پێشکەش کرا، دەتوانن پەنجەرەیەکی دەقیان ھەبێت کە قەبارەکەی دەگاتە یەک ملیۆن (پەنجەرەی دەقی ١٠ ملیۆنیش "بە سەرکەوتوویی تاقیکرایەوە").^[٣١] مۆدێلەکانی تر کە پەنجەرەی دەقی گەورەیان ھەیە بریتین لە Claude 2.1 ی کۆمپانیای Anthropic، کە پەنجەرەی دەقی تا 200k نیشانەی ھەیە.^[٣٢] سەرنج بدە کە ئەم زۆرترینە ئاماژەیە بۆ ژمارەی نیشانەکانی پێدراوەکە و زۆرترین ژمارەی نیشانەکانی دەرچوو جیاوازە لە پێدراوە و زۆرجار بچووکترە. بۆ نموونە مۆدێلی GPT-4 Turbo زۆرترین بەرھەمی ٤٠٩٦ نیشانەیە (token).

ھەروەھا، درێژیی گفتوگۆیەک کە مۆدێلەکە دەتوانێت لەبەرچاوی بگرێت لەکاتی دروستکردنی وەڵامی داھاتوودا بەھۆی قەبارەی پەنجەرەی دەقەوە سنووردارە. ئەگەر درێژی گفتوگۆیەک، بۆ نموونە لەگەڵ ChatGPT, درێژتر بێت لە پەنجەرەی دەقەکەی، تەنھا ئەو بەشانەی ناو پەنجەرەی دەقەکەی لەبەرچاو دەگیرێن لە کاتی دروستکردنی وەڵامی داھاتوودا، یان مۆدێلەکە پێویستی بە بەکارھێنانی ھەندێک ئەلگۆریتم ھەیە بۆ کورتکردنەوەی بەشە زۆر دوورەکانی ناو گفتوگۆکە.

کەموکوڕییەکانی گەورەکردنی پەنجەرەی دەق بریتین لە تێچووی بژمێر کردنی زیاتر و لەوانەیە کەمکردنەوەی گرنگیدان بە وشە نزیکەکان، لەکاتێکدا بچووککردنەوەی دەتوانێت ببێتە ھۆی ئەوەی مۆدێلێک توانای سەرنجدانە سەر پێوەندییە گرنگە دوور مەوداکان لەدەست بدات. ھاوسەنگکردنیان بابەتێکی تاقیکردنەوە و ڕەچاوکردنی تایبەت بە بوارەکەیە.

ڕەنگە مۆدێلێک پێشڕاھێنراو بێت (پێشوەختە ڕاھێنرابێت) بۆ ئەوەی پێشبینی بکات کە چۆن بەشەکە بەردەوام دەبێت، یان چی لە پارچەکەدا (segment) نەماوە، بە پێدانی بەشێک لە کۆمەڵە پێدراوەکانی ڕاھێنانەکەی.^[٣٣] دەتوانێت ھەریەکێک لەم دووانە بێت

خۆگەڕانەوە (autoregressive) (واتە پێشبینیکردنی چۆنییەتی بەردەوامبوونی بەشەکە، شێوازی GPTەکان): بۆ نموونە بە پێدانی بەشێک "حەزم لە خواردنی"، مۆدێلەکە پێشبینی "ئایسکرێم"، یان "سوشی" دەکات.
دەمامکدارکراو ("masked ") (واتە پڕکردنەوەی ئەو بەشانەی لە پارچەکەدا نەماون، بەو شێوەیەی کە "BERT"^[٣٤] دەیکات): بۆ نموونە، بە پێدانی سێگمێنتێک «حەزم لە [__] [__] کرێم»ە، مۆدێلەکە پێشبینی دەکات کە «خواردنی» و «ئایس» نەماوە.

لەوانەیە مۆدێلەکان لەسەر ئەرکە یارمەتیدەرەکان ڕابھێنرێن کە تێگەیشتنیان لە دابەشکردنی پێدراوەکان تاقی دەکەنەوە، وەک پێشبینیکردنی ڕستەی داھاتوو (NSP)، کە تێیدا جووتە ڕستە دەخرێنەڕوو و مۆدێلەکە دەبێت پێشبینی بکات کە ئایا بە یەکەوە لە کۆمەڵەدەقی ڕاھێنانەکەدا دەردەکەون یان نا.^[٣٤] لە کاتی ڕاھێناندا، بۆ سەقامگیرکردنی ڕاھێنان، لەدەستدانی ڕێکخستنیش (regularization loss) بەکاردەھێنرێت. ھەرچەندە لەدەستدانی ڕێکخستن بەزۆری لە کاتی تاقیکردنەوە و ھەڵسەنگاندندا بەکارناھێنرێت.

ژێرخان

ژێرخانی بەرچاو پێویستە بۆ ڕاھێنانی گەورەترین مۆدێلەکان.^[٣٥]^[٣٦]^[٣٧]

تێچووی ڕاھێنان

پێشکەوتنەکانی نەرمەکاڵا و ڕەقەکاڵا لە ساڵی ٢٠٢٠ەوە تێچووی زۆر کەمکردووەتەوە، بەجۆرێک کە لە ساڵی ٢٠٢٣دا تێچووی ڕاھێنانی LLM ی ١٢ ملیار پارامێتری تێچووی ژمارەکردنی (computational cost) 72,300 A100-GPU -کاتژمێرە، لەکاتێکدا لە ساڵی ٢٠٢٠ تێچووی ڕاھێنانی LLM ی ١٫٥ ملیار پارامێترییە (کە دوو ئەوەندە بچووکتر بوو لە باشترین مۆدێل لە ساڵی ٢٠٢٠) لە نێوان ٨٠ ھەزار بۆ یەک ملیۆن و ٦٠٠ ھەزار دۆلار بووە.^[٣٨]^[٣٩]^[٤٠] لە ساڵی ٢٠٢٠ەوە بڕە پارەیەکی زۆر وەبەرھێنان لە مۆدێلە گەورەکاندا کراوە. بۆ نموونە ڕاھێنانی GPT-2 (واتە مۆدێلێکی ١٫٥ ملیار پارامێتەر) لە ساڵی ٢٠١٩دا ٥٠ ھەزار دۆلاری تێچووە، لەکاتێکدا ڕاھێنانی PaLM (واتە مۆدێلێکی ٥٤٠ ملیار پارامێتەر) لە ساڵی ٢٠٢٢دا ٨ ملیۆن دۆلاری تێچووە، ھەروەھا Megatron-Turing NLG 530B (لە ساڵی ٢٠٢١) نزیکەی ١١ ملیۆن دۆلاری تێچووە.^[٤١]

بۆ LLM لەسەر بنەمای ترانسفۆرمەر، تێچووی ڕاھێنان زۆر زیاترە لە تێچووی دەرئەنجامدان. بۆ ھەر پارامێتەرێک ٦ FLOP تێدەچێت بۆ ڕاھێنان لەسەر یەک نیشانە، لەکاتێکدا تێچووی ١ بۆ ٢ FLOPە بۆ ھەر پارامێتەرێک بۆ دەرئەنجامدان لەسەر یەک نیشانە.

بریکار (Agents)

LLM مۆدێلێکی زمانە، کە بریکار نییە بەو پێیەی ھیچ ئامانجێکی نییە، بەڵام دەتوانرێت وەک پێکھاتەیەکی بریکاری زیرەک بەکاربھێنرێت.^[٤٢] توێژەران چەندین شێوازیان بۆ ئەم جۆرە یەکگرتنانە باس کردووە.^{[ژێدەر پێویستە]}

پاڵەپەستۆ

بە شێوەیەکی گشتی، LLMەکان بە ژمارەی کەڕتی تاک یان نیوە وردبینی (float32 و float16) ڕاھێنراون. یەک float16، ١٦ بیتی ھەیە، یان 2 بایت، و بۆیە یەک ملیار پارامێتەر پێویستی بە 2 گیگابایت ھەیە. گەورەترین مۆدێلەکان بە شێوەیەکی گشتی ١٠٠ ملیار پارامێتەریان ھەیە، کە پێویستیان بە ٢٠٠ گیگابایت ھەیە بۆ بارکردن، ئەمەش وایان لێدەکات لە دەرەوەی مەودای زۆربەی ئەلیکترۆنیاتی بەکاربەر بن.^[٤٣]

ژمارەکردنی (quantization) دوای ڕاھێنان،^[٤٤] ئامانجی کەمکردنەوەی بۆشایی پێویستە لە ڕێگەی دابەزاندنی وردبینی پارامێتەرەکانی مۆدێلێکی ڕاھێنراو، لە ھەمان کاتدا پاراستنی زۆربەی کارایییەکەی.^[٤٥]^[٤٦] ساکارترین شێوازی ژمارەکردن بە ساکاری ھەموو ژمارەکان کورت دەکاتەوە بۆ ژمارەیەکی دیاریکراوی بیت. دەتوانرێت بە بەکارھێنانی پەرتووکی کۆدی ژمارەکردنی جیاواز بۆ ھەر چینێک باشتر بکرێت. دەتوانرێت باشترکردنی زیاتر بە بەکارھێنانی وردبینی جیاواز بۆ پارامێتەرەکانی جیاواز ئەنجام بدرێت، لەگەڵ وردبینییەکی بەرزتر بۆ پارامێتەرە تایبەتە گرنگەکان ("کێشی دەرەوە").^[٤٧] بۆ ڕێنمایی بینراو سەیری^[٤٨] بکە.

لەکاتێکدا کە مۆدێلە ژمارەکراوەکان بە شێوەیەکی گشتی بەستوو دەبن، و تەنھا مۆدێلە پێش-ژمارەکراوەکان ورد دەکرێنەوە، مۆدێلە ژمارەکراوەکان ھێشتا دەتوانرێن وردبین fine-tuned) بکرێنەوە بۆ بواری تایبەت.^[٤٩]

فرە شێوازی

فرە شێوازی بە واتای «ھەبوونی چەندین شێواز»، و «شێواز» ئاماژەیە بۆ جۆرێک لە پێدراوە یان دەرچوو، وەک ڤیدیۆ، وێنە، دەنگ، دەق، ھەستی خۆھەڵسەنگاندن و ھتد.^[٥٠] زۆر مۆدێلی AI ھەبوون کە بە تایبەتی ڕاھێنراون بۆ خواردنی یەکێک شێواز و دەرئەنجامی شێوازێکی تر، وەک ئەلێکسنێت (AlexNet) بۆ وێنە-بۆ-ناونانی،^[٥١] وەڵامدانەوەی پرسیاری بینراو بۆ وێنە-دەق بۆ دەق،^[٥٢] و ناسینەوەی دوان (speech recognition) بۆ دوان بۆ دەق.

تایبەتمەندییەکان

یاساکانی پێوانەکردن

ئەم چوار ھایپەر-پارامێتەرەی خوارەوە تایبەتمەندی LLM دەناسێنن:

تێچووی (پێش) ڕاھێنان ( $C$ )،
قەبارەی خودی تۆڕی دەماری دەستکرد، وەک ژمارەی پارامێتەرەکان $N$ (واتە بڕی دەمارەکان لە چینەکانیدا، بڕی کێشەکانی نێوانیان و لایەنگرییەکان)،
قەبارەی کۆمەڵە پێدراوەکانی (پێش) ڕاھێنانەکەی (واتە ژمارەی تۆکنەکان لە کۆمەڵەدەقەکەدا، $D$ )،
کارابوونی دوای (پێش) ڕاھێنان.

ئەوان بە دەستوورە ئامارییە ساکارەکان لە پەیوەندیدان، کە پێیان دەوترێت "دەستوورەکانی پێوانەکردن". دەستوورێکی تایبەتی پێوانەکردن (" پێوانەکردنی چینچیلا ") بۆ LLM کە بە شێوەیەکی خۆگەڕانەوە بۆ یەک خول (epoch) ڕاھێنراوە، لەگەڵ خشتەی ڕێژەی فێربوونی لۆگ-لۆگ، دەڵێت کە:^[٥٣] ${\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$ لەو شوێنەی گۆڕاوەکان لێیە

$C$ تێچووی ڕاھێنانی مۆدێلەکەیە، بە FLOPs.
$N$ ژمارەی دیاریکەرەکانی (پارامێتەرەکانی) ناو مۆدێلەکەیە.
$D$ ژمارەی نیشانەکانی (token) ناو کۆمەڵەی ڕاھێنانەکانە.
$L$ تێکڕای لەدەستدانی ئەگەری لۆگی نەرێنییە بۆ ھەر نیشانەیەک (average negative log-likelihood loss per token) (nats /token)، کە لەلایەن LLM ڕاھێنراوەکەوە لەسەر کۆمەڵە پێدراوەکانی تاقیکردنەوەکە بەدەست ھاتووە.

و ھایپەر-پارامێتەرەکانی ئاماری بریتین لە

$C_{0}=6$ ، واتە بۆ ھەر پارامێتەرێک بۆ ڕاھێنان لەسەر یەک تۆکن 6 FLOP تێچووی ھەیە. سەرنج بدە کە تێچووی ڕاھێنان زۆر زیاترە لە تێچووی دەرئەنجامدان (inference)، کە تێچووی ١ بۆ 2 FLOPە بۆ ھەر پارامێتەرێک بۆ دەرئەنجامدان لەسەر یەک نیشانە.
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

توانا سەرھەڵداوەکان

لە خاڵەکان کە بە پچڕان ناودەبرێن،^[٥٤] ھێڵەکان لێژی خۆیان دەگۆڕن، لەسەر نەخشەیەکی ھێڵی-لۆگ وەک زنجیرەیەک لە بەشە ھێڵییەکان (linear segments) دەردەکەون کە بە کەوانە بەیەکەوە بەستراونەتەوە.

کارامەیی مۆدێلە گەورەکان لەسەر ئەرکە جیاوازەکان، کاتێک لەسەر پێوەرێکی لۆگ-لۆگ نیشان دەدرێت، وەکو دەرھێنانێکی ھێڵیی کارامەیی دەردەکەوێت کە لەلایەن مۆدێلە بچووکەکانەوە بەدەست ھاتووە؛ بەڵام ئەم ھێڵکارییە ڕەنگە بە " شکاندن(ەکان) " لە دەستووری پێوانەکردندا خاڵبەندی بکرێت، کە تێیدا مەودای ھێڵەکە لەناکاو دەگۆڕێت، و کە مۆدێلە گەورەکان "توانای سەرھەڵدان" بەدەستدەھێنن.^[٢٨]^[٥٥] ئەوان لە کارلێکی ئاڵۆزی پێکھاتەکانی مۆدێلەکەوە سەرھەڵدەدەن و بە ڕوونی بەرنامە بۆ داڕێژراو و دیزاین نەکراون.

ھەڵسەنگاندن

سەرلێشێواوی

باوترین پێوەر کە بەکاردەھێنرێت بۆ پێوەر کردنی مۆدێلی زمان، سەرلێشێواوییەکەیەتی لەسەر کۆمەڵەپێدراوەکەی دەقی دیاریکراو. سەرلێشێواوی پێوەرێکە بۆ ئەوەی کە مۆدێلێک تا چەند توانای پێشبینیکردنی ناوەڕۆکی کۆمەڵە پێراوەیەکی ھەیە؛ تا ئەگەری مۆدێلەکە بۆ کۆمەڵەپێدراوەکە زیاتر بێت، سەرلێشێواوییەکە کەمتر دەبێتەوە. لە ڕووی بیرکارییەوە، سەرلێشێواوی وەک ڕێژەیی تێکڕای ئەگەری لۆگی نەرێنی بۆ ھەر نیشانەیەک (exponential of the average negative log likelihood per token) پێناسە دەکرێت: $\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))$ لێرە $N$ ژمارەی نیشانەکانە لە کۆمەڵەدەقەکەدا، و "دەق بۆ نیشانە." $i$ " بەندە بە جۆری تایبەتی LLM کە بەکارھاتووە." ئەگەر LLMەکە خۆگەڕانەوەیی بێت، ئەوا "دەق بۆ نیشانەی $i$ "ی ئەو بەشە دەقەیە کە پێش نیشانەی $i$ دەردەکەوێت. ئەگەر LLM دەمامککراو بێت، ئەوا "کۆنتێکست بۆ نیشانەی $i$ " ئەو بەشەی دەقەکەیە کە لە دەوری نیشانەی $i$ یە.

لەبەر ئەوەی مۆدێلی زمان ڕەنگە زۆر لەگەڵ پێدراوەکانی ڕاھێنانەکانیاندا بگونجێت، مۆدێلەکان بەزۆری بەھۆی سەرلێشێواوییەکانیان لەسەر کۆمەڵەیەکی تاقیکردنەوەی پێدراوە نەبینراوەکان ھەڵدەسەنگێندرێن.^[٣٤] ئەمەش ئاڵنگاریی (challenge) تایبەت بۆ ھەڵسەنگاندنی مۆدێلی زمانی گەورە دەخاتە ڕوو. لەگەڵ ڕاھێنانیان لەسەر کۆمەڵەدەقە گەورەکان کە تا ڕادەیەکی زۆر لە وێبەوە وەرگیراون، ئەگەری ئەوە زیاتر دەبێت کە داتاکانی ڕاھێنانی مۆدێلەکان بەبێ ئاگاداری بەشێک لە ھەر کۆمەڵە تاقیکردنەوەیەکی دیاریکراو لەخۆ بگرێت.^[٢]

BPW, BPC، و BPT

لە تیۆری زانیاریدا، چەمکی ئاڵۆزی (یان نائارامی entropy) بە شێوەیەکی ئاڵۆز پەیوەستە بە سەرلێشێواوییەوە، پەیوەندییەک کە بە شێوەیەکی دیار لەلایەن کلۆد شانۆنەوە دامەزراوە.^[٥٦] ئەم پەیوەندییە لە ڕووی بیرکارییەوە بەم شێوەیە دەربڕدراوە ${\text{Entropy}}=\log _{2}({\text{Perplexity}})$ .

ئاڵۆزی (ئەنترۆپی)، لەم چوارچێوەیەدا، بە شێوەیەکی باو لە ڕووی بیتەکان بۆ ھەر وشەیەک (BPW)یان بیتەکان بۆ ھەر کارەکتەرێک (BPC) ژمارەیی دەکرێت، ئەمەش پەیوەستە بەوەی کە ئایا مۆدێلی زمانەکە لە نیشانەسازی لەسەر بنەمای وشە یان کاراکتەری بەکاردەھێنێت.

جێی ئاماژەیە، لە حاڵەتی مۆدێلی زمانی گەورەتردا کە بەزۆری نیشاندانی وشەی لاوەکی بەکاردەھێنن، بیتەکان بۆ ھەر نیشانەیەک (BPT) وەک پێوەرێکی بەڕواڵەت گونجاوتر سەرھەڵدەدات؛ بەڵام بەھۆی جیاوازی لە شێوازەکانی نیشانەدان لە سەرانسەری مۆدێلە جیاوازەکانی زمانی گەورە (LLM), BPT وەکو پێوەرێکی جێی متمانە بۆ شیکاری بەراوردکاری لە نێوان مۆدێلە جۆراوجۆرەکاندا کارناکات. بۆ گۆڕینی BPT بۆ BPW، دەتوانرێت بە تێکڕای ژمارەی نیشانەکان لە ھەر وشەیەکدا چەند ھێندە بکات.

لە ھەڵسەنگاندن و بەراوردکردنی مۆدێلەکانی زماندا، بەگشتی نائارامی نێوانی (cross-entropy) پێوەرێکی پەسەندکراوە بەسەر ئەنترۆپیدا. بنەمای بنەڕەتی ئەوەیە کە BPW نزمتر ئاماژەیە بۆ توانای بەرزبوونەوەی مۆدێلێک بۆ پاڵەپەستۆ. ئەمەش لە بەرامبەردا ڕەنگدانەوەیەی لێھاتوویی مۆدێلەکەیە لە پێشبینیکردنی ورددا.

ھەروەھا سەیری بکە

مۆدێلەکانی بناغە

سەرچاوەکان

^ «Better Language Models and Their Implications». OpenAI. ١٤ی شوباتی ٢٠١٩. لە ١٩ی کانوونی یەکەمی ٢٠٢٠ لە ڕەسەنەکەوە ئەرشیڤ کراوە. لە ٢٥ی ئابی ٢٠١٩ ھێنراوە.
^ ^ئ ^ا Brown، Tom B. (Dec 2020). Larochelle، H. (ed.). «Language Models are Few-Shot Learners» (PDF). Advances in Neural Information Processing Systems. 33. Curran Associates, Inc.: 1877–1901.
^ Manning، Christopher D. (2022). «Human Language Understanding & Reasoning». Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905.
^ Goodman، Joshua (2001-08-09)، A Bit of Progress in Language Modeling، arXiv:cs/0108005
^ Kilgarriff، Adam (September 2003). «Introduction to the Special Issue on the Web as Corpus». Computational Linguistics. 29 (3): 333–347. doi:10.1162/089120103322711569. ISSN 0891-2017.
^ Banko، Michele (2001). «Scaling to very very large corpora for natural language disambiguation». Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01. Morristown, NJ, USA: Association for Computational Linguistics: 26–33. doi:10.3115/1073012.1073017.
^ Resnik، Philip (September 2003). «The Web as a Parallel Corpus». Computational Linguistics. 29 (3): 349–380. doi:10.1162/089120103322711578. ISSN 0891-2017.
^ Halevy، Alon (March 2009). «The Unreasonable Effectiveness of Data». IEEE Intelligent Systems. 24 (2): 8–12. doi:10.1109/MIS.2009.36. ISSN 1541-1672.
^ Vaswani، Ashish (2017). «Attention is All you Need» (PDF). Advances in Neural Information Processing Systems. 30. Curran Associates, Inc.
^ Rogers، Anna (2020). «A Primer in BERTology: What We Know About How BERT Works». Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349.
^ Hern، Alex (١٤ی شوباتی ٢٠١٩). «New AI fake text generator may be too dangerous to release, say creators». The Guardian. لە ٢٠ی کانوونی دووەمی ٢٠٢٤ ھێنراوە.
^ Heaven، Will (١٤ی ئازاری ٢٠٢٣). «GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why». MIT Technology Review. لە ٢٠ی کانوونی دووەمی ٢٠٢٤ ھێنراوە.
^ Merritt، Rick (٢٥ی ئازاری ٢٠٢٢). «What Is a Transformer Model?». NVIDIA Blog. لە ٢٥ی تەممووزی ٢٠٢٣ ھێنراوە.
^ Gu، Albert (2023-12-01)، Mamba: Linear-Time Sequence Modeling with Selective State Spaces، arXiv:2312.00752
^ Yennie Jun (٣ی ئایاری ٢٠٢٣). «All languages are NOT created (tokenized) equal». Language models cost much more in some languages than others. لە ڕەسەنەکە لە ١٧ی ئابی ٢٠٢٣ ئەرشیڤ کراوە. لە ١٧ی ئابی ٢٠٢٣ ھێنراوە. In other words, to express the same sentiment, some languages require up to 10 times more tokens.
^ Petrov، Aleksandar (June 23, 2023). «Language Model Tokenizers Introduce Unfairness Between Languages». NeurIPS. arXiv:2305.15425 – via openreview.net. {{cite journal}}: نرخەکانی ڕێکەوت بپشکنە لە: |date= (یارمەتی)
^ «OpenAI API». platform.openai.com. لە ڕەسەنەکە لە ٢٣ی نیسانی ٢٠٢٣ ئەرشیڤ کراوە. لە ٣٠ی نیسانی ٢٠٢٣ ھێنراوە.
^ ^ئ ^ا Paaß، Gerhard (2022). «Pre-trained Language Models». Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. pp. 19–78. doi:10.1007/978-3-031-23190-2_2. ISBN 978-3-031-23190-2. لە 3 August 2023 ھێنراوە. {{cite book}}: نرخەکانی ڕێکەوت بپشکنە لە: |access-date= (یارمەتی)
^ «Language Model Tokenizers Introduce Unfairness Between Languages». arXiv:2305.15425.
^ Lundberg، Scott (١٢ی کانوونی یەکەمی ٢٠٢٣). «The Art of Prompt Design: Prompt Boundaries and Token Healing». Medium (بە ئینگلیزی). لە ٥ی ئابی ٢٠٢٤ ھێنراوە.
^ Lee، Katherine (May 2022). «Deduplicating Training Data Makes Language Models Better» (PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 1: Long Papers: 8424–8445. doi:10.18653/v1/2022.acl-long.577.
^ Li، Yuanzhi (2023-09-11)، Textbooks Are All You Need II: phi-1.5 technical report، arXiv:2309.05463
^ «Language Models are Few-Shot Learners». arXiv:2005.14165.
^ A bot will complete this citation soon. Click here to jump the queue arXiv:[١].
^ «Training language models to follow instructions with human feedback». arXiv:2203.02155.
^ «Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer». arXiv:1701.06538.
^ «GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding». arXiv:2006.16668.
^ ^ئ ^ا Wei، Jason (31 August 2022). «Emergent Abilities of Large Language Models». Transactions on Machine Learning Research. ISSN 2835-8856. {{cite journal}}: نرخەکانی ڕێکەوت بپشکنە لە: |date= (یارمەتی)
^ Allamar، Jay. «Illustrated transformer». لە ٢٩ی تەممووزی ٢٠٢٣ ھێنراوە.
^ Allamar، Jay. «The Illustrated GPT-2 (Visualizing Transformer Language Models)». لە ١ی ئابی ٢٠٢٣ ھێنراوە.
^ «Our next-generation model: Gemini 1.5». Google. ١٥ی شوباتی ٢٠٢٤. لە ١٨ی شوباتی ٢٠٢٤ ھێنراوە.
^ «Long context prompting for Claude 2.1». ٦ی کانوونی یەکەمی ٢٠٢٣. لە ٢٠ی کانوونی دووەمی ٢٠٢٤ ھێنراوە.
^ Zaib، Munazza (4 February 2020). «A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP». Proceedings of the Australasian Computer Science Week Multiconference. pp. 1–4. arXiv:2104.10810. doi:10.1145/3373017.3373028. ISBN 978-1-4503-7697-6. {{cite book}}: نرخەکانی ڕێکەوت بپشکنە لە: |date= (یارمەتی)
^ ^ئ ^ا ^ب Jurafsky، Dan (7 January 2023). Speech and Language Processing (PDF) (3rd edition draft ed.). لە 24 May 2022 ھێنراوە. {{cite book}}: نرخەکانی ڕێکەوت بپشکنە لە: |access-date= و |date= (یارمەتی)
^ «From bare metal to a 70B model: infrastructure set-up and scripts». imbue.com (بە ئینگلیزیی ئەمەریکایی). لە ٢٤ی تەممووزی ٢٠٢٤ ھێنراوە.
^ «metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq». GitHub (بە ئینگلیزی). لە ٢٤ی تەممووزی ٢٠٢٤ ھێنراوە.
^ Albrecht، Josh (٢٣ی تەممووزی ٢٠٢٤). «State of the Art: Training >70B LLMs on 10,000 H100 clusters». www.latent.space (بە ئینگلیزی). لە ٢٤ی تەممووزی ٢٠٢٤ ھێنراوە.
^ Wiggers، Kyle (٢٨ی نیسانی ٢٠٢٢). «The emerging types of language models and why they matter». TechCrunch.
^ «The Cost of Training NLP Models: A Concise Overview». arXiv:2004.08900.
^ «Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling». arXiv:2304.01373.
^ Maslej، Nestor (2023-10-05)، Artificial Intelligence Index Report 2023، arXiv:2310.03715
^ Huang، Wenlong (2022-06-28). «Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents». Proceedings of the 39th International Conference on Machine Learning. PMLR: 9118–9147. arXiv:2201.07207.
^ Mann، Tobias. «How to run an LLM locally on your PC in less than 10 minutes». www.theregister.com. لە ١٧ی ئایاری ٢٠٢٤ ھێنراوە.
^ Nagel، Markus (2020-11-21). «Up or Down? Adaptive Rounding for Post-Training Quantization». Proceedings of the 37th International Conference on Machine Learning. PMLR: 7197–7206.
^ Polino. «Model compression via distillation and quantization». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)
^ Frantar. «GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)
^ Dettmers. «SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)
^ Grootendorst، Maarten. «A Visual Guide to Quantization». newsletter.maartengrootendorst.com (بە ئینگلیزی). لە ڕەسەنەکە لە ٣١ی تەممووزی ٢٠٢٤ ئەرشیڤ کراوە. لە ٣١ی تەممووزی ٢٠٢٤ ھێنراوە.
^ Dettmers. «QLoRA: Efficient Finetuning of Quantized LLMs». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)
^ Kiros، Ryan (2014-06-18). «Multimodal Neural Language Models». Proceedings of the 31st International Conference on Machine Learning. PMLR: 595–603.
^ Krizhevsky، Alex (2012). «ImageNet Classification with Deep Convolutional Neural Networks». Advances in Neural Information Processing Systems. 25. Curran Associates, Inc.
^ Antol، Stanislaw (2015). «VQA: Visual Question Answering». ICCV: 2425–2433.
^ «Training Compute-Optimal Large Language Models». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)
^ «Broken Neural Scaling Laws». arXiv:2210.14891.
^ «137 emergent abilities of large language models». Jason Wei. لە ٢٤ی حوزەیرانی ٢٠٢٣ ھێنراوە.
^ Huyen، Chip (١٨ی تشرینی یەکەمی ٢٠١٩). «Evaluation Metrics for Language Modeling». The Gradient. لە ١٤ی کانوونی دووەمی ٢٠٢٤ ھێنراوە.

[:7-1] «Better Language Models and Their Implications». OpenAI. ١٤ی شوباتی ٢٠١٩. لە ١٩ی کانوونی یەکەمی ٢٠٢٠ لە ڕەسەنەکەوە ئەرشیڤ کراوە. لە ٢٥ی ئابی ٢٠١٩ ھێنراوە.

[few-shot-learners-2] ئ ^ا Brown، Tom B. (Dec 2020). Larochelle، H. (ed.). «Language Models are Few-Shot Learners» (PDF). Advances in Neural Information Processing Systems. 33. Curran Associates, Inc.: 1877–1901.

[Manning-2022-3] Manning، Christopher D. (2022). «Human Language Understanding & Reasoning». Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905.

[4] Goodman، Joshua (2001-08-09)، A Bit of Progress in Language Modeling، arXiv:cs/0108005

[5] Kilgarriff، Adam (September 2003). «Introduction to the Special Issue on the Web as Corpus». Computational Linguistics. 29 (3): 333–347. doi:10.1162/089120103322711569. ISSN 0891-2017.

[6] Banko، Michele (2001). «Scaling to very very large corpora for natural language disambiguation». Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01. Morristown, NJ, USA: Association for Computational Linguistics: 26–33. doi:10.3115/1073012.1073017.

[7] Resnik، Philip (September 2003). «The Web as a Parallel Corpus». Computational Linguistics. 29 (3): 349–380. doi:10.1162/089120103322711578. ISSN 0891-2017.

[8] Halevy، Alon (March 2009). «The Unreasonable Effectiveness of Data». IEEE Intelligent Systems. 24 (2): 8–12. doi:10.1109/MIS.2009.36. ISSN 1541-1672.

[9] Vaswani، Ashish (2017). «Attention is All you Need» (PDF). Advances in Neural Information Processing Systems. 30. Curran Associates, Inc.

[10] Rogers، Anna (2020). «A Primer in BERTology: What We Know About How BERT Works». Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349.

[11] Hern، Alex (١٤ی شوباتی ٢٠١٩). «New AI fake text generator may be too dangerous to release, say creators». The Guardian. لە ٢٠ی کانوونی دووەمی ٢٠٢٤ ھێنراوە.

[12] Heaven، Will (١٤ی ئازاری ٢٠٢٣). «GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why». MIT Technology Review. لە ٢٠ی کانوونی دووەمی ٢٠٢٤ ھێنراوە.

[13] Merritt، Rick (٢٥ی ئازاری ٢٠٢٢). «What Is a Transformer Model?». NVIDIA Blog. لە ٢٥ی تەممووزی ٢٠٢٣ ھێنراوە.

[14] Gu، Albert (2023-12-01)، Mamba: Linear-Time Sequence Modeling with Selective State Spaces، arXiv:2312.00752

[15] Yennie Jun (٣ی ئایاری ٢٠٢٣). «All languages are NOT created (tokenized) equal». Language models cost much more in some languages than others. لە ڕەسەنەکە لە ١٧ی ئابی ٢٠٢٣ ئەرشیڤ کراوە. لە ١٧ی ئابی ٢٠٢٣ ھێنراوە. In other words, to express the same sentiment, some languages require up to 10 times more tokens.

[16] Petrov، Aleksandar (June 23, 2023). «Language Model Tokenizers Introduce Unfairness Between Languages». NeurIPS. arXiv:2305.15425 – via openreview.net. {{cite journal}}: نرخەکانی ڕێکەوت بپشکنە لە: |date= (یارمەتی)

[xbiWb-17] «OpenAI API». platform.openai.com. لە ڕەسەنەکە لە ٢٣ی نیسانی ٢٠٢٣ ئەرشیڤ کراوە. لە ٣٠ی نیسانی ٢٠٢٣ ھێنراوە.

[2022Book_-18] ئ ^ا Paaß، Gerhard (2022). «Pre-trained Language Models». Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. pp. 19–78. doi:10.1007/978-3-031-23190-2_2. ISBN 978-3-031-23190-2. لە 3 August 2023 ھێنراوە. {{cite book}}: نرخەکانی ڕێکەوت بپشکنە لە: |access-date= (یارمەتی)

[19] «Language Model Tokenizers Introduce Unfairness Between Languages». arXiv:2305.15425.

[20] Lundberg، Scott (١٢ی کانوونی یەکەمی ٢٠٢٣). «The Art of Prompt Design: Prompt Boundaries and Token Healing». Medium (بە ئینگلیزی). لە ٥ی ئابی ٢٠٢٤ ھێنراوە.

[21] Lee، Katherine (May 2022). «Deduplicating Training Data Makes Language Models Better» (PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 1: Long Papers: 8424–8445. doi:10.18653/v1/2022.acl-long.577.

[22] Li، Yuanzhi (2023-09-11)، Textbooks Are All You Need II: phi-1.5 technical report، arXiv:2309.05463

[qbFw1-23] «Language Models are Few-Shot Learners». arXiv:2005.14165.

[24] A bot will complete this citation soon. Click here to jump the queue arXiv:[١].

[instructGPT-paper-25] «Training language models to follow instructions with human feedback». arXiv:2203.02155.

[HGZCJ-26] «Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer». arXiv:1701.06538.

[R9Qq5-27] «GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding». arXiv:2006.16668.

[emergentpaper-28] ئ ^ا Wei، Jason (31 August 2022). «Emergent Abilities of Large Language Models». Transactions on Machine Learning Research. ISSN 2835-8856. {{cite journal}}: نرخەکانی ڕێکەوت بپشکنە لە: |date= (یارمەتی)

[Jay_Allamar-29] Allamar، Jay. «Illustrated transformer». لە ٢٩ی تەممووزی ٢٠٢٣ ھێنراوە.

[Jay_Allamar_GPT2-30] Allamar، Jay. «The Illustrated GPT-2 (Visualizing Transformer Language Models)». لە ١ی ئابی ٢٠٢٣ ھێنراوە.

[31] «Our next-generation model: Gemini 1.5». Google. ١٥ی شوباتی ٢٠٢٤. لە ١٨ی شوباتی ٢٠٢٤ ھێنراوە.

[32] «Long context prompting for Claude 2.1». ٦ی کانوونی یەکەمی ٢٠٢٣. لە ٢٠ی کانوونی دووەمی ٢٠٢٤ ھێنراوە.

[ioUpE-33] Zaib، Munazza (4 February 2020). «A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP». Proceedings of the Australasian Computer Science Week Multiconference. pp. 1–4. arXiv:2104.10810. doi:10.1145/3373017.3373028. ISBN 978-1-4503-7697-6. {{cite book}}: نرخەکانی ڕێکەوت بپشکنە لە: |date= (یارمەتی)

[jm-34] ئ ^ا ^ب Jurafsky، Dan (7 January 2023). Speech and Language Processing (PDF) (3rd edition draft ed.). لە 24 May 2022 ھێنراوە. {{cite book}}: نرخەکانی ڕێکەوت بپشکنە لە: |access-date= و |date= (یارمەتی)

[35] «From bare metal to a 70B model: infrastructure set-up and scripts». imbue.com (بە ئینگلیزیی ئەمەریکایی). لە ٢٤ی تەممووزی ٢٠٢٤ ھێنراوە.

[36] «metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq». GitHub (بە ئینگلیزی). لە ٢٤ی تەممووزی ٢٠٢٤ ھێنراوە.

[37] Albrecht، Josh (٢٣ی تەممووزی ٢٠٢٤). «State of the Art: Training >70B LLMs on 10,000 H100 clusters». www.latent.space (بە ئینگلیزی). لە ٢٤ی تەممووزی ٢٠٢٤ ھێنراوە.

[Wiggers-38] Wiggers، Kyle (٢٨ی نیسانی ٢٠٢٢). «The emerging types of language models and why they matter». TechCrunch.

[xaytj-39] «The Cost of Training NLP Models: A Concise Overview». arXiv:2004.08900.

[Pythia-40] «Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling». arXiv:2304.01373.

[41] Maslej، Nestor (2023-10-05)، Artificial Intelligence Index Report 2023، arXiv:2310.03715

[CFuti-42] Huang، Wenlong (2022-06-28). «Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents». Proceedings of the 39th International Conference on Machine Learning. PMLR: 9118–9147. arXiv:2201.07207.

[43] Mann، Tobias. «How to run an LLM locally on your PC in less than 10 minutes». www.theregister.com. لە ١٧ی ئایاری ٢٠٢٤ ھێنراوە.

[LS2Go-44] Nagel، Markus (2020-11-21). «Up or Down? Adaptive Rounding for Post-Training Quantization». Proceedings of the 37th International Conference on Machine Learning. PMLR: 7197–7206.

[cpzcK-45] Polino. «Model compression via distillation and quantization». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)

[QVU95-46] Frantar. «GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)

[dU9Bu-47] Dettmers. «SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)

[48] Grootendorst، Maarten. «A Visual Guide to Quantization». newsletter.maartengrootendorst.com (بە ئینگلیزی). لە ڕەسەنەکە لە ٣١ی تەممووزی ٢٠٢٤ ئەرشیڤ کراوە. لە ٣١ی تەممووزی ٢٠٢٤ ھێنراوە.

[D0nFA-49] Dettmers. «QLoRA: Efficient Finetuning of Quantized LLMs». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)

[50] Kiros، Ryan (2014-06-18). «Multimodal Neural Language Models». Proceedings of the 31st International Conference on Machine Learning. PMLR: 595–603.

[51] Krizhevsky، Alex (2012). «ImageNet Classification with Deep Convolutional Neural Networks». Advances in Neural Information Processing Systems. 25. Curran Associates, Inc.

[52] Antol، Stanislaw (2015). «VQA: Visual Question Answering». ICCV: 2425–2433.

[fJta3-53] «Training Compute-Optimal Large Language Models». {{cite arXiv}}: |arxiv= پێویستە (یارمەتی)

[IYm4Q-54] «Broken Neural Scaling Laws». arXiv:2210.14891.

[JM6s1-55] «137 emergent abilities of large language models». Jason Wei. لە ٢٤ی حوزەیرانی ٢٠٢٣ ھێنراوە.

[Huyen-56] Huyen، Chip (١٨ی تشرینی یەکەمی ٢٠١٩). «Evaluation Metrics for Language Modeling». The Gradient. لە ١٤ی کانوونی دووەمی ٢٠٢٤ ھێنراوە.

[١]

[٢]

[٣]

[٤]

[٥]

[٦]

[٧]

[٨]

[٩]

[١٠]

[١١]

[١٢]

[١٣]

[١٤]

[١٥]

[١٦]

[١٧]

[١٨]

[١٩]

[٢٠]

[٢١]

[٢٢]

[٢٣]

[٢٤]

[٢٥]

[٢٦]

[٢٧]

[٢٨]

[٢٩]

[٣٠]

[٣١]

[٣٢]

[٣٣]

[٣٤]

[٣٥]

[٣٦]

[٣٧]

[٣٨]

[٣٩]

[٤٠]

[٤١]

[٤٢]

[٤٣]

[٤٤]

[٤٥]

[٤٦]

[٤٧]

[٤٨]

[٤٩]

[٥٠]

[٥١]

[٥٢]

[٥٣]

[٥٤]

[٥٥]

[٥٦]