দ্বিদ্বিতীয় এলএসটিএম-এ কনক্যাট এবং এসইউমের মধ্যে পার্থক্য কী?


উত্তর 1:

আমি এটি দ্বি-নির্দেশমূলক আরএনএন-এর সাধারণ ক্ষেত্রে সম্বোধন করব। আরএনএন, এলএসটিএম, জিআরইউ বা আপনি যে কোনও সেল ব্যবহার করেন না কেন এই সমস্ত কিছুই সত্য।

দ্বি নির্দেশমূলক আরএনএন

প্রতিটি ইনপুট জন্য আরএনএন আছে

ii

, একটি অভ্যন্তরীণ রাষ্ট্র

hih_i

যে ইনপুট উপর নির্ভর করে

xix_i

এবং আগের পদক্ষেপ

hi1h_{i-1}

অর্থাত

hi=f(hi1,xi)h_i = f(h_{i-1}, x_i)

,withfbeingtheRNNfunction,aka.RNNcellwhichmaybeassimpleasa[math]tanh[/math]function(vanillaRNN)ormorecomplex(LSTM,GRU)., with f being the RNN function, aka. RNN cell which may be as simple as a [math]tanh[/math] function (vanilla RNN) or more complex (LSTM, GRU).

দ্বি-দিকীয় আরএনএন-তে, আমরা একটি আরএনএনও বিবেচনা করি যেখানে বিপরীত ক্রমে ইনপুটগুলি খাওয়ানো হয়, থেকে

xnx_n

প্রতি

x1x_1

অর্থাৎ:

hi=g(hi+1,xi)h_i = g(h_{i+1}, x_i)

স্পষ্টতার জন্য আমরা সেই রাজ্যগুলিকে বোঝাই

h\overrightarrow{h}

এবং

h\overleftarrow{h}

যথাক্রমে ফরওয়ার্ডের জন্য (অর্থাত্ "স্বাভাবিক") আরএনএন এবং পিছনের দিকে।

দ্বি-দিকীয় আরএনএন এর পিছনে ধারণাটি আশেপাশের ইনপুটগুলির তথ্য ক্যাপচার করা। মনে রাখবেন যে আরএনএন জানিয়েছে যে কোনও উপায়ে এটি দেখা ইনপুটগুলির সংক্ষিপ্তসার করে। অতএব, ফরওয়ার্ড আরএনএন, প্রদত্ত i এর জন্য পূর্ববর্তী ইনপুটগুলি সম্পর্কিত তথ্য থাকে ie

xjx_j

যেমন

j<i j < i

; পশ্চাদপদ আরএনএন-এ নিম্নলিখিত ইনপুট সম্পর্কিত তথ্য রয়েছে, যেমন

xkx_k

যেমন

k>i.k > i.

সামনের এবং পিছিয়ে পড়া রাষ্ট্রগুলির সম্মিলন

সুতরাং কোনও ইনপুটটি সুনির্দিষ্টভাবে বর্ণনা করতে উভয়কেই ফরোয়ার্ড অবস্থা এবং পশ্চাৎপদ অবস্থা ব্যবহার করা বোধগম্য। অন্য কথায়, আমরা আমাদের চূড়ান্ত রাষ্ট্রটি দুটি রাজ্যের একটি কার্য হতে চাই, অর্থাত:

hi=q(hi,hi)h_i = q(\overrightarrow{h_i} , \overleftarrow{h_i})

দ্বি-দিকনির্দেশক আরএনএন-এর প্রসঙ্গে আমরা সাধারণত যা "কনক্যাট" এবং "সমষ্টি" বলি তা হ'ল এই ফাংশনটি

qq

অর্থাত্ কীভাবে সামনের এবং পিছিয়ে পড়া অবস্থার সমন্বয় করা যায়।

কনক্যাট অর্থ "আমাদের চূড়ান্ত রাষ্ট্রটি এগিয়ে এবং পিছিয়ে পড়া অংশগুলির সংমিশ্রণ হবে", অর্থাত্

hi=[hi;hi]h_i = \left[{\overrightarrow{h_i}}^\top; {\overleftarrow{h_i}}^\top \right]^\top

(আপনি ট্রান্সপোজ উপেক্ষা করতে পারেন, এটি কেবল কলামে ভেক্টরগুলিকে লেখার জন্য)। এই ক্ষেত্রে, আমরা উভয় রাজ্যকে কোনও তথ্য ক্ষতির ছাড়াই ব্যবহার করছি, তবুও চূড়ান্ত রাষ্ট্রের আকারটি তীব্র আকারের সাথে পিছনের আকারে।

যোগফলের অর্থ "আমাদের চূড়ান্ত রাষ্ট্রটি এগিয়ে এবং পিছিয়ে পড়া রাজ্যের যোগফল হবে", অর্থাত্

hi=hi+hih_i = \overrightarrow{h_i} + \overleftarrow{h_i}

এটি মাত্রা বৃদ্ধি করে না, তবে তথ্যের ক্ষেত্রে এটি ক্ষতিকারক হিসাবে বিবেচিত হতে পারে।

আলোচনা

বেশিরভাগ ভাষার সাথে সম্পর্কিত প্রসঙ্গে আমি কাজ করেছি, আমি বেশিরভাগ ক্ষেত্রে কনটেক্সটেশন দেখেছি, যা আরও তথ্যপূর্ণ। তথ্যটি কোথায় বাছতে হবে তা শিখতে মডেল করতে সক্ষম করে।

আশা করি এটি সহায়তা করে, অন্যথায় মন্তব্য করতে দ্বিধা করবেন না।