๋ฌผ๋ฆฌ ์„ธ๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€ํ‘œ๋ฅผ ๊ฐœ๋ฐœํ•œ ์—ฐ๊ตฌ, OpenEQA
2024๋…„ 4์›” 3์ฃผ์ฐจ ์…€๋ ‰ํŠธ์Šคํƒ€ ๋‰ด์Šค๋ ˆํ„ฐ
๊ธ€: ์ด์„ฑ๋ฐฐ, ๋”ฅ๋‹ค์ด๋ธŒ(deep daiv.) ์ œํœด ์ฝ˜ํ…์ธ  ใ…ฃ ์—๋””ํ„ฐ: ์ •์ธ์˜                                            
๐Ÿ“ฐ ์„ธ์ƒ ๋ฐ–์œผ๋กœ ๋‚˜์˜ค๋Š” AI

AI ์‹œ๋Œ€์˜ ์ฒซ ๊ฑธ์Œ์€ ๋ฌด์—‡์ผ๊นŒ์š”?


์ตœ๊ทผ AI ๋กœ๋ด‡์— ๋Œ€ํ•œ ๊ด€์‹ฌ์ด ์ ์ฐจ ๋†’์•„์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ก€๋กœ ์ง€๋‚œ๋‹ฌ์— ๊ณต๊ฐœ๋œ Figure ์‚ฌ์˜ ๋กœ๋ด‡ Figure01์ด ์‚ฌ๋žŒ๊ณผ ๋Œ€ํ™”ํ•˜๊ณ  ํ–‰๋™ํ•˜๋Š” ์˜์ƒ์ด ํ™”์ œ๊ฐ€ ๋˜์–ด ๋ฌด๋ ค 200๋งŒ ์กฐํšŒ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ๊ณ , ๊ทธ ์ด์ „๋ถ€ํ„ฐ ํˆฌ์ž ์œ ์น˜๋ฅผ ๋ฐ›์•„์˜จ ๊ฒƒ์œผ๋กœ ์•Œ๋ ค์กŒ์Šต๋‹ˆ๋‹ค.

๋กœ๋ด‡๊ณผ AI๋Š” ์‚ฌ๋ญ‡ ๋‹ค๋ฅธ ๋ถ„์•ผ์ธ ๋งŒํผ ์ด์ œ ๋ง‰ ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํ•ด์ง€๋Š” ์‹œ๊ธฐ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ๋‘˜์ด ํ†ตํ•ฉ๋˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ทธ์™€ ๊ด€๋ จ๋œ ๋ชจ๋ธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ•™์Šต ๋ฐ์ดํ„ฐ๋„ ์ถฉ๋ถ„ํžˆ ๊ตฌ์ถ•๋˜์–ด์•ผ ํ•  ๊ฒƒ์ด๊ณ ์š”.

์ง€๋‚œ 11์ผ, Meta๋Š” ์ด์™€ ๊ด€๋ จํ•ด ์ƒˆ๋กœ์šด ๋…ผ๋ฌธ์„ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ ๋‰ด์Šค๋ ˆํ„ฐ์—์„œ๋Š” ๋ฌผ๋ฆฌ ์„ธ๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€ํ‘œ๋ฅผ ๊ฐœ๋ฐœํ•œ ์—ฐ๊ตฌ, OpenEQA๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.
Word ๋ชจ๋ธ์—์„œ World ๋ชจ๋ธ๋กœ: Embodied AI

OpenEQA์—์„œ EQA๋Š” Meta ์—ฐ๊ตฌ์ž๋“ค์ด ์ œ์‹œํ•œ ๊ฐœ๋…์œผ๋กœ, Embodied Question Answering์ž…๋‹ˆ๋‹ค. โ€œEmbodiedโ€๋ผ๋Š” ํ‘œํ˜„์€ ์ง์—ญํ•˜๋ฉด โ€˜๊ตฌ์ฒดํ™”๋œโ€™์ด๋ผ๋Š” ์˜๋ฏธ์ง€๋งŒ ๊ทธ๋ณด๋‹ค๋Š” ๋ฌผ๋ฆฌ์ ์ธ ์‹ค์ฒด๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฐœ๋…์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค. ์ฆ‰, EQA๋Š” ๋ฌผ๋ฆฌ์ ์ธ ํ™˜๊ฒฝ์„ ์ดํ•ดํ•˜๋Š” ์งˆ์˜ ์‘๋‹ต์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ด๋ฏธ ๋งŽ์€ ์–ธ์–ด ๋ชจ๋ธ๋“ค์ด SAT๋‚˜ ๋ณ€ํ˜ธ์‚ฌ ์‹œํ—˜์„ ํ’€ ์ˆ˜ ์žˆ์„ ๋งŒํผ QA ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๊ฐ€ ๋†’๊ฒŒ ๋‚˜์˜ค๋Š”๋ฐ ์™œ EQA๋ฅผ ์—ฐ๊ตฌํ•˜๋Š” ๊ฒƒ์ผ๊นŒ์š”?


์ด ๋…ผ๋ฌธ์ด ์†Œ๊ฐœ๋œ Meta๋ฅผ ์–€ ๋ฅด์ฟค์ด ์ด๋Œ๊ณ  ์žˆ๋‹ค๋Š” ์ ์„ ๊ณ ๋ คํ•œ๋‹ค๋ฉด, ์ตœ๊ทผ ๊ทธ๊ฐ€ ์ฃผ์žฅํ•˜๊ณ  ์žˆ๋Š” World Models๊ณผ๋„ ๋งฅ๋ฝ์„ ๊ฐ™์ดํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. LLM์„ ๋น„๋กฏํ•œ AI์—๊ฒŒ ๋ฌผ๋ฆฌ์ ์ธ ์„ธ์ƒ์„ ๋ณด๊ณ  ์ดํ•ดํ•˜๋„๋ก ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ ๋ง์ด์ฃ . ์ด๋Ÿฐ ์ ์— ๋Œ€ํ•˜์—ฌ UC ๋ฒ„ํด๋ฆฌ ๊ต์ˆ˜ Jitendra Malik์€ โ€œ์›Œ๋“œ(Word) ๋ชจ๋ธ์—์„œ ์›”๋“œ(World) ๋ชจ๋ธ๋กœ ๋‚˜์•„๊ฐ€์•ผ ํ•œ๋‹คโ€๊ณ  ๋งํ–ˆ์Šต๋‹ˆ๋‹ค.


์ด๋ ‡๋“ฏ AI๋ฅผ ๋ฌผ๋ฆฌ ์„ธ๊ณ„๋ฅผ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•œ EQA๋ฅผ ๋‘ ๊ฐ€์ง€๋กœ ๊ตฌ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ๋จผ์ € EM-EQA, ์ฆ‰ ์—ํ”ผ์†Œ๋”• ๋ฉ”๋ชจ๋ฆฌ(Episodic Memory)๋ฅผ ์ด์šฉํ•œ ์งˆ์˜์‘๋‹ต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ๋น„์ „ ํ”„๋กœ์™€ ๊ฐ™์€ ์Šค๋งˆํŠธ ๊ธ€๋ž˜์Šค ์žฅ์น˜์—์„œ ์ธ๊ฐ„ ์‚ฌ์šฉ์ž๊ฐ€ ์ƒ์„ฑํ•œ ์—ํ”ผ์†Œ๋”• ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ด์ „์— ๋ดค๋˜ ๊ฒƒ์„ ๊ธฐ์–ตํ•˜๊ณ  ์งˆ๋ฌธ์—์„œ ์›ํ•˜๋Š” ์ •๋ณด์— ๋งž๋Š” ๋‹ต์„ ์ธ์ถœํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์ค‘์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

OpenEQA: Embodied Question Answering in the Era of Foundation Models (Majumdar et al., 2024)


๋ฐ์ดํ„ฐ์…‹์˜ ์˜ˆ์‹œ๋Š” ์œ„์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„์ด ์Šค๋งˆํŠธ ๊ธ€๋ž˜์Šค๋ฅผ ์ฐฉ์šฉํ•˜๊ณ  ์ง‘์•ˆ ๊ณณ๊ณณ์„ ๋ˆ„๋นˆ ์˜์ƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ดํ›„์— ๋ฌผ์ฒด(Object), ์†์„ฑ(Attribute), ๋ฌผ์ฒด์˜ ์ƒํƒœ(Object State) ๋“ฑ์„ ์ œ๋Œ€๋กœ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์งˆ๋ฌธํ•˜๊ณ  ๋‹ตํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ด ์งˆ๋ฌธ๋“ค, ์ธ๊ฐ„์—๊ฒŒ๋„ ์–ด๋ ค์›Œ ๋ณด์ด์ง€ ์•Š๋‚˜์š”? ์–ด๋–ค ์งˆ๋ฌธ์ด ๋‚˜์˜ฌ์ง€ ๋ชจ๋ฅด๋‹ˆ ์„ธ์ƒ์„ ๊ผผ๊ผผํ•˜๊ฒŒ ์‚ดํŽด๋ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋“ค๋„ ์ด๋Ÿฐ ๊ณผ์ •์ด ์‚ฌ์šฉ์ž์—๊ฒŒ๋„ ๊ธฐ์–ต๋ ฅ์„ ์ฆ์ง„์‹œํ‚ค๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค๋Š” ์ ์„ ํŠน์ง•์œผ๋กœ ๊ผฝ๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค.


๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” A-EQA, ์ฆ‰ ํ™œ๋™์  ํƒ์ƒ‰(Active Exploration)์„ ์ด์šฉํ•œ ์งˆ์˜์‘๋‹ต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์›€์ง์ผ ์ˆ˜ ์žˆ๋Š” ๋กœ๋ด‡์ด ํ™œ๋™ํ•  ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ์—์„œ ์ž์œจ์ ์œผ๋กœ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ์— ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ์œ„ํ•ด ์Šค์Šค๋กœ ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, '์ฃผ๋ฐฉ์— ๊ฐ€์Šค๋ถˆ์„ ์ผœ๊ณ  ๋‚˜์™”๋‚˜?'๋ผ๋Š” ์งˆ๋ฌธ์— ๋Œ€ํ•ด, ๋กœ๋ด‡์€ ์ง‘์•ˆ์„ ํƒ์ƒ‰ํ•œ ํ›„ '์•„๋‹ˆ์š”, ์ฃผ๋ฐฉ์˜ ๊ฐ€์Šค๋ ˆ์ธ์ง€์—๋Š” ๋ถˆ์ด ๊บผ์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.'๋ผ๊ณ  ๋‹ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


EM-EQA์—์„œ ์งˆ๋ฌธ(Q)๊ณผ ๋‹ต๋ณ€(A)์œผ๋กœ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, A-EQA์—์„œ๋Š” ์ƒํƒœ(S) ์ •๋ณด๊ฐ€ ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. ์งˆ๋ฌธ์ด ์ฃผ์–ด์ง€๋ฉด ๋กœ๋ด‡์€ ๊ทธ๊ฒƒ์„ ๋‹ตํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํ™ฉ์„ ๋งŒ๋“ค๊ณ ์ž ์ง์ ‘ ์›€์ง์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์Šค๋ถˆ์ด ๊บผ์ ธ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ฃผ๋ฐฉ์œผ๋กœ ์ด๋™ํ•œ๋‹ค๊ฑฐ๋‚˜, ์ฐฝ๊ณ ์— ํ†ต์กฐ๋ฆผ์ด ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ฐฝ๊ณ ๋ฌธ์„ ์—ด์–ด๋ณด๋Š” ์‹์˜ ํ™œ๋™์„ ํ†ตํ•ด ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€์„ ๋‚ด๋ฆฌ๊ธฐ ์œ„ํ•ด ์ ์ ˆํ•œ ์ƒํƒœ๋กœ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋•Œ๋ฌธ์—, ๋‹ต๋ณ€์˜ ์ •ํ™•์„ฑ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋กœ๋ด‡์ด ์ˆ˜ํ–‰ํ•œ ํ–‰๋™์˜ ํšจ์œจ์„ฑ๊นŒ์ง€ ๋ชจ๋‘ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

AI๋Š” ์ •๋ง ์ธ๊ฐ„๋งŒํผ ๋˜‘๋˜‘ํ• ๊นŒ?

์ด๋ ‡๊ฒŒ 1636๊ฐœ์˜ EM-EQA์™€ 557๊ฐœ์˜ A-EQA ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐœ๋ฐœํ•œ ๋’ค์— ํ˜„์žฌ ๊ฐœ๋ฐœ๋œ AI ๋ชจ๋ธ๋“ค์˜ EQA ์„ฑ๋Šฅ ์ง€ํ‘œ๋ฅผ ํ™•์ธํ•ด๋ดค์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋‹ค์–‘ํ•œ AI ๋ชจ๋ธ(์—ฌ๊ธฐ์„œ๋Š” ์—์ด์ „ํŠธ)๋“ค์„ ์‹คํ—˜ ๋Œ€์ƒ์œผ๋กœ ์‚ผ์•˜๋Š”๋ฐ์š”. ๋จผ์ €, ํ…์ŠคํŠธ๋งŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” Blind LLM๊ณผ ์ด๋ฏธ์ง€ ์บก์…”๋‹ ๊ธฐ๋Šฅ์ด ๋”ํ•ด์ง„ Socratic LLMs์˜ ๋‘ ๊ฐ€์ง€ ๋ฒ„์ „(Frame Captions / Scene-Graph Captions), ์˜์ƒ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” VLM Multi-Frame VLM, ๋งˆ์ง€๋ง‰์œผ๋กœ ์ธ๊ฐ„(Human Agents)์ž…๋‹ˆ๋‹ค.

OpenEQA: Embodied Question Answering in the Era of Foundation Models (Majumdar et al., 2024)


์ธ๊ฐ„์€ ๋ฒค์น˜๋งˆํฌ์—์„œ 85% ์ด์ƒ์˜ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์• ์ดˆ์— ์ธ๊ฐ„์„ ๊ธฐ์ค€์œผ๋กœ ์‚ผ์€ ์ง€ํ‘œ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋‹น์—ฐํ•œ ๊ฒฐ๊ณผ์ด์ž, ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹์ด ์œ ํšจํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ง€ํ‘œ์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.


AI ๋ชจ๋ธ ์ค‘์—์„œ๋Š” Multi-Frame VLM์˜ ๋Œ€ํ‘œ๊ฒฉ์ธ GPT-4V๊ฐ€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ณ ๋ฅด๊ฒŒ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, ์ „์ฒด์ ์œผ๋กœ 50% ์ •๋„๋ฅผ ๋‹ฌ์„ฑํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ํฌํ•จํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋Œ€์ฒด๋กœ Blind LLM(GPT-4)๋ณด๋‹ค ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ณต๊ฐ„ ์ดํ•ด๊ฐ€ ํ•„์š”ํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•ด, ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” VLMs์กฐ์ฐจ ๊ฑฐ์˜ โ€˜๋งน๋ชฉ์ (Blind)โ€™์œผ๋กœ ๋‹ตํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ EM-EQA๋ณด๋‹ค A-EQA์—์„œ ๋” ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. A-EQA ์—์ด์ „ํŠธ๋Š” ์ง์ ‘ ํƒ์ƒ‰ํ•˜๋Š” ๊ณผ์ •์—์„œ ์งˆ๋ฌธ๊ณผ ๊ด€๋ จ ์—†๋Š” ์ •๋ณด๋ฅผ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ์ •๋ณด๊ฐ€ ์ถ”๋ก ํ•˜๋Š” ๋ฐ ํฌํ•จ๋˜๋ฉด์„œ ์›ํ•˜๋Š” ๋‹ต๋ณ€์„ ๋‚ด๋Š” ๋ฐ ๋ฐฉํ•ด๊ฐ€ ๋˜๋Š” ๊ฒƒ์ด์ฃ . ์ด๋Ÿฐ ํŠน์ง•์€ ์—์ด์ „ํŠธ์—๊ฒŒ ๋ฌด์—‡์— ์ง‘์ค‘ํ•ด์•ผ ํ•˜๋Š”์ง€ ๋ช…์‹œ์ ์œผ๋กœ ์•Œ๋ ค์ฃผ์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

OpenEQA: Embodied Question Answering in the Era of Foundation Models (Majumdar et al., 2024)


๊ทธ๋ ‡๋‹ค๋ฉด ์ด ๊ฒฐ๊ณผ๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”? ์ธ๊ฐ„์˜ ์„ฑ๋Šฅ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์ „๋ฐ˜์ ์œผ๋กœ AI ๋ชจ๋ธ์€ ๊ทธ ์ ˆ๋ฐ˜ ์ˆ˜์ค€์—๋„ ๋ชป ๋ฏธ์น˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋ฌด๋ฆฌ AI๊ฐ€ ํ˜„์žฌ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์ด๋ผ๊ณ  ํ•˜๋”๋ผ๋„, ์—ฌ์ „ํžˆ ์ธ๊ฐ„์ด ์ดํ•ดํ•˜๊ณ  ์žˆ๋Š” ๋ฌผ๋ฆฌ์ ์ธ ํ™˜๊ฒฝ์„ ์ œ๋Œ€๋กœ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์ง€์š”.

์ธ๊ฐ„์€ ํ–‰๋™์„ ํฌํ•จํ•œ ๋น„์–ธ์–ด์  ํ–‰๋™์„ ํ†ตํ•ด ์ƒํ˜ธ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค. โ€œ๊ฑฐ๊ธฐ์— ๊ฑ” ์žˆ์–ด?โ€๋ผ๊ณ  ๋งํ•ด๋„ ๋งฅ๋ฝ์ด ์ฃผ์–ด์ง„๋‹ค๋ฉด ๋Œ€ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜์ฃ . AI์™€ ์ด๋Ÿฐ ์‹์œผ๋กœ ๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋Œ€ํ™”ํ•˜๊ณ  ์žˆ๋Š” ์ƒ๋Œ€๋ฐฉ์ด ์–ด๋”” ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด์™€ ๊ทธ ๊ณต๊ฐ„์— ๋Œ€ํ•œ ์ดํ•ด, ๊ทธ๋ฆฌ๊ณ  ์นœ๊ตฌ๊ฐ„์˜ ์ดํ•ด ๋“ฑ ์—ฌ๋Ÿฌ ์ •๋ณด๋ฅผ ๋ˆ„์ ํ•˜์—ฌ ํ•ด์„ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์™€์ค‘์— OpenEQA ์—ฐ๊ตฌ๋Š” ์ œ๋ฒ• ๋ฐ˜๊ฐ€์šด ์†Œ์‹์ž…๋‹ˆ๋‹ค. ์•„์ง ๋ฐ์ดํ„ฐ์…‹์ด ํฌ์ง€ ์•Š๊ณ , ๋ถ€์กฑํ•œ ๋ถ€๋ถ„์ด ์žˆ๋”๋ผ๋„ AI๊ฐ€ ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ๋Š” ์„ธ์ƒ ๋ฐ–์œผ๋กœ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ์ฒซ ๊ฑธ์Œ์„ ๋‚ด๋”›์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.  
AI NEWS 

: OpenAI๋Š” ChatGPT-4-Turbo๋ฅผ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ ๋ฒ„์ „์€ ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ๊ฐ€ 12๋งŒ 8์ฒœ ๊ฐœ ํ† ํฐ์œผ๋กœ ๋Š˜์–ด๋‚ฌ๊ณ , 2023๋…„ 12์›”๊นŒ์ง€ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋์Šต๋‹ˆ๋‹ค. ์•คํŠธ๋กœํ”ฝ์˜ 'ํด๋กœ๋“œ 3'์™€ ๊ตฌ๊ธ€์˜ ์ œ๋ฏธ๋‚˜์ด ์ตœ์‹  ๋ชจ๋ธ์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋ชจ๋‘ ๋›ฐ์–ด๋„˜์—ˆ์œผ๋ฉฐ, ์ˆ˜ํ•™ ๋ฌธ์ œ์™€ ์ฝ”๋”ฉ ๊ตฌํ˜„ ๋Šฅ๋ ฅ์— ์žˆ์–ด ํฌ๊ฒŒ ๊ฐœ์„ ๋๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ์ƒˆ๋กœ์šด ๋ฒ„์ „์˜ ChatGPT๋Š” ์œ ๋ฃŒ ์‚ฌ์šฉ์ž๋“ค์—๊ฒŒ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค.


์ถ”๋ก ํ•˜๊ณ  ๊ณ„ํšํ•˜๋Š” ์ฐจ๊ธฐ AI ๋ชจ๋ธ

: OpenAI์˜ GPT-5๋ฅผ, Meta๋Š” Llama-3 ์—ญ์‹œ ๊ณง ์„ ๋ณด์ผ ๊ณ„ํš์ž…๋‹ˆ๋‹ค. ์ด ๋‘ ๋ชจ๋ธ์˜ ๊ณตํ†ต์ ์€ ์ถ”๋ก (Reasoning)๊ณผ ๊ณ„ํš(Planning)์— ์ดˆ์ ์„ ๋‘๊ณ  ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋‘ ๋Šฅ๋ ฅ์€ AGI๋ฅผ ํ–ฅํ•œ ์ค‘์š”ํ•œ ๋ฐœ์ „์œผ๋กœ, ์ฑ—๋ด‡์ด๋‚˜ ๊ฐ€์ƒ ๋น„์„œ ๊ฐ™์€ ์—์ด์ „ํŠธ๊ฐ€ ๊ด€๋ จ ์ž‘์—…์„ ์™„๋ฃŒํ•˜๊ณ  ํ–‰๋™์˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ AI๊ฐ€ ๋‹จ์ˆœํžˆ ๋งํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด ์‹ค์ œ๋กœ ์ƒ๊ฐํ•˜๊ณ  ๊ณ„ํšํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.


์š”์ฆ˜ ํ•ซํ•œ ์Œ์•… ์ƒ์„ฑ AI โ€˜Udioโ€™

: ์Œ์•… ์ƒ์„ฑ AI 'Udio'๊ฐ€ ์ถœ์‹œ๋˜์ž๋งˆ์ž ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๋“ค์€ ๊ฐ„๋‹จํ•œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž…๋ ฅํ•˜์—ฌ 40์ดˆ ๋‚ด์— ์Œ์•…์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ ๊ทธ ์„ฑ๋Šฅ์ด ๋ฌด์ฒ™ ๋›ฐ์–ด๋‚˜ ์‚ฌ์šฉ์ž๋“ค์˜ ๋ฐ˜์‘์ด ๋œจ๊ฒ์Šต๋‹ˆ๋‹ค. ChatGPT ๊ฐ™์€ ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์‚ฌ๋ฅผ ๋งŒ๋“ค๊ณ , StableAudio์™€ ์œ ์‚ฌํ•œ Diffusion ๋ชจ๋ธ์„ ํ†ตํ•ด ์Œ์•…์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Udio๋Š” ํ˜„์žฌ ๋ฒ ํƒ€ ํ…Œ์ŠคํŠธ ์ค‘์ด๋ฉฐ, ์ฐฝ์ž‘๋œ ์Œ์•…์€ ์ƒ์—…์  ๋ชฉ์ ์œผ๋กœ๋„ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Data-centric AI company

์„ธ์ƒ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ฐพ์•„, ์…€๋ ‰ํŠธ์Šคํƒ€๋Š”

AI ๋ผ์ดํ”„์‚ฌ์ดํด์„ ํ•จ๊ป˜ํ•˜๋Š” ์˜ฌ์ธ์› ๋ฐ์ดํ„ฐ ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.



๐Ÿ“‹ ์‚ฌ์—… ๋ฐ ์ œํœด ๋ฌธ์˜ contact@selectstar.ai
๐Ÿ“จ ์ฝ˜ํ…์ธ  ๋ฐ ํ–‰์‚ฌ ๋ฌธ์˜ marketing@selectstar.ai