- Ư±â»çÇ× Etc
|
ÀÚ°Ý¿ä°Ç
・°æ·Â 2³â ÀÌ»ó ¶Ç´Â ¼®»ç ÇÐÀ§ ÀÌ»ó¿¡ ÁØÇÏ´Â Àü¹® ¿¬±¸ ¿ª·® º¸À¯ÀÚ
・µö·¯´× ±â¹Ý À½¼º ó¸®(ASR/TTS) Áß Çϳª ÀÌ»ó ¸ðµ¨ ±¸Çö ¹× ¿¬±¸ °æÇè
・´ë±Ô¸ð À½¼º µ¥ÀÌÅͼ °¡°ø/Àüó¸® ¹× ºÐ»ê ÇнÀ °æÇè
・AI °ü·Ã ƯÇ㡤³í¹®, ±¹Á¦ ÇÐȸ ¹ßÇ¥ °æÇè
・Transformer, Conformer, Flow-matching, Diffusion ±â¹Ý ¸ðµ¨ ±¸Á¶ ÀÌÇØ
・Python, PyTorch ±â¹Ý ¿¬±¸¡¤°³¹ß ´É·Â
¿ì´ë»çÇ×
・ÄÄÇ»ÅͰøÇÐ, Àü±âÀüÀÚ, À½¼º½Åȣó¸® µî À̰ø°è ¼®»ç ÀÌ»ó (¹Ú»ç ¿ì´ë)
・¸ÖƼ½ºÇÇÄ¿¡¤¸ÖƼ¾ð¾î À½¼º ÇÕ¼º ¹× °¨Á¤¡¤½ºÅ¸ÀÏ Á¦¾î TTS °æÇè
・LLM°ú Speech ¸ðµ¨À» ÅëÇÕÇÑ ½ÇÁ¦ ÇÁ·ÎÁ§Æ®/¼ºñ½º °æÇè
・Neural Speech Codec ±â¹Ý TTS (LLaSa, CosyVoice, Orpheus µî) fine-tuning °æÇè ¹× Streaming Inference ÃÖÀûÈ °æÇè
・ASR ÃֽŠ¸ðµ¨ °æÇè: Whisper, Parakeet, Paraformer µî Transformer/Conformer ±â¹Ý ASR ¸ðµ¨ Ȱ¿ë ¹× ÃÖÀûÈ °æÇè
・Self-Supervised Learning ±â¹Ý À½¼º Ç¥Çö ÇнÀ °æÇè (HuBERT, WavLM, wav2vec2 µî)
・¼ºêÄÃÃÄ(¾Ö´Ï¸ÞÀ̼Ç/°ÔÀÓ/À½¼º ÇÕ¼º µî)¿Í AI Á¢¸ñ¿¡ °ü½É ÀÖ´Â ºÐ
・ÀϺ»¾î ´É·Â ¿ì´ë (ÀϺ»¾î µ¥ÀÌÅͼ ó¸®, ÀϺ»¾î LLM/³í¹® ÀÌÇØ °¡´ÉÀÚ)
½´ÆÛÁøÀÌ ¿øÇÏ´Â ºÐ
・»ç¿ëÀÚ °üÁ¡¿¡¼ ¼¼½ÉÇÏ°Ô ¹®Á¦¸¦ ¹ß°ßÇÏ°í ½Å¼ÓÇÏ°Ô ÇØ°áÇÏ´Â ºÐ
・¾î·Á¿î »óȲ¿¡¼µµ °á°ú¿¡ ÁýÁßÇÏ¿© ³¡±îÁö Ã¥ÀÓÀ» ´ÙÇÏ´Â ºÐ
・¼º°ú¸¦ À§ÇØ ²÷ÀÓ¾øÀÌ °í¹ÎÇϰí Áý¿äÇÏ°Ô ½ÇÇàÀ¸·Î ¿Å±â´Â ºÐ
・ÁÖ¾îÁø ¿ªÇÒ¿¡ ÃÖ¼±À» ´ÙÇÏ¸ç »õ·Î¿î ¿ªÇÒ°ú µµÀü¿¡µµ ¿·ÁÀÖ´Â ºÐ
・¼·ÎÀÇ Â÷À̸¦ Á¸ÁßÇϰí Çù¾÷ÇÏ¿© ÆÀ¿¡ ±àÁ¤ÀûÀÎ ¿µÇâÀ» ÁÖ´Â ºÐ
|