jo식이야기

전체 글

내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-(Byte Pair Encoding (BPE))구체적 설명

jo식이 2025. 10. 5. 15:22

2025. 10. 5. 15:22

https://hanglestocks.tistory.com/102

내가 시험공부하려고 만든 자연어처리-전처리 1탄(전처리의 필요성과 텍스트전처리)

텍스트 전처리 최종 요약본1. 텍스트 전처리의 필요성: 왜 해야 하는가?가장 근본적인 이유는 사람이 사용하는 **자연어(Natural Language)**와 컴퓨터가 이해하는 **형식 언어(Formal Language)**의 차이 때

hanglestocks.tistory.com

https://hanglestocks.tistory.com/103

내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)

영어 vs 한국어 문장 나누기(토큰화) 핵심 차이점결론부터 말하면, 문장을 의미 단위로 나눌 때 영어는 '띄어쓰기'가 기준이 되는 반면, 한국어는 '형태소'가 기준이 됩니다. 그 이유는 두 언어의

hanglestocks.tistory.com

여기서 나는 의문이 들었다. 근데 BPE가 문자단위부터 시작하는데 근데 lover loving loves 이런 게 있으면 lo랑 lov가 빈도가 똑같고 원래 단어는 love는 빈도가 적으면 lo랑 lov가 lexicon에 들어가고 ,love는 lexicon에 안 들어가나??

love는 렉시콘(lexicon)에 들어갈 확률이 매우 높습니다.

그 이유는 BPE가 최종 단어의 빈도를 보는 것이 아니라, 매 단계에서 가장 빈번하게 등장하는 '인접한 쌍(pair)'을 탐욕적(Greedy)으로 병합하기 때문입니다.

BPE 시뮬레이션으로 이해하기

loves (5번), loving (5번), lover (5번), glove (5번) 이라는 단어들이 있다고 가정해 보겠습니다.

1단계: 초기화

모든 단어를 글자 단위로 분해합니다.

l, o, v, e, s
l, o, v, i, n, g
l, o, v, e, r
g, l, o, v, e

2단계: 첫 번째 병합

이제 가장 자주 나타나는 글자 쌍을 찾습니다.

(o, v) 쌍의 빈도: loves(5) + loving(5) + lover(5) + glove(5) = 20번
(l, o) 쌍의 빈도: loves(5) + loving(5) + lover(5) = 15번
(v, e) 쌍의 빈도: loves(5) + lover(5) + glove(5) = 15번

가장 빈도가 높은 (o, v) 쌍을 먼저 합쳐서 ov라는 새로운 토큰을 만듭니다.

3단계: 두 번째 병합

이제 우리의 토큰들은 l, ov, e, s / l, ov, i, n, g / l, ov, e, r / g, l, ov, e 형태가 되었습니다. 이 상태에서 다시 가장 빈번한 쌍을 찾습니다.

(l, ov) 쌍의 빈도: loves(5) + loving(5) + lover(5) = 15번
(ov, e) 쌍의 빈도: loves(5) + lover(5) + glove(5) = 15번

여기서는 빈도가 같으니, 둘 중 하나(예: l, ov)를 합쳐 lov라는 새 토큰을 만듭니다.

4. 세 번째 병합

이제 토큰들은 lov, e, s / lov, i, n, g / lov, e, r / g, l, ov, e 가 되었습니다.

(lov, e) 쌍의 빈도: loves(5) + lover(5) = 10번
(ov, e) 쌍의 빈도: glove(5) = 5번

가장 빈도가 높은 (lov, e) 쌍을 합쳐 드디어 love 라는 토큰이 만들어집니다.

결론

BPE는 최종 단어의 빈도를 계산하지 않습니다. love라는 단어가 한 번도 등장하지 않았더라도, l-o-v-e라는 글자 순서가 lover, loving, loves, glove 등 여러 단어에 걸쳐 자주 등장했기 때문에 (l,o) → lo, (lo,v) → lov, (lov,e) → love 순서로 병합될 가능성이 매우 큽니다.
렉시콘에는 중간 산물도 포함됩니다. 이 과정에서 만들어진 ov, lov 같은 중간 토큰들도 모두 렉시콘에 포함됩니다. 따라서 최종 렉시콘에는 lo, lov, love가 모두 들어있을 수 있습니다.

## 토큰화 단계: 학습된 규칙을 적용하는 과정

학습을 통해 우리는 "어떤 글자 쌍을 합쳐야 하는지"에 대한 **우선순위가 정해진 레시피 북(규칙 목록)**을 가지고 있습니다. 토큰화는 이 레시피 북을 그대로 따라가는 과정입니다.

예를 들어, lowest라는 새로운 단어를 토큰화한다고 해보겠습니다.

초기 분해: 먼저, 단어를 글자 단위로 모두 쪼갭니다.
- lowest → ['l', 'o', 'w', 'e', 's', 't', '</w>']
규칙 적용 (Greedy Search): 이제 학습된 '레시피 북'을 처음부터 끝까지 훑으면서, 현재 글자 뭉치에 적용할 수 있는 병합 규칙이 있는지 찾습니다. 가능한 한 가장 긴 토큰을 만드는 것을 목표로 합니다.
- 1차 스캔: 레시피 북에 (e, s) → es 규칙이 있다면 적용합니다.
  - ['l', 'o', 'w', 'es', 't', '</w>']
- 2차 스캔: 다시 레시피 북을 훑습니다. (es, t) → est 규칙이 있다면 적용합니다.
  - ['l', 'o', 'w', 'est', '</w>']
- 3차 스캔: 또다시 훑습니다. (l, o) → lo 규칙을 적용합니다.
  - ['lo', 'w', 'est', '</w>']
- 4차 스캔: 마지막으로 (lo, w) → low 규칙을 적용합니다.
  - ['low', 'est', '</w>']
최종 결과: 더 이상 레시피 북에 있는 규칙을 적용하여 합칠 수 있는 쌍이 없으면 토큰화를 멈춥니다.
- lowest의 최종 토큰화 결과는 ['low', 'est', '</w>'] 가 됩니다.

## 요약: 학습 vs. 토큰화

학습 (요리법 개발): 어떤 재료(글자)를 합치는 것이 최선인지, 수많은 데이터를 보고 가장 효율적인 요리법(병합 규칙)을 만드는 과정입니다. 시간과 계산이 많이 필요합니다.
토큰화 (요리): 이미 만들어진 요리법을 가져와 새로운 재료(단어)에 순서대로 적용해 요리(토큰 분해)를 완성하는 과정입니다. 매우 빠릅니다.

BPE가 자주 쓰는 단어는 통째로 하나의 토큰으로 만들고, 드물게 쓰는 단어는 여러 개의 작은 토큰 조각으로 나눠서 표현한다는 의미예요.

결과적으로, 자주 쓰는 단어는 1개의 ID로 짧게 표현되고, 드문 단어는 여러 개의 ID로 길게 표현되는 압축 효과가 나타납니다.

## 압축적 표현의 원리: 'the' vs. 'floccinaucinihilipilification'

예를 들어, 아주 흔한 단어 **'the'**와 세상에서 가장 긴 단어 중 하나인 'floccinaucinihilipilification'(무언가를 무가치하게 여기는 습관)가 있다고 상상해 보세요.

1. 학습(Training) 단계

BPE 알고리즘이 수많은 텍스트를 학습합니다.

'the'의 경우: 이 단어는 워낙 자주 등장하기 때문에, (t, h) 쌍이 합쳐져 th가 되고, 곧이어 (th, e) 쌍이 합쳐져 **'the'**라는 단어 자체가 하나의 토큰으로 어휘집(Vocabulary)에 등록될 가능성이 100%에 가깝습니다.
'floccinaucinihilipilification'의 경우: 이 단어는 너무 희귀해서 학습 데이터에 아예 없거나 한두 번 나올까 말까 합니다. 따라서 (f, l), (l, o) 등 앞부분의 일부 쌍은 합쳐질 수 있어도, 단어 전체가 하나의 토큰으로 합쳐질 일은 절대 없습니다. 대신, flocci, nauci, nihili, pili, fication처럼 더 흔하게 사용되는 여러 개의 작은 조각들로 나뉘어 어휘집에 등록됩니다.

2. 토큰화(Tokenization) 단계

이제 학습된 토크나이저로 두 단어를 토큰화합니다.

'the' 토큰화: 어휘집에 **'the'**가 통째로 등록되어 있으므로, 이 단어는 단 1개의 토큰으로 처리됩니다.
- ['the'] → (예시 ID) → [252] (표현이 짧음)
'floccinaucinihilipilification' 토큰화: 어휘집에 이 단어는 없지만, 단어를 구성하는 작은 조각들은 존재합니다. 따라서 여러 개의 토큰으로 분해됩니다.
- ['flocci', 'nauci', 'ni', 'hili', 'pili', 'fication'] → (예시 ID) → [3142, 5821, 98, 721, 1344, 4520] (표현이 길어짐)

이처럼 BPE는 빈도를 기반으로 어휘집을 효율적으로 구축하기 때문에, 자주 쓰는 단어는 하나의 압축된 토큰으로 짧게 표현하고, 드물게 쓰는 단어는 이미 아는 토큰들의 조합으로 길게 풀어 설명하는 효과를 갖게 됩니다.

BPE의 어휘집(lexicon)은 글자, 중간 토큰, 완성된 단어 토큰까지 모두 포함하기 때문에, 단순 단어 목록보다 어휘집 자체의 크기는 오히려 더 커질 수 있습니다.

여기서 말하는 **'압축적'**이라는 표현은 어휘집 파일의 크기가 작다는 의미가 아닙니다. 바로 두 가지 다른 차원의 압축을 의미합니다.

## 1. '토큰 시퀀스 길이'의 압축

이것이 가장 직접적인 의미의 압축입니다. 토큰화가 끝난 후의 결과물 길이가 효율적으로 압축된다는 뜻입니다.

자주 쓰는 단어 (the): [252] → 1개의 토큰으로 압축됨
드문 단어 (antidisestablishmentarianism): [43, 91, 524, 88, ...] → N개의 토큰으로 길게 풀어냄

즉, 전체 텍스트에서 자주 나오는 부분을 짧게 표현하고(압축), 드문 부분을 길게 풀어냄(해제)으로써 전체적인 토큰 시퀀스의 정보 밀도를 높이는 것입니다.

## 2. '표현 가능성'의 압축 (⭐ 가장 중요한 의미 ⭐)

이것이 BPE의 진짜 혁신적인 부분입니다.

기존 방식 (Word-based): 세상의 모든 단어를 표현하려면 어휘집에 그 모든 단어가 들어있어야 합니다. 신조어가 생길 때마다 어휘집은 무한히 커져야만 OOV(미등록 단어)를 막을 수 있습니다. 무한한 단어 → 무한한 어휘집
BPE 방식: BPE는 어휘집 크기를 30,000개와 같이 유한한 크기로 고정합니다. 그리고 이 유한한 개수의 '레고 블록(서브워드)' 조합을 통해 세상의 모든 단어, 심지어 미래에 생길 신조어까지도 표현해냅니다.

즉, **무한한 표현 가능성을 유한한 어휘집 안에 '압축'**해 넣은 것입니다. 어휘집의 크기를 늘리지 않고도 OOV 문제를 해결한 것, 이것이 BPE가 가진 가장 강력한 '압축적' 특성입니다.

결론적으로, BPE의 '압축'은 어휘집(사전 파일)의 물리적 크기를 줄인다는 뜻이 아니라, ① 자주 쓰는 단어의 표현 길이를 줄이고, ② 유한한 어휘집으로 무한한 단어를 표현할 수 있다는 '개념적 압축'을 의미합니다

저작자표시 비영리 변경금지 (새창열림)

'코딩공부 > 자연어처리' 카테고리의 다른 글

내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-WordPiece (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-SentencePiece (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)요약 (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화) (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 1탄(전처리의 필요성과 텍스트전처리) (0)	2025.10.05

내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)요약

jo식이 2025. 10. 5. 14:57

2025. 10. 5. 14:57

텍스트 전처리: 토큰화(Tokenization) 최종 요약 📝

토큰화(Tokenization)는 문장과 같은 텍스트 데이터를 컴퓨터가 분석할 수 있는 의미 있는 최소 단위인 **토큰(Token)**으로 나누는 핵심적인 전처리 과정입니다.

1. 토큰화의 기본 단위

토큰의 기준은 언어와 분석 목적에 따라 달라집니다.

영어: 띄어쓰기 단위인 **어절(Word)**을 주로 사용합니다.
한국어: 조사, 어미가 발달한 교착어 특성상, 의미의 최소 단위인 **형태소(Morpheme)**를 주로 사용합니다.
서브워드(Subword): 단어보다 작은 단위로, OOV(미등록 단어) 문제 해결을 위해 최신 모델에서 널리 사용됩니다.

2. 토큰화의 주요 방법

토큰화는 크게 규칙 기반, 통계(데이터) 기반 방식으로 나뉩니다.

① 규칙 기반 토큰화 (Rule-based)

사람이 직접 만든 **규칙(예: 띄어쓰기, 구두점)**에 따라 텍스트를 나눕니다.

장점: 구현이 매우 간단하고 직관적입니다.
단점: 신조어 처리가 어렵고, 어휘집에 없는 단어를 처리 못 하는 OOV 문제가 발생합니다.

② 서브워드 토큰화 (Subword Tokenization) - 데이터 기반

데이터의 통계적 특성을 활용해 토큰화 규칙을 자동으로 학습합니다. OOV 문제를 해결하는 데 매우 효과적입니다.

알고리즘	병합 기준 (어떻게 합치는가?)	특징
BPE	단순 빈도수: 가장 자주 등장하는 글자 쌍을 합침	가장 기본적인 서브워드 알고리즘
WordPiece	확률(Likelihood): 합쳤을 때 언어적으로 가장 자연스러운 쌍을 합침	접두사/접미사 단위로 잘 나뉨. 단어 중간은 ##로 표시. (BERT에서 사용)
SentencePiece	BPE 또는 Unigram 모델 선택 가능	사전 토큰화 불필요. 공백을 _로 처리하여 어떤 언어에도 적용 가능한 언어 독립적 방식. (KoGPT 등에서 사용)

3. 한국어 토큰화 접근법

한국어는 특성상 두 가지 접근법이 주로 사용됩니다.

구분	형태소 분석기 기반	Subword 기반
원리	언어학적 지식 (문법)	데이터 통계
단위	형태소 (의미 단위)	서브워드 (통계 단위)
장점	결과 해석이 직관적	속도 빠름, OOV 해결, 대규모 데이터에 적합
단점	속도 느림, 신조어 취약	결과가 비직관적
예시	Mecab-ko, Okt, Kkma	SentencePiece, KoBERT

4. 토큰화 이후의 후속 처리

토큰화된 결과를 더 정제하는 과정입니다. (단, 최신 LLM에서는 잘 사용하지 않음)

불용어(Stopwords) 제거: 의미 없는 토큰(a, the, 은, 는)을 제거합니다.
어간 추출(Stemming): 규칙 기반으로 단어의 어미를 잘라 어간을 추출합니다. (studies → studi)
표제어 추출(Lemmatization): 사전 정보를 이용해 단어의 원형을 찾습니다. (studies → study)

저작자표시 비영리 변경금지 (새창열림)

'코딩공부 > 자연어처리' 카테고리의 다른 글

내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-WordPiece (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-SentencePiece (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-(Byte Pair Encoding (BPE))구체적 설명 (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화) (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 1탄(전처리의 필요성과 텍스트전처리) (0)	2025.10.05

내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)

jo식이 2025. 10. 5. 14:55

2025. 10. 5. 14:55

영어 vs 한국어 문장 나누기(토큰화) 핵심 차이점

결론부터 말하면, 문장을 의미 단위로 나눌 때 영어는 '띄어쓰기'가 기준이 되는 반면, 한국어는 '형태소'가 기준이 됩니다. 그 이유는 두 언어의 구조적 특성이 다르기 때문입니다.

1. 영어: 띄어쓰기 중심의 분리 (Spacing is Key)

영어는 띄어쓰기 단위로 단어를 구분해도 대부분 그 단어가 독립적인 의미를 가집니다.

you / going / to / be / there / today

물론 슬라이드의 예시처럼 gonna를 going to로 바꾸는 등의 정규화는 필요하지만, 기본적인 의미 단위는 띄어쓰기로 충분히 나눌 수 있습니다. 이를 '어절(Word)' 단위 토큰화라고 하며, 영어는 이 방식이 매우 효과적입니다.

시험 Point: 영어 문장 나누기의 기본 단위는? 띄어쓰기로 구분된 단어(어절)

2. 한국어: 형태소 중심의 분리 (Morpheme is Key)

한국어는 띄어쓰기만으로 의미를 제대로 파악하기 어렵습니다. 왜냐하면 한국어는 교착어(agglutinative language), 즉 조사, 어미 등이 명사나 동사 어간에 붙어서 문법적 기능을 하는 언어이기 때문입니다.

슬라이드의 예시를 봅시다: "한나가 책을 보았다."

이 문장을 띄어쓰기로만 나누면 ["한나가", "책을", "보았다"] 세 개의 덩어리(어절)가 나옵니다. 하지만 컴퓨터가 '한나가'와 '한나는'을 다른 단어로 인식하면 안 되겠죠? 진짜 의미를 알기 위해선 더 작은 단위인 **형태소(morpheme)**로 쪼개야 합니다.

형태소란? 의미를 가지는 가장 작은 말의 단위입니다.

"한나가 책을 보았다"는 다음과 같이 형태소로 나눌 수 있습니다. 한나 / 가 / 책 / 을 / 보 / 았 / 다

이 형태소들은 슬라이드에서 설명하는 두 가지 기준으로 다시 분류할 수 있습니다.

1) 혼자 쓸 수 있는가? (의존성)
- 자립 형태소: 혼자서도 의미를 가지며 쓰일 수 있는 형태소.
  - 예시: 한나, 책 (명사)
- 의존 형태소: 다른 말에 붙어야만 의미를 가지는 형태소.
  - 예시: 가, 을(조사), 보(동사 어간), 았, 다(어미)
2) 실질적인 의미가 있는가? (의미 여부)
- 실질 형태소: 구체적인 대상이나 동작처럼 실질적인 의미를 나타내는 형태소.
  - 예시: 한나, 책, 보-(보다)
- 형식(문법) 형태소: 문법적인 기능을 하는 형태소.
  - 예시: 가(주격 조사), 을(목적격 조사), -았-(과거 시제), -다(종결 어미)

시험 Point: 한국어 문장 나누기의 기본 단위는? 의미를 가진 가장 작은 단위인 형태소(morpheme). 띄어쓰기 단위인 어절만으로는 부족하다.

최종 요약

구분	영어	한국어
언어 특성	굴절어	교착어
분리 기준	띄어쓰기 (어절)	형태소
이유	단어 자체가 독립적인 의미를 가짐	명사, 동사에 조사, 어미가 붙어서 의미가 확장됨
예시	I love you → I / love / you	나는 너를 사랑해 → 나 / 는 / 너 / 를 / 사랑하 / 아

토큰화(Tokenization) 완벽 정복

1. 토큰(Token)과 토큰화(Tokenization)란 무엇인가?

토큰 (Token): 자연어 처리(NLP)에서 의미를 가지는 최소 분석 단위입니다. 문장을 잘게 쪼갰을 때 나오는 각각의 조각이라고 생각하면 쉽습니다.
토큰화 (Tokenization): 주어진 문장이나 문서를 토큰(Token) 단위로 나누는 작업 전체를 말합니다. 컴퓨터가 텍스트를 이해하기 위한 가장 첫 번째 단계입니다. 이 작업을 수행하는 도구를 **토크나이저(Tokenizer)**라고 부릅니다.

2. 토큰의 단위: 무엇을 기준으로 쪼개는가?

토큰의 기준은 언어의 특성이나 분석 목적에 따라 달라집니다.

영어: 띄어쓰기 단위로 나눠도 큰 문제가 없어 주로 **어절(Word)**을 토큰으로 사용합니다.
- "I love you" → ['I', 'love', 'you']
한국어: '은', '는', '를' 같은 조사와 어미가 붙어있기 때문에, 어절 단위로 나누면 의미 분석이 어렵습니다. 따라서 **형태소(Morpheme)**를 토큰으로 주로 사용합니다.
- "나는 너를 사랑해" → ['나', '는', '너', '를', '사랑하', '아']

슬라이드의 예시(sentence.split())는 영어를 어절 단위로 분리하는 가장 간단한 토큰화 방법을 보여줍니다.

코드 예시 (어절 단위 분리):

Python

sentence = "Thomas Jefferson began building Monticello at the age of 26."
# .split()은 띄어쓰기를 기준으로 문장을 나눕니다.
tokens = sentence.split() 
# 결과: ['Thomas', 'Jefferson', 'began', ..., '26.']

이렇게 생성된 토큰들의 집합(중복 제거)을 **어휘집(vocabulary 또는 lexicon)**이라고 부릅니다.

3. [핵심] 토큰에 대한 중요한 관점 (주의사항)

시험에서 가장 중요하게 이해해야 할 부분입니다.

언어학적 의미 vs. NLP에서의 의미
- 전통 언어학: 토큰을 '최소 의미 단위' (예: 형태소)로 엄격하게 정의합니다.
- 자연어 처리 (NLP): 토큰을 **'분석을 위한 최소 연산 단위'**로 정의합니다. 즉, 모델이 처리하기 편하게 인위적으로 나눈 단위라는 의미가 더 강합니다.
토큰의 단위는 고정되어 있지 않다
- NLP에서 '토큰'은 꼭 어절이나 형태소만을 의미하지 않습니다. 분석 목적에 따라 다음과 같이 다양한 단위를 토큰으로 사용할 수 있습니다.
  - 문장 단위 (Sentence Tokenization): 하나의 문서를 여러 문장 토큰으로 나눔
  - 어절 단위 (Word Tokenization): 문장을 띄어쓰기 기준으로 단어 토큰으로 나눔
  - 형태소 단위 (Morpheme Tokenization): 단어를 의미를 가진 최소 단위인 형태소 토큰으로 나눔
  - 하위 단어 단위 (Subword Tokenization): preprocessing을 pre와 processing으로 나누는 것처럼, 단어보다 더 작은 단위로 토큰을 나눔 (최신 모델에서 주로 사용)

시험 Point: 자연어 처리(NLP)에서 토큰이란? **"텍스트를 쪼개어 컴퓨터가 연산하기 쉽게 만든 단위"**를 의미하며, 그 기준은 어절, 형태소, 하위 단어 등 목적에 따라 유연하게 달라질 수 있다.

최종 요약

토큰화란? 문장을 **분석의 최소 단위(토큰)**로 쪼개는 작업.
영어 토큰화: 주로 어절(띄어쓰기) 단위.
한국어 토큰화: 주로 형태소 단위.
NLP에서의 토큰: 언어학적 최소 의미 단위라기보다는, 컴퓨터의 연산을 위한 실용적인 최소 단위이며, 그 기준은 분석 목적에 따라 달라질 수 있다.

규칙 기반 토큰화(Rule-based Tokenization) 완벽 정복

1. 규칙 기반 토큰화란?

규칙 기반 토큰화는 이름 그대로, 사람이 직접 만든 명시적인 규칙에 따라 텍스트를 토큰으로 나누는 가장 단순하고 직관적인 방법입니다.

핵심 개념: "이런 규칙을 만나면 단어를 나눠라!"라고 미리 정해두는 것입니다.
대표적인 규칙:
- 공백/띄어쓰기 기준 분리: 가장 흔한 규칙입니다.
- 구두점 기준 분리: 쉼표(,), 마침표(.) 등을 기준으로 나눕니다.
파이썬 코드: sentence.split() 함수가 바로 공백을 기준으로 텍스트를 나누는 대표적인 규칙 기반 토큰화 도구입니다.

2. 장점과 단점

이 방법은 간단한 만큼 명확한 장단점을 가집니다.

👍 장점

매우 간단한 구현: split() 함수 하나로 구현될 만큼 매우 쉽고 빠릅니다.
소규모/정형 데이터에 적합: 데이터가 복잡하지 않고 규칙이 잘 통하는 경우 효과적입니다.

👎 단점

모든 규칙을 고려하기 어려움: 아포스트로피(')나 하이픈(-) 같은 예외적인 규칙을 모두 사람이 만들기는 거의 불가능합니다.
신조어/줄임말에 취약: "핵인싸", "어쩔티비" 같은 신조어가 등장할 때마다 계속해서 규칙을 수동으로 추가해줘야 합니다.
복잡한 언어에 취약: 조사가 발달한 한국어는 단순히 띄어쓰기로만 나누면 "철수가"와 "철수는"을 다른 단어로 인식하는 등 문제가 발생합니다.
Out-of-Vocabulary (OOV) 문제 발생: 가장 치명적인 단점입니다. (아래에서 상세 설명)

3. [시험 핵심] OOV (Out-of-Vocabulary) 문제

OOV란, 내가 가진 어휘집(Vocabulary, Lexicon)에 없는 새로운 단어를 만나 처리할 수 없는 문제를 말합니다.

발생 원인: 규칙 기반 토큰화는 미리 만들어 놓은 단어 목록(어휘집)을 기준으로 토큰을 인식합니다. 이 목록에 없는 단어는 "처음 보는 단어"가 되어버립니다.
예시: 내 어휘집에 '서울', '한강', '맛집'은 있어도 '서울한강맛집'이라는 복합 명사나 '저메추(저녁 메뉴 추천)' 같은 신조어는 없을 가능성이 높습니다.
해결 방법: 보통 이런 단어들은 무시하거나, 하나의 특별한 토큰, 즉 <UNK> (Unknown) 토큰으로 모두 치환해버립니다. 하지만 이 경우 원래 단어가 가진 소중한 의미 정보를 잃어버리게 됩니다.

OOV 문제의 근본적인 해결책: 슬라이드의 핵심 메시지처럼, 사람이 미리 어휘집을 다 만들어두는 것은 한계가 명확합니다. 따라서 "데이터를 기반으로 컴퓨터가 동적으로 어휘집을 만들고 토큰화를 수행하자!" 라는 아이디어가 나오게 되었고, 이것이 바로 통계 기반 토큰화(BPE 등)의 시작입니다.

최종 요약

구분	내용
정의	사람이 만든 규칙(띄어쓰기, 구두점 등)으로 텍스트를 분할하는 방식
장점	구현이 매우 간단하고 빠름
단점	예외 처리의 어려움, 신조어에 취약, 한국어 같은 복잡한 언어에 부적합
가장 큰 문제점	OOV (Out-of-Vocabulary) 문제: 어휘집에 없는 단어는 의미를 잃고 <UNK> 토큰으로 처리됨

BPE (Byte Pair Encoding) 완벽 정복

1. 왜 서브워드(Subword) 토큰화가 필요한가? (제안 동기)

기존의 단어(어절) 단위 토큰화는 OOV(Out-of-Vocabulary), 즉 어휘집에 없는 희귀어나 신조어를 처리하지 못하는 치명적인 문제가 있었습니다.

서브워드 토큰화는 이 문제를 해결하기 위해 등장했습니다. 단어를 더 작은 단위인 **'서브워드(Subword)'**로 쪼개면, 처음 보는 단어라도 이미 학습한 서브워드들의 조합으로 표현할 수 있습니다.

예시: Abwasserbehandlungsanlage (독일어: 하수 처리장)
- 단어 단위로는 처음 보는 단어(OOV)일 수 있지만,
- 서브워드 단위 Abwasser / behandlungs / anlage 로 쪼개면 각각 '폐수', '처리', '시설'이라는 의미로 번역이 가능합니다.

2. BPE의 핵심 아이디어: 데이터 기반 압축

BPE는 원래 데이터 압축 기술에서 유래한 알고리즘으로, 가장 빈번하게 등장하는 글자 쌍(pair)을 찾아 하나로 합치는 작업을 반복합니다.

Rule-based가 아닌 Data-driven: 사람이 규칙을 정하는 게 아니라, 주어진 텍스트 데이터의 통계적 특성을 바탕으로 컴퓨터가 스스로 토큰화 규칙(어휘집)을 만듭니다.
효율적인 표현:
- 자주 쓰이는 단어 (예: love)는 통째로 하나의 짧은 토큰이 됩니다.
- 드물게 쓰이는 단어 (예: hugging)는 hugg + ing 처럼 여러 개의 서브워드 토큰으로 나뉩니다.
결과: 고정된 크기의 어휘집으로도 모든 단어를 표현할 수 있게 되어 OOV 문제가 해결됩니다.

3. BPE 알고리즘의 작동 방식

BPE는 크게 **(1) 학습(어휘집 구축)**과 (2) 토큰화(분해) 두 단계로 나뉩니다.

1단계: 학습 - 서브워드 어휘집 만들기

이 단계는 어떤 글자 쌍을 합칠지에 대한 병합 규칙(merge rule) 목록을 만드는 과정입니다.

초기화: 모든 단어를 글자(character) 단위로 분해하고, 단어의 끝을 표시하는 특별 토큰(예: </w>)을 추가합니다.
- low, lower, lowest → l, o, w, </w>, l, o, w, e, r, </w>, l, o, w, e, s, t, </w>
빈도 계산: 텍스트 전체에서 가장 자주 등장하는 글자 쌍(pair)의 빈도를 계산합니다.
병합: 빈도가 가장 높은 쌍을 찾아 하나의 새로운 서브워드로 합칩니다.
- 만약 (e, s)가 가장 빈도가 높았다면, es라는 새로운 서브워드를 만들고 어휘집에 추가합니다.
반복: 2번과 3번 과정을 미리 정해둔 횟수(hyperparameter)만큼 반복합니다.
- l, o, w, e, s, t, </w> → lo, w, e, s, t, </w> → low, e, s, t, </w> → lowes, t, </w> ...

2단계: 토큰화 - 새로운 단어 분해하기

학습 단계에서 만든 병합 규칙들을 사용해, 새로운 단어가 들어왔을 때 서브워드로 분해합니다.

초기화: 새로운 단어도 일단 글자 단위로 분해합니다.
- lowest → l, o, w, e, s, t, </w>
규칙 적용: 학습된 병합 규칙을 우선순위대로 탐욕적(Greedy)으로 적용하여 가능한 가장 긴 서브워드를 만듭니다.
- 만약 (l,o)→lo, (lo,w)→low, (e,s)→es, (es,t)→est 순으로 규칙을 배웠다면, lowest는 low + est + </w> 로 토큰화됩니다.
- 최악의 경우(만약 어휘집에 글자조차 없다면): 그래도 분해가 안 되면 최종적으로는 글자 단위로 처리됩니다. (그래서 OOV가 거의 없음)

4. BPE의 장점과 단점

👍 장점	👎 단점
OOV 문제 최소화: 희귀 단어, 신조어도 서브워드 조합으로 표현 가능	의미 왜곡 가능성: meaningless가 meaning+less가 아닌 mean+ingless처럼 의미와 무관하게 분해될 수 있음
데이터 기반 학습: 사람이 규칙을 만들 필요 없음	계산 오버헤드: 학습 과정에서 반복적인 계산이 오래 걸릴 수 있음
압축 효과: 자주 쓰는 단어는 짧게, 드문 단어는 길게 효율적으로 표현	하이퍼파라미터 의존: 병합 횟수나 어휘집 크기에 따라 성능이 달라짐
복잡한 형태소 분석 불필요	한국어 등 교착어에 한계: 형태소 구조가 복잡한 언어에서는 최적의 성능을 내기 어려울 수 있음
GPT 개선: 모든 문자를 UTF-8 바이트로 변환하여 토큰화하면 모든 언어와 기호를 예외 없이 처리 가능	직관적 해석의 어려움: 분해된 토큰이 사람이 이해하기 어려울 수 있음

WordPiece 토큰화 완벽 정복 (BPE와 비교)

WordPiece는 BERT와 같은 구글의 언어 모델에서 주로 사용하는 서브워드 토큰화 방식입니다. BPE와 매우 유사하지만, 어떤 글자 쌍을 합칠지 결정하는 기준에서 결정적인 차이를 보입니다.

1. 핵심 아이디어: 무엇이 BPE와 다른가?

BPE (Byte Pair Encoding): 단순히 텍스트에서 가장 자주 나오는 글자 쌍을 합칩니다. (단순 빈도수 기준)
WordPiece: 글자 쌍을 합쳤을 때, 언어 모델의 확률(Likelihood)을 가장 높이는 쌍을 합칩니다. (확률 기반)

이게 무슨 의미일까요? WordPiece는 단순히 자주 등장하는 것을 넘어, 합쳤을 때 단어의 전체적인 완성도를 높이고 언어적으로 더 자연스러운 패턴이 되는 조합을 우선시합니다. 이 때문에 un-, -able, -ing 처럼 의미를 가진 접두사나 접미사가 하나의 토큰으로 생성되는 경향이 강합니다.

시험 Point: BPE와 WordPiece의 가장 큰 차이점은? 병합 기준이다. BPE는 '빈도수', WordPiece는 **'확률(Likelihood)'**을 기준으로 글자 쌍을 합친다.

2. WordPiece 알고리즘의 작동 방식

알고리즘의 전체적인 흐름은 BPE와 같지만, '병합 후보 탐색' 단계가 다릅니다.

1단계: 학습 - 서브워드 어휘집 만들기

초기화: 모든 단어를 글자(character) 단위로 분해합니다.
병합 후보 탐색: 현재 어휘집에 있는 모든 글자 쌍 조합에 대해, 그 쌍을 합쳤을 때 Likelihood가 얼마나 증가하는지를 모두 계산합니다.
병합: 계산된 Likelihood 증가량이 가장 높은 글자 쌍을 선택하여 하나의 새로운 서브워드로 합치고 어휘집에 추가합니다.
반복: 정해진 어휘집 크기가 될 때까지 2~3번 과정을 반복합니다.

2단계: 토큰화 - 새로운 단어 분해하기

BPE처럼, 학습된 규칙을 적용하여 가능한 가장 긴 서브워드 단위로 단어를 나눕니다.

unaffordable → ['un', '##aff', '##ord', '##able']

여기서 ##는 매우 중요한 표시입니다.

3. BPE와의 최종 비교 및 특징 요약

구분	공통점
작동 방식	글자 단위에서 시작 → 자주 등장하는 쌍을 병합하여 어휘집 생성 → OOV 문제 해결

구분	차이점	BPE	WordPiece
병합 기준	💯	단순 빈도 (가장 많이 나온 쌍)	확률(Likelihood) (합쳤을 때 가장 자연스러운 쌍)
단어 경계 표시	📝	단어의 끝을 표시 (예: low</w>)	단어의 시작이 아님을 표시 (예: low, ##er)

WordPiece의 장점과 단점 (BPE 대비)

👍 장점: 확률 기반으로 병합하기 때문에, 접두사/접미사와 같이 언어학적으로 의미 있는 단위로 토큰이 생성될 가능성이 높습니다.
👎 단점: 모든 후보 쌍의 Likelihood를 계산해야 하므로 계산 비용이 높고 구현이 복잡합니다. 이 때문에 최근의 몇몇 모델들은 구현이 더 간단한 BPE를 다시 채택하는 경향도 있습니다.

한국어 토큰화 완벽 정복

1. 왜 한국어 토큰화는 어려운가?

영어는 띄어쓰기만으로 단어를 나눠도 되지만, 한국어는 교착어이기 때문에 문제가 복잡합니다. '학생'이라는 명사에 '이', '은', '을' 같은 조사가 붙고, '읽었다'는 '읽-', '-었-', '-다'처럼 어간과 어미가 결합합니다. 이 때문에 단순히 띄어쓰기로 자르면 의미 분석이 어려워, 특별한 접근법이 필요합니다.

한국어 토큰화에는 크게 형태소 분석기 기반 접근과 Subword 기반 접근, 두 가지 방식이 있습니다.

2. 접근법 (1): 형태소 분석기 기반 (언어학적 접근)

이 방식은 언어학적 지식을 활용해 문장을 **의미를 가진 가장 작은 단위인 '형태소'**로 분리하는 방법입니다.

작동 방식: 사람이 만든 문법 규칙(Rule-based)과 통계 모델(확률 모델)을 함께 사용하여 형태소를 분석합니다.
토큰화 예시:
- 학생이 책을 읽었다 → ['학생', '이', '책', '을', '읽', '었', '다']
👍 장점:
- 언어학적 해석 가능: 분리된 토큰(학생, 책 등)이 명확한 의미를 가져 사람이 직관적으로 이해하기 쉽습니다.
👎 단점:
- 느린 속도: 복잡한 문법 규칙을 적용해야 해서 속도가 느립니다.
- 일반화 어려움: 특정 분야(도메인)의 신조어나 은어에 취약하며, OOV(미등록 단어) 문제가 발생할 수 있습니다.
대표적인 분석기: Mecab-ko, Okt(Opean Korean Text), Komoran

3. 접근법 (2): Subword 기반 (데이터 중심 접근) - SentencePiece

이 방식은 언어학적 지식 없이, 데이터 자체의 통계적 특성만을 이용해 텍스트를 분리합니다. 대표적으로 SentencePiece가 있습니다.

SentencePiece의 핵심 아이디어

기존 BPE나 WordPiece는 먼저 텍스트를 띄어쓰기로 나눈 뒤 서브워드를 학습했습니다. 이 방식은 중국어나 일본어처럼 띄어쓰기가 없는 언어에서는 사용하기 어렵다는 문제가 있었죠.

SentencePiece는 이 문제를 해결하기 위해, 문장을 그냥 하나의 긴 글자 덩어리(Raw text)로 보고, 띄어쓰기(공백)까지도 일반 글자처럼 취급하여 토큰화 규칙을 학습합니다.

언어 독립적(Language-independent): 띄어쓰기 규칙에 의존하지 않으므로 어떤 언어에도 바로 적용할 수 있습니다.
공백 처리: 공백을 (언더바) 기호로 치환하여 단어의 경계를 표현합니다.
토큰화 예시:
- 학생이 책을 읽었다 → [' 학생', '이', ' 책', '을', ' 읽', '었다']
👍 장점:
- OOV 문제 해결: 희귀 단어나 신조어도 글자 단위로 쪼개서 표현할 수 있습니다.
- 빠른 속도: 복잡한 문법 분석 없이 통계적으로 처리하므로 속도가 매우 빠릅니다.
- 대규모 학습에 적합: 대용량 데이터로 학습할 때 뛰어난 성능을 보입니다.
👎 단점:
- 언어학적 해석 불가능: 읽었다처럼 토큰 자체가 직관적인 의미를 갖지 않는 경우가 많습니다.
주로 사용되는 모델: SentencePiece, KoBERT, KoGPT

최종 요약 (시험 핵심)

구분	형태소 분석기 기반	Subword 기반 (SentencePiece)
핵심 원리	언어학적 지식 (문법 규칙)	데이터 통계
분리 단위	형태소 (의미 단위)	서브워드 (통계 단위)
장점	결과 해석이 직관적	속도 빠름, OOV 해결, 범용성 높음
단점	속도 느림, 신조어 취약	결과 해석이 어려움
대표 예시	Mecab-ko, Okt, Komoran	SentencePiece, KoBERT, KoGPT

결론적으로, 직관적인 의미 분석이 중요하다면 형태소 분석기를, 대규모 데이터 처리와 모델 성능이 중요하다면 Subword 방식을 사용한다고 이해하시면 됩니다.

NLTK (영어) & KoNLPy (한국어) 토큰화 완벽 정복

NLTK와 KoNLPy는 각각 영어와 한국어 자연어 처리를 위한 대표적인 파이썬 라이브러리입니다. 이 라이브러리들을 사용하면 복잡한 토큰화와 품사 태깅을 손쉽게 수행할 수 있습니다.

1. NLTK를 이용한 영어 토큰화 및 품사 태깅

NLTK(Natural Language Toolkit)는 영어 텍스트 처리를 위한 강력한 도구 모음입니다.

word_tokenize(): 문장을 단어(어절) 단위로 토큰화합니다. 단순히 띄어쓰기로 나누는 것을 넘어, 구두점(., ,)이나 's 같은 것도 의미 있는 단위로 분리해 줍니다.
pos_tag(): 토큰화된 단어 목록에 대해 각 단어의 **품사(Part-of-Speech)**를 태깅합니다.

코드 예시 분석: "I am actively looking for Ph.D. students." 라는 문장이 있을 때,

단어 토큰화 결과: ['I', 'am', 'actively', ..., 'Ph.D.', 'students', '.']
- Ph.D.와 students를 각각의 토큰으로 잘 분리한 것을 볼 수 있습니다.
품사 태깅 결과: [('I', 'PRP'), ('am', 'VBP'), ..., ('students', 'NNS')]
- I는 PRP(대명사), am은 VBP(동사), students는 NNS(복수 명사)로 정확하게 품사를 찾아냅니다.

시험 Point: NLTK는 영어 문장을 단어(Word) 단위로 토큰화하고, 각 단어에 맞는 **품사(POS)**를 붙이는 데 사용됩니다.

2. KoNLPy를 이용한 한국어 토큰화 및 품사 태깅

KoNLPy는 한국어 자연어 처리를 위해 다양한 형태소 분석기를 모아놓은 라이브러리입니다. 슬라이드에서는 **Okt(Open Korean Text)**와 꼬꼬마(Kkma) 두 가지를 비교하고 있습니다.

주요 함수

.morphs(): 문장을 형태소 단위로 토큰화합니다.
.pos(): 문장을 형태소 단위로 나눈 뒤, 각 형태소에 품사를 태깅하여 튜플 (형태소, 품사) 형태로 보여줍니다.
.nouns(): 문장에서 명사만 추출합니다.

형태소 분석기별 특징 비교

"열심히 코딩한 당신, 연휴에는 여행을 가봐요" 라는 문장을 두 분석기로 분석한 결과는 다릅니다. 이 차이점을 아는 것이 시험의 핵심입니다.

구분	Okt (Open Korean Text)	꼬꼬마 (Kkma)
.morphs() (형태소 분석)	['열심히', '코딩', '한', '당신', ...]	['열심히', '코딩', '하', 'ㄴ', '당신', ...]
.pos() (품사 태깅)	[('열심히', 'Adverb'), ('코딩', 'Noun'), ...]	[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ...]
.nouns() (명사 추출)	['코딩', '당신', '연휴', '여행']	['코딩', '당신', '연휴', '여행'] (이 경우 결과 동일)
특징	속도가 빠르고, 일반적인 소셜 미디어 글 등 정규화가 덜 된 텍스트 처리에 유용합니다. 비교적 간단하게 형태소를 분석합니다.	분석 정확도가 높고, '하', 'ㄴ'처럼 매우 세밀하게 형태소를 분리합니다. 학술적인 분석이나 정확성이 중요할 때 주로 사용됩니다.

결론 및 시험 Point:

KoNLPy는 한국어 문장을 형태소 단위로 분석하는 라이브러리입니다.
Okt는 속도가 빠르고 범용적으로 쓰기 좋습니다.
Kkma는 정확성이 높고 더 세밀하게 형태소를 분리합니다.
어떤 형태소 분석기를 사용하느냐에 따라 토큰화 결과와 품사 태깅 결과가 달라질 수 있다는 점을 반드시 기억해야 합니다.

텍스트 후속 처리 완벽 정복

토큰화가 끝난 후, 모델의 학습 효율과 성능을 높이기 위해 토큰들을 한 번 더 정제하는 과정을 거칩니다. 주요 후속 처리 방법으로는 불용어 제거, 어간 추출(Stemming), **표제어 추출(Lemmatization)**이 있습니다.

1. 불용어(Stopwords) 제거

불용어란, 문장에 자주 등장하지만 분석에 큰 의미나 영향을 주지 않는 단어들을 말합니다.

정의: I, am, a, the, is, of 처럼 문법적인 기능을 하지만 핵심 의미는 없는 단어들입니다.
목적: 이런 단어들을 제거함으로써, 모델이 정말 중요한 단어에만 집중할 수 있도록 데이터의 노이즈를 줄이고 계산 효율을 높입니다.
작동 방식: 라이브러리(예: NLTK)에 미리 정의된 불용어 목록을 불러와, 토큰화된 문장에서 해당 단어들을 걸러내는 방식으로 작동합니다.

코드 예시 분석: "Family is not an important thing. It's everything." 이라는 문장에서,

제거 전: ['Family', 'is', 'not', 'an', 'important', ...]
is, not, an, it's 등 불용어 제거 후: ['Family', 'important', 'thing', '.', "'s", 'everything', '.']

2. 어간 추출 (Stemming)

어간 추출은 단어에서 접사(접두사/접미사)를 잘라내고 단어의 핵심 부분인 **어간(Stem)**만 남기는 작업입니다.

정의: 형태학적 분석을 단순화하여, 단어의 어미를 기계적인 규칙에 따라 잘라내는 것입니다.
특징: 언어학적 지식을 고려하지 않고 단순히 규칙에 기반해 접사를 제거합니다. 이 때문에 결과물이 실제 사전에 없는 단어일 수 있습니다. (예: having → hav)
대표 알고리즘: 포터 알고리즘 (Porter Algorithm)

코드 예시 분석: ['formalize', 'allowance', 'electricical']

어간 추출 후: ['formal', 'allow', 'electric']
- formalize에서 -ize를, allowance에서 -ance를 잘라내 어간만 남깁니다.

3. 표제어 추출 (Lemmatization)

표제어 추출은 단어의 문법적인 형태(시제, 단/복수 등)를 고려하여 원형, 즉 **표제어(Lemma)**를 찾는 작업입니다.

정의: 단어의 **사전 등재형(기본형)**을 찾아냅니다.
특징: 품사(POS) 정보를 활용하여 문맥에 맞는 정확한 원형을 찾으므로 어간 추출보다 정교합니다. (예: am, are, is → be)

4. [시험 핵심] Stemming vs. Lemmatization 비교

두 방법의 차이를 아는 것이 시험의 핵심입니다.

구분	어간 추출 (Stemming)	표제어 추출 (Lemmatization)
핵심 원리	규칙 기반으로 접사 제거	사전 기반으로 단어 원형 찾기
언어학적 고려	❌ 고려하지 않음	✅ 고려함 (품사 정보 활용)
결과물	사전에 없는 단어일 수 있음 (hav)	사전에 있는 단어 (have)
예시 am	am	be
예시 having	hav	have
속도/정확도	속도는 빠르지만, 정확도는 낮음	속도는 느리지만, 정확도는 높음

5. 한국어에서의 유의점

한국어에서 어간/표제어를 추출할 때는 불규칙 활용 때문에 더 복잡합니다.

규칙 활용: 어간의 모습이 변하지 않고 어미만 바뀜 (예: 잡다 → 잡고, 잡으니)
불규칙 활용: 어미가 붙을 때 어간의 모습이 바뀜 (예: 긋다 → 긋고, 그어서, 그어라)

이처럼 긋-이 그-로 바뀌는 불규칙 용언 때문에, 단순히 접미사를 잘라내는 규칙 기반 방식(Stemming)은 한국어에 적용하기 어렵고, 정교한 형태소 분석이 필수적입니다.

1. 후속 처리 (Post-processing) 최종 요약

후속 처리는 토큰화된 텍스트를 모델 학습에 더 적합한 형태로 만들기 위해 한 번 더 가공하는 단계입니다.

후속 처리 기법 비교 (시험 핵심)

기법	정의	예시	장점	단점
불용어(Stopwords) 제거	의미 정보가 거의 없는 단어(is, the, 은, 는 등)를 제거	is, the 제거	차원 축소, 효율 향상	의미 손실 가능성 (뉘앙스 사라짐)
어간 추출(Stemming)	단순 규칙으로 단어의 접사를 잘라 어간만 남김	studies → studi	효율 향상	결과가 실제 단어가 아닐 수 있음
표제어 추출(Lemmatization)	사전과 품사 정보를 활용해 단어의 기본형(원형)을 찾음	Studies (동사) → study	실제 단어 도출	속도가 느림

⚠️ 현대 NLP에서의 중요도

슬라이드의 노란색 하이라이트가 핵심입니다. 위에서 설명한 후속 처리 기법들은 주로 전통적인 NLP 모델에서 사용되었습니다. BERT, GPT와 같은 최신 대규모 언어 모델(LLM)은 문맥을 스스로 파악하는 능력이 뛰어나기 때문에, 이러한 후속 처리를 잘 사용하지 않습니다. 오히려 불용어를 제거하거나 단어를 원형으로 바꾸면 문장의 미묘한 뉘앙스가 사라져 모델의 성능이 저하될 수 있습니다.

2. 정규 표현식 (Regular Expression) 완벽 정복

정규 표현식(Regex)은 복잡한 문자열 속에서 특정한 패턴을 찾아 처리하기 위해 사용하는 강력한 형식 언어입니다.

주요 기능

검색(Search): 이메일 주소, URL, 전화번호처럼 일정한 규칙을 가진 문자열을 찾아냅니다.
추출(Extract): 문자열에서 숫자만, 혹은 특정 부분만 잘라냅니다.
치환(Replace): 주민등록번호 뒷자리를 *로 바꾸는 것처럼, 특정 패턴을 다른 문자로 바꿉니다.

핵심 문법 (이것만은 꼭 외우세요!)

기호	설명	기호	설명
.	아무 문자 1개 (줄바꿈 제외)	\d	숫자 [0-9]
*	앞 문자가 0번 이상 반복	\D	숫자가 아닌 것 [^0-9]
+	앞 문자가 1번 이상 반복	\w	문자, 숫자, _ [a-zA-Z0-9_]
?	앞 문자가 0번 또는 1번 등장	\W	문자, 숫자, _가 아닌 것
[]	괄호 안의 문자 중 하나 (e.g., [abc])	\s	공백 문자 (띄어쓰기, 탭 등)
[^]	괄호 안의 문자를 제외한 나머지	\S	공백이 아닌 것

Python re 모듈 주요 함수

함수	설명
re.findall(패턴, 문자열)	패턴과 일치하는 모든 부분을 찾아 리스트로 반환
re.search(패턴, 문자열)	문자열 전체를 검색하여 첫 번째로 일치하는 객체를 반환
re.sub(패턴, 바꿀문자, 문자열)	패턴과 일치하는 부분을 다른 문자로 치환
re.split(패턴, 문자열)	패턴을 기준으로 문자열을 분리하여 리스트로 반환

정규 표현식을 이용한 토큰화 예시

정규 표현식은 토큰화를 더 정교하게 만드는 데 사용될 수 있습니다.

RegexpTokenizer("[\w]+")
- 의미: \w(문자, 숫자)가 +(1번 이상 반복)되는 패턴을 하나의 토큰으로 간주합니다.
- 결과: 문장에서 구두점('.`)은 모두 버리고 오직 단어와 숫자만 추출합니다.
RegexpTokenizer("\s+", gaps=True)
- 의미: \s (공백)이 +(1번 이상 반복)되는 패턴을 **토큰을 나누는 기준(gaps)**으로 삼습니다.
- 결과: split() 함수처럼 공백을 기준으로 문장을 토큰화합니다.

저작자표시 비영리 변경금지 (새창열림)

'코딩공부 > 자연어처리' 카테고리의 다른 글

내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-WordPiece (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-SentencePiece (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)-(Byte Pair Encoding (BPE))구체적 설명 (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 2탄(토큰화)요약 (0)	2025.10.05
내가 시험공부하려고 만든 자연어처리-전처리 1탄(전처리의 필요성과 텍스트전처리) (0)	2025.10.05

내가 시험공부하려고 만든 자연어처리-전처리 1탄(전처리의 필요성과 텍스트전처리)

jo식이 2025. 10. 5. 14:28

2025. 10. 5. 14:28

텍스트 전처리 최종 요약본

1. 텍스트 전처리의 필요성: 왜 해야 하는가?

가장 근본적인 이유는 사람이 사용하는 **자연어(Natural Language)**와 컴퓨터가 이해하는 **형식 언어(Formal Language)**의 차이 때문입니다.

자연어 (사람의 언어):
- 문맥에 따라 의미가 달라지고(중의성), 비유나 은유가 많습니다.
- sooo funny, ㅋㅋㅋㅋ 처럼 표현이 다양하고 중복되거나 장황합니다.
- 컴퓨터가 그대로 이해하기엔 너무 복잡하고 모호합니다.
형식 언어 (컴퓨터의 언어):
- 수학, 프로그래밍 언어처럼 규칙이 명확하고 항상 같은 의미를 가집니다.
- 간결하며, [0, 1, 0, 1] 과 같은 숫자 형태로 표현됩니다.

결론: 텍스트 전처리란, 모호한 자연어를 컴퓨터가 처리할 수 있도록 명확하고 구조적인 **형식 언어(숫자 데이터)**로 변환하는 모든 과정을 말합니다. 이 과정을 통해 기계 학습 모델의 성능과 효율을 높일 수 있습니다.

2. 텍스트 전처리의 전체 과정

텍스트 데이터는 보통 아래와 같은 단계를 거쳐 처리됩니다. 텍스트 정규화를 하는 것만으로 고전적인 특히 고전적인 NLP 기법(ex. BoW, TF-IDF 등)에서는 모델 성능에 큰 영향을 미침 한국어의 경우, 표준어 외 표현 방식이 많아 정규화의 중요성이 높을 수 있음 • 항상 성능에 도움이 되는 것은 아님: 주로 전통적인 NLP 모델링에서 사용, 머신러닝/딥러닝모델이의미있는패턴을학습할수있도록도움

전통적인 NLP 모델이 전처리에 의존하는 이유

전통적인 NLP 모델들(예: Bag-of-Words, TF-IDF, Word2Vec)은 텍스트를 단어의 등장 빈도나 분포에 기반한 통계적 수치로 변환하여 이해합니다. 이 모델들은 단어의 문맥적 의미를 파악하는 능력이 없습니다.

'Apple'과 'apple'을 다른 단어로 인식: 전통적인 모델은 대소문자가 다르면 완전히 다른 단어로 취급합니다. 이는 불필요하게 단어의 종류를 늘려 계산을 비효율적으로 만들고, 같은 의미를 가진 단어를 분산시켜 모델의 학습을 방해합니다.
문맥 이해의 부재: 이 모델들은 'US'(미국)와 'us'(우리)의 의미 차이를 문맥을 통해 구분하지 못합니다. 따라서 소문자화로 통일하는 것이 오히려 단어의 전체적인 통계 정보를 파악하는 데 유리할 수 있습니다.
통계 기반 학습: 모델이 단어의 빈도수에 크게 의존하기 때문에, 'a', 'the'와 같은 불용어(stop words)를 제거하지 않으면 이 단어들이 중요하지 않음에도 불구하고 높은 가중치를 차지해 분석을 왜곡시킬 수 있습니다.

결론적으로, 전통적인 모델은 단어 자체의 형태와 빈도가 입력값의 전부이므로, 전처리를 통해 데이터를 최대한 깨끗하고 일관성 있게 만들어주지 않으면 제대로 된 학습이 거의 불가능합니다.

용가리의 한국 뷰티 화장품 주식이야기 1편 feat 관세(에이블씨엔씨, 실리콘투, 에이피알, 파마리서치, 동국제약)

jo식이 2025. 9. 26. 10:42

2025. 9. 26. 10:42

사실 필자는 화장품을 잘 모른다. 대충 얼굴에 다슈 올인원 크림 쓱쓱 바르는 정도다. 2023년 때쯤 한국화장품 붐이 불기 전에 한국 콜마를 CFA 리서치 챌린지에서 한국 콜마를 분석한 것이 다이다. 그때 워낙 훌륭한 사람들과 같이 프로젝트를 해서 정말 많이 배웠던 기억이 난다.

그 후로 화장품에 대해서 잘 모르기 때문에 투자를 안 했어서 아쉽게 한국 화장품 붐이 불 때 화장품으로 못 벌었다.(미국 주식 위주로 해서 그런 것도 있다.) 그리고 미국에 대한 관세 때문에 화장품의 순이익이 감소되고, 판매량이 감소될 거라는 우려로 화장품이 많이 떨어졌다. 이건 자동차도 마찬가지인데 아무래도 미국 수출로 이득을 봤던 기업 중심으로 조정이 나오고 있다.

그런데 얼마전부터 내가 제일 아끼는 친구 중 한 명이 화장품을 많이 언급하기 시작했다. 이 친구가 화장품에 대해서 좀 잘 아는 친구라서 주의 깊게 들었다. 그리고 나름 일리가 있는 말이라고 생각했고, 그 친구가 언급한 내용과 내가 추가적으로 공부한 내용을 적어보려고 한다.

아마존 뷰티 서바이벌 프로그램 방영예정

일단, 화장품의 모멘텀이 죽은 것은 맞다. 상당히 눌려있기에 튈 때 모멘텀이 될만한 재료가 필요하다. 그런데 그 재료가 될만한 것이 저스트 메이크업이다. 스튜디오 슬랩이 제작하고 쿠팡플레이랑 아마존 프라임에서 방영할 예정인 저스트 메이크업은 10월 3일 쿠팡플레이에서 방영을 시작하고, 10월 10일부터 아마존 프라임에서 방영을 시작한다. 아마 연휴 동안 쿠팡플레이에서 이 쇼를 볼 가능성이 높다.

사실 뭐 메이크업 아티스트들끼리 경쟁을 한다고 하는데 정샘물을 비롯해, 서옥, 이사배, 이진수 등이 심사위원으로 참여하고, 이효리가 MC를 본다는 거부터 규모가 있어 보이고 관심을 끌기 충분해 보인다. 이 프로그램 자체가 K-메이크업 아티스트들끼리의 메이크업 경쟁이기 때문에 K 화장품이 보일 기회라고 생각하고, 특히 색조 화장품 쪽에서 쓰는 화장품들이 이슈가 될 것 같다.

이렇게 모멘텀이 붙어줘서 투심이 살아날 수는 있다. 그러나 가장 중요한 것은 실적이다. 현재 관세를 부과한 이후로 화장품 기업들이 실제로 판매가 감소하는 모습이 보이는지, 순이익이 얼마나 감소했는지 알아보는 것이 중요할 거 같다. 그리고 어떤 기업이 신흥 강자로 뜨고 있는지가 중요한 거 같다.

미국 관세 이후 수출데이터 잠시 꺾였었음

https://www.chosun.com/international/us/2025/04/03/Y7IKHJ62MBHRDILWI4WPMYVZJU/

트럼프 “한국에 상호관세 25%”… 中 34%, 日 24%, EU 20%

트럼프 한국에 상호관세 25% 中 34%, 日 24%, EU 20% 한국, 자동차의 81% 자국서 생산 우방이 적국보다 우릴 나쁘게 대우 한미FTA 사실상 형해화 한국 대응 주목

www.chosun.com

트럼프가 2025년 4월 3일 이후 우리나라에 25퍼센트 관세를 매긴다고 한 후부터 실제로 관세가 부과된 것은 8월부터지만 4월에 저게 발표가 된 이후로 미국 유통업체들은 관세가 부과되기 전에 4월에 미리 한국 화장품을 사놓기 시작했다. 실제로 밑의 기사에서 알 수 있듯이 도널드 트럼프 전 미국 대통령이 전 세계 대부분의 국가를 대상으로 광범위한 수입세를 발표한 직후, 미국 내 K-뷰티 유통업체 산테 브랜드는 4월 주문량이 약 30% 급증했다고 밝혔다.

그래서 이는 전체 수출량에도 영향을 미쳐 25년 4월달에 3월 대비해서 12 퍼 이상 화장품 수출이 늘어났다. 그 후 4월에 피크를 찍고 4월 수출량을 못 넘고 있다. 그리고 관건은 8월부터 부과되는 관세 이후 수출 데이터였습니다. 실제로 8월 화장품 수출 데이터는 전달 대비 10프로 이상 감소하는 모습을 보여준다.

https://www.bbc.com/korean/articles/c2eng271n7mo

트럼프 관세, K-뷰티 산업에 어떤 타격을 주고 있을까 - BBC News 코리아

미국의 15% 관세 시행을 앞두고, 한국 뷰티 제품을 사고파는 사람들이 제품을 미리 많이 사두고 있다.

www.bbc.com

그런데 9월 20일치 잠정 수출 데이터가 나왔는데 역대 최고 수출이 찍혔습니다. 전달의 20일 치 데이터대비 40 퍼가 증가한 수치다. 물론 지금 PPI를 보았을 때 관세로 인한 비용증가를 아직 소비자한테 전가를 시키지 않는 것처럼 보이는 것은 사실이다. 그러나 현재 K-POP 붐이 부는 것은 사실처럼 보인다. 그리고 이 같은 수출 데이터가 찍힐 정도로 K-화장품이 인기라면 충분히 가격전가가 가능할 것이라고 생각한다.

삼양라면은 미국 매출비중이 지난해 기준 28퍼센트였고, 미국 시장이 국내보다 마진이 더 남는다는 것을 생각하면 삼양라면이 성장하고 있지만 순이익에 악영향을 미치니까 주가가 빠져야 된다. 그러나 삼양라면은 신공장 또한 공장 가동률 100프로를 넘어가고 있고, 라면 수출 데이터가 계속해서 잘 나오고 있고, 9월 20일 치 잠정 수출 데이터에서는 8월 20일 치 데이터대비 30프로 이상 늘어났기에 삼양식품의 가격은 ATH를 써 내려가고 있다.

나는 이걸 화장품에도 적용시킬 필요가 있다고 본다. 화장품이 ATH를 다시 쓴 지금 화장품 주식을 다시 바라볼 필요가 있어 보인다. 그 중심에는 실리콘투와 코스맥스, 펌텍코리아가 있을 것이다. 실리콘투는 유럽시장 확장에 박차를 가하고 있고, 어차피 화장품은 코스맥스 같은 ODM기업이 만들고, 펌텍코리아 같은 용기 기업이 화장품 용기를 만들 것이다. 그 밖에 여러 기업이 있을 것 같은데 투자 포인트 별로 기업을 분류해보려고 한다.

필자는 화장품의 밸류체인별 각각 종목들을 바스켓으로 담을 예정이다.

첫번째, 관세 영향을 덜 받는 기업

화장품 수출이 잘 되면 일단 제품이 만들어져서 잘 팔리고 있다는 이야기가 된다. 그러면 화장품을 만들고, 용기를 만드는 기업은 계속해서 돈을 잘 벌고 있다는 이야기가 된다. 코스맥스, 한국콜마, 펌텍코리아는 관세 영향으로 마진이 줄어드는 폭이 미국향 수출이 많은 기업보다 적을 수밖에 없다.

여기서 필자는 중국과의 관계가 개선되어 중국향 수출이 늘어날 것이라고도 생각하기 때문에 중국 쪽 매출이 상승한다면 펌텍코리아의 공장 가동률이 더 확대될 수 있다고 생각한다. 펌텍코리아의 공장 가동률은 2023년 75.8%였던 가동률은 2024년 81.4%로 올랐다. 올해 상반기에는 86.3%까지 확대됐다. 밑의 기사에서 알 수 있듯이 이번 연도 10월부터 완공되는 4 공장이 완공되면 케파가 30프로가 증가할 예정이고 6 공장까지 예정되어 있다.

펌텍코리아는 올해 2분기 연결기준으로 매출 1054억 원, 영업이익 194억 원을 냈다. 지난해 같은 기간과 비교해 매출은 23.3%, 영업이익은 52.6% 증가했다. 영업이익률은 20프로에 육박하는 수준으로 회사에서 제공한 14프로라는 바닥 영업이익률을 월등히 뛰어넘는 수치로 역대 최대 영업이익률이다. P와 Q가 동시에 늘어나는 기업으로 증권가 목표가는 계속해서 상향되고 있다.

2025년 2분기부터 펌프와 튜브 각 사업부의 단일 최대 고객이 기존 대형 화장품사에서 인디브랜드로 바뀌었는데 이는 사업 포트폴리오를 분산시키는 효과를 낼 뿐도 한 번 히트를 치면 대량으로 발주하는 인디브랜드 특성상 브랜드가 터졌을 때 폭발적인 시너지를 낼 수 있다. 2025년 예상 per 16.6인데 회사의 영업이익 성장속도를 보았을 때 저평가돼있어 보인다.

https://www.businesspost.co.kr/BP?command=article_view&num=406796#:~:text=%ED%8E%8C%ED%85%8D%EC%BD%94%EB%A6%AC%EC%95%84%EB%8A%94%20%EC%98%AC%ED%95%B4%202%EB%B6%84%EA%B8%B0%20%EC%97%B0%EA%B2%B0%EA%B8%B0%EC%A4%80%EC%9C%BC%EB%A1%9C%20%EB%A7%A4%EC%B6%9C%201054%EC%96%B5%20%EC%9B%90%2C, %EA%B8%B0%EA%B0%84%EA%B3%BC%20%EB%B9%84%EA%B5%90%ED%95%B4%20%EB%A7%A4%EC%B6%9C%EC%9D%80%2023.3%25%2C%20%EC%98%81%EC%97%85%EC%9D%B4%EC%9D%B5%EC%9D%80%2052.6%25%20%EC%A6%9D%EA%B0%80%ED%96%88%EB%8B%A4

메리츠증권 "펌텍코리아 2분기 영업이익률 분기 역대 최고, 10월부터 4공장 가동"

www.businesspost.co.kr

증권가에서 잡은 리포트 또한 P와 Q가 동시에 늘어나는 현 상황에서 보수적으로 보이고, 대형 브랜드가 아니라 인디브랜드의 비중이 커짐에 따라 마진을 좀 더 남겨먹을 수 있어 보인다. 왜냐면 대형 고객사가 물건을 구매할 때 대량으로 구매하기 때문에 좀 더 낮은 가격으로 사기 때문이다.

코스맥스 또한 인디브랜드의 수혜주이다. 국내 매출 비중이 65퍼센트, 해외매출이 35퍼센트인데 문제가 중국법인에서 여기에서 27퍼센트를 차지하고 있는데 매출 성장률이 5퍼센트로 완만하고, 미국 법인 매출 성장률이 역성장하고 있다는 점이다. 물론 국내 법인에서 작년만 봐도 ‘24 년 기 준 매출액 1 조 3,576 억 원(+28%), 영업이익 1,386 억 원(+60%) 기록했을 정도로 유의미하기 때문에 코스맥스 또한 저평가로 보인다. 26년 예상 eps 기준으로 per이 16이다.

그런데 2025 예상 기준으로 per 24 정도 나오는데 펌텍코리아와 비교했을 때 산업 내에서 더 독점적인 위치에 있는 거 같지 않고 매출 성장에서도 엇비슷하기 때문에 펌텍코리아가 더 저렴해 보인다. 개인적인 견해이지만 나라면 펌텍코리아가 더 끌린다.

2편 3편에서는 밑의 주제들을 쓰려고 한다. 두 번째 주제에서는 동국제약, 에이블씨앤씨를 쓸 거고, 세 번째 주제는 고민 중인데 일단은 에이피알을 쓸 거 같다.

두 번째, 지금 막 주목받기 시작해서 레버러지가 큰 기업

세 번째, 누가 봐도 그냥 잘하고 있는 기업

저작자표시 비영리 변경금지 (새창열림)

'주식 > 주식' 카테고리의 다른 글

한화솔루션 1편 왜 태양광 숏티지가 나는가? (0)	2025.10.26
네오클라우드의 성장스토리에 BITF(Bitfarms)도 껴줄래? (0)	2025.10.08
희토류 1편 내가 미국 희토류 주식을 보는 이유(metc,mp,crml,usar)그리고 광물자립(tmc) (4)	2025.09.19
해저케이블 1편) 서해안 에너지 고속도로 이거 노다지인데?(LS,대한전선) (3)	2025.09.17
꿀꿀이는 역시 선진이지 선진 주가 분석 2편(리스크) (16)	2025.08.17

희토류 1편 내가 미국 희토류 주식을 보는 이유(metc,mp,crml,usar)그리고 광물자립(tmc)

jo식이 2025. 9. 19. 14:30

2025. 9. 19. 14:30

포트폴리오 전체에서 희토류가 차지하는 비중이 대략 30프로 정도 되는 거 같다. 단일 종목으로는 최대종목은 아니지만 단일 섹터로는 포트폴리오 내에서 엎치락뒤치락하면서 1번째 2번째 왔다 갔다 하는 거 같다. 물론 계속해서 불타고 몇달동안 주가가 많이 오르다 보니 비중이 커진 거 같다. 그렇다면 왜 희토류를 나는 투자하고 있는 것인가?

일단 나는 누가봐도 엄청 큰 시장에 투자하는 걸 좋아한다. 비만치료제, 광고시장, 희토류, 전선, 조선, 원전, ai 등등 이런 큰 시장을 좋아한다. 그런데 여기서 희토류? 이런 의문이 들 수도 있다. 필자는 미국 내 희토류를 포함한 필수 광물 쪽이 시장과 비견될만한 시장으로 보고 있다.

희토류 시장이 중국이 독점하는 시장이라 그렇지 시장 규모가 절대 작지않다. 전 세계의 희토류의 70퍼센트는 중국에서 생산하고 있고, 희토류를 가공하고 정제하는 분야는 중국이 90프로 이상을 가져가고 있다. 여기서 미국에서 채굴은 mp머트리얼즈가 하고 있고, 경희토류는 미국에서도 가공을 하지만 아직까지 중 희토류는 미국에서는 정제하지 못한다. 당연한 거지만 모든 광물들은 캐낸 다음에 그걸 분리시켜서 순도 높게 가공하는 과정이 필요하다.
https://v.daum.net/v/20250916090423857

전세계 희토류 중국서 70% 생산[Global Economy]

베이징=박세희 특파원 미국과의 관세 전쟁에서 중국이 사용한 원자재 수출 통제 조치는 미국의 아픈 곳을 찌른 ‘신의 한 수’였다. 중국이 희토류 수출을 틀어막자 미국은 미사일과 전투기, 기

v.daum.net

희토류가 뭔데

일단 희토류에 대한 설명이 먼저인거 같다. 희토류는 주기율표상 란타넘(La)부터 루테튬(Lu)까지의 15개 란타넘족 원소와 스칸듐(Sc), 이트륨(Y)을 포함하는 총 17개 화학 원소를 통칭한다. 이 17개 원소만이 흔히 희토류라고 부르는 것이고, 이 희토류는 또 경희토류와 중 희토류로 나뉜다.

경희토류는 주로 원자번호 57번(란타넘)부터 63번(유로퓸)까지의 란타넘족 원소를 지칭하며, 이에 속한 원소는 란타넘(La), 세륨(Ce), 프라세오디뮴(Pr), 네오디뮴(Nd), 프로메튬(Pm), 사마륨(Sm), 유로퓸(Eu) 등이다. 또한 중 희토류는 원자번호 64번(가돌리늄)부터 71번(루테튬)까지의 란타넘족 8종과, 이트륨(Y), 경우에 따라 스칸듐(Sc) 등을 포함합니다. 대표적으로 가돌리늄(Gd), 터븀(Tb), 디스프로슘(Dy), 홀뮴(Ho), 어븀(Er), 툴륨(Tm), 이터븀(Yb), 루테튬(Lu), 이트륨(Y) 등이 해당한다.

만약 관심있게 보는 회사들이 예비타당성보고서 같은걸 내면 원소 이름들이 나열되어 있을 것이다. 그때 이게 경희토류인지 중 희토류 이은 지 확인하면서 수익성을 판단하면 될 것 같다. 이름에서 대충 눈치를 챘겠지만 경희토류는 매장량이 많고, 값이 싸다. 그런데 지금 중국에서 수출 규제를 해서 난리난 부분은 중 희토류이다. 이 중 희토류가 영구자석을 만들 때 쓰인다.

영구자석은 외부 전원이나 전기 에너지 공급 없이도 스스로 강한 자기장을 영구적으로 유지하는 자석이다. 네오디뮴, 사마륨 코발트, 페라이트 등이 대표적인데 보통 ir을 듣다보면 네오디뮴이 주요 원자재인 것 같다. 현재 중국이 희토류를 규제하는 바람의 서방국가들이 타격을 받고 있으며 희토류 가격은 2배 급등했다.

https://marketin.edaily.co.kr/News/ReadE?newsId=03486646642301104

中, 희토류 수출 통제 다시 강화…EU 기업들 직격

중국이 희토류 수출 통제를 다시 강화하며 유럽 기업들이 심각한 피해를 입고 있는 것으로 전해졌다. (사진=AFP)17일(현지시간) 파이낸셜타임스(FT), CNBC 등에 따르면 중국 주재 유럽연합(EU) 상공회

marketin.edaily.co.kr

이처럼 현재 희토류 시장은 중국이 가격 결정권을 쥐고 쥐락펴락 할 수 있다. mp 머트리얼즈는 경희토류 중심이라 수익성이 높은 희토류가 아니다. 그런데 지금 usar, metc가 주목받는 건 각각 네오디뮴, 스칸듐 비율이 높은 중 희토류 광산이기 때문이다. crml은 내부수익률 자체가 노다지라서 어느 정도 mix 돼있는지 안 따지고 있긴 하다. 참고로 말하자면 crml 같은 경우에는 오스트리아의 리튬광산도 가지고 있는데 리튬 가격이 워낙 저렴해져서 크게 관심을 두지 않았는데 요즘 catl 리튬광산이 허가가 지연됨에 따라 가격이 상승추이를 보이고 있어서 이 부분도 관심 있게 보고 있다.

결국 전기차나 ess 수요가 장기적으로 보면 커지는 것은 맞다고 보이기 때문에 리튬 수요는 늘어나긴 할텐데 중국 쪽에서 공급을 조절한다면 리튬가격이 더 떨어지긴 쉽지 않을 거 같다. 중국 경기가 불황이기 때문에 중국 쪽에서 과잉생산을 하면서 일자리를 유지시키려고 노력한 건데 중국이 조금씩 살아나는 기미가 보이고 있다 보니 슬슬 여러 산업군에서 생산량 조절을 하는 것 같다. 나중에 심심할 때 중국이야기도 써보겠다.

필자는 개인적으로 중국이나 미국정도 되는 메가사이즈의 국가들에서 정부차원에서 각 잡고 부양시킨다고 하면 관심있게 보는 것이 맞는 것 같고, 작년에 대규모 부양책이 트리거가 된 것 같다. 중국 정부 입장에서는 디플레이션이라서 금리를 낮추면서 돈을 풀어야 하는데 그동안 미국에서는 금리 인상 기조를 보이다 보니 돈을 제대로 풀지 못했다. 왜냐면 미국이 확실히 금리 인하하기 전에 돈을 풀게 되면 푼 돈이 미국으로 이동할 확률이 높기 때문이다.

그래서 몇 달전부터 알리바바랑 샤오펑을 이야기했던 것이고, ai를 생각했을 때 중국 반도체기업 또한 같이 이야기했던 것이다. 휴머노이드 로봇은 솔직히 크게 생각을 못했는데 이게 이렇게 오르네 ㄷㄷ

아 이게 뭔가 글이 딴데로 샌 거 같은데 쨌든 요약하자면 중국은 전 세계 물품들에 대해서 가격 고삐를 쥐고 있다. 그거 중에서 가장 고삐를 가장 강하게 잡고 있는 것이 희토류다.

좀 서론(?)이 길어졌는데 이제 본격적으로 써보겠다.

첫번째 이유는 미국이 원해서이다

현재 미국대통령은 트럼프이다. 트럼프는 미국 제조업을 다시 부흥시키는 것을 최우선 목표로 삼고 있다. 그런데 문제가 있다. 스마트폰, 자동차, 군수장비 등 모든 곳에서 희토류는 쓰인다. 그래서 mp 머트리얼즈가 납품 계약을 맺은 곳이 애플이고, usar도 12건의 MOU를 체결한 상황이다.

https://www.impacton.net/news/articleView.html?idxno=15861

애플, 美 MP와 5억달러 계약…재활용 희토류도 ‘현지 조달’로 전환 | 임팩트온

애플이 제품에 사용되는 재활용 희토류의 공급망까지 미국 내로 전환하기 위해 MP머티리얼즈(MP Materials)와 5억달러(약 8000억원) 규모의 장기 계약을 체결했다. 텍사스에는 전용 자석 생산라인이,

www.impacton.net

트럼프 행정부가 들어선 후 중국하고 관세전쟁을 했었다. 세 자릿수까지 관세가 올라갔다가 사그라들었는데 트럼프는 여기서 중국 한데 깨갱할 수밖에 없었다. 왜냐면 희토류 때문이다. 현재 중국 희토류를 공급받지 못하면 미국 내 스마트폰, 자동차 등등 대부분의 첨단 산업을 담당하는 공장이 셧다운 될 것이다. 특히 영구자석은 필수적이다. 필자가 usar을 지켜보는 이유가 이미 영구자석 공장은 지어났기 때문에 캐고 가공까지 수직계열화를 이룰 수 있기 때문이다.

https://www.joongang.co.kr/article/25343288

트럼프도 두손 든 中희토류, 車산업에 얼마나 중요하길래 | 중앙일보

중국이 희토류 수출 제한을 해제하는 대신 미국은 중국 유학생 비자 취소 조치를 풀기로 했다. 11일(현지시간) 월스트리트저널(WSJ) 등 외신에 따르면 중국은 자동차를 비롯한 미국 제조업체에 대

www.joongang.co.kr

어쨌든 트럼프는 이를 계기로 필수광물 자립을 하기로 했고, OBBB법안 즉 one big beautiful bill 법안에 필수광물 자립을 위한 지원금을 명시했다. 국방부에만 해도 군수목적 필수 광물을 위해 7.5B을 지원하는 법안이며 2B가 여기서 더 추가될 수 있다. 국방부가 mp머트리얼즈의 최대주주가 된 것도 미국정부의 의지를 보여준다.

https://discoveryalert.com.au/news/one-big-beautiful-bill-2025-critical-minerals-funding/

One Big Beautiful Bill: Critical Minerals Funding Unlocked for US Security

Discover how the One Big Beautiful Bill revolutionizes critical minerals funding to strengthen domestic supply chains and security.

discoveryalert.com.au

당연히 이 정도로 희토류에 있어 중국의 독점성이 무너지진 않는 건 당연하다. 이미 미중 관세 합의를 보류하면서 미국은 중국의 희토류 규제를 EU보다는 덜 받는 상황이지만 EU처럼 되지 말라는 법은 없다. 중국은 자신이 불리하다고 생각이 들 때마다 앞으로도 희토류 카드를 가져와서 협박할 것이다.

자존심 강한 트럼프가 이걸 보고만 있지 않을 것이라고 생각한다. 이미 트럼프 행정부는 희토류 업체들에게 수익성을 보장해주기로 마음먹었다. 경희토류 비중이 높은 mp를 최저가 보장을 해줬는데 앞으로 채굴을 시작할 중 희토류 업체들에게 최저가 보장을 안 해줄 이유가 없다고 생각한다.

https://www.hankyung.com/article/2025080159197

"무조건 중국보다 싸게" 미국, 희토류 최저가 보장 조치 확대

"무조건 중국보다 싸게" 미국, 희토류 최저가 보장 조치 확대, 미국, 희토류 생산 속도전 "애플·MS도 불렀다"

www.hankyung.com

2022년에 희토류 업체들이 채굴을 하겠다고 뛰어들면서 너도 나도 계획을 내놓았던 기억이 있다. 희토류뿐만 아니라 리튬을 비롯한 광물 회사들 포함이다. 그런데 이 광물가격이 떨어지면서 수익성이 안 나와서 그 때 그 기업들 중에 실제로 채굴을 시작한 기업은 아직도 없다. 희토류가 캐기 힘들어서 못 캔 것이 아니다. 수익성이 나와야지 캐는데 중국하고 비교했을 때도 채굴비용이 비싼데 희토류 가격이 곤두박질쳤기 때문에 투자를 받기도 어려웠던 것이다.

그런데 이번 정부에서는 환경문제, 투자문제, 수익성 문제를 매우 빠르게 해결해주고 있다. 수익성문제는 최저가 보장(중국보다 2배)으로 환경문제는 metc 재허가를 예비타당성보고서 뜨고 몇주만에 받고, metc 축하행사에 미국 에너지부장관까지 온 거 보면 환경문제는 별 신경 안 쓰는 거 같고, 투자문제는 OBBB법안에 명시해 놓았다. 당장 내년만 되도 usar, metc가 추가적으로 희토류를 캐기 시작할 거 같다.

우리는 트럼프 행정부 때 미국이 순에너지 수출국으로 바뀌었다는 것을 기억할 필요가 있다.

'주식 > 주식' 카테고리의 다른 글

네오클라우드의 성장스토리에 BITF(Bitfarms)도 껴줄래? (0)	2025.10.08
용가리의 한국 뷰티 화장품 주식이야기 1편 feat 관세(에이블씨엔씨, 실리콘투, 에이피알, 파마리서치, 동국제약) (1)	2025.09.26
해저케이블 1편) 서해안 에너지 고속도로 이거 노다지인데?(LS,대한전선) (3)	2025.09.17
꿀꿀이는 역시 선진이지 선진 주가 분석 2편(리스크) (16)	2025.08.17
꿀꿀이는 역시 선진이지!! 선진 주식 분석 1편 (14)	2025.08.16

해저케이블 2편 결국엔 HVDC이고, 세계다 그리고 ls, 대한전선 (전력망 연결, 데이터센터)

jo식이 2025. 9. 17. 17:31

2025. 9. 17. 17:31

1편에서 서해안 에너지 고속도로에 대해서 간단히(?) 다뤄봤다. 앞에서 깜빡하고 안 말했는데 아마도 서해안 에너지 고속도로는 2026년부터 본격적으로 착공될 거 같다. 그래서 아마 2026년부터 매출에 찍히지 않을까 싶다. 2027년부터 찍힐 거 같고 2030년 완공을 목표로 하고 있다.

https://www.munhwa.com/article/11516099

서해안 에너지 고속도로 ‘11조 수주전쟁’ 돌입

이재명 정부가 해저를 통해 호남과 수도권을 전력망으로 연결하는 ‘서해안 에너지 고속도로’ 사업을 추진하면서 전선 업계가 수주 경쟁에 돌입했다. 총 사업비만 11조 원에 달하는 이 사업은

www.munhwa.com

2편에서는 이제 해외에서 왜 해저케이블 수요가 높아질지에 대해서 말해보려고 한다. 애초에 지금 해저케이블을 까는 LS마린솔루션만 해도 해외매출비중이 70프로 정도 된다. 해저케이블이 단가가 지중케이블보다 높은 건 당연히 알 테니 넘어가겠다.

이런 상황이기 때문에 왜 해저케이블 수요가 해외에서 늘어나고 있는지 살펴볼 필요가 있다.

첫번째로 국가 간 신재생에너지 전력공유 수요이다. 미국같이 천연가스가 남아돌아서 싸게 전력을 생산하고, 미국처럼 모든 나라가 태양광 효율이 좋은 것도 아니고, 미국처럼 석유가 펑펑 나오지 않는다. 어라?... 미국 대단하네

그렇기 때문에 싱가포르 같은 나라나 전력을 스스로 생산하기 힘든 나라에서 전력을 당겨오는 수요가 늘어날 수도 있을 것이라고 보고 있다. 실제로 싱가포르는 인도네시아와 협업하여 재생에너지를 수입하려고 하고 있고, 2023년부터 사업을 진행 중이다. 그리고 그 과정에서 필요한 게 인도네시아에서 싱가포르까지의 해저케이블이다. 그런데 싱가포르가 인도네시아 하고만 이 사업을 하는 것이 아니라 베트남, 캄보디아랑도 이 사업을 하려고 하고 있다.

2025년 5월 말 말레이시아에서 제46차 아세안 정상회의가 열렸는데 베트남, 싱가포르, 말레이시아 3국이 전력그리드망을 위한 전력 인프라 구축에 합의했다. 규모는 1000킬로 왕복 2000킬로로 국내 서해안 에너지 고속도로 350~450킬로미터의 2~3배 규모이다. 아마 단순계산만 때려봐도 한국이 최소 11조 5천억인데 싱가포르는 최소 20조짜리 프로젝트다.

https://www.kita.net/board/totalTradeNews/totalTradeNewsDetail.do?no=73884

싱가포르, 인도네시아·캄보디아서 재생에너지 수입

한국무역협회에서 제공하는 국내 및 해외 무역 관련 주요 이슈 및 최신 동향

kita.net

https://www.edaily.co.kr/News/Read?newsId=02755206642301104&mediaCodeNo=257&OutLnkChk=Y

아세안 해저 HVDC 사업 급물살…LS에코에너지, 성장모멘텀 확보

베트남, 싱가포르, 말레이시아 등 아세안 3국의 해저 초고압직류케이블(HVDC) 구축 프로젝트가 본격적인 사업화 단계로 접어들면서 LS에코에너지(229640)가 글로벌 전력 인프라 시장의 핵심 수혜 기

www.edaily.co.kr

실제로 우리나라 회사들이 이 사업에 대한 수주를 따내고 있다. 대한전선이 최근에 싱가포르한테 수주받은 것인데 아마 이제 수주가 본격화될 거 같다. 그런데 싱가포르는 동남아 국가들하고만 계약을 맺은 것이 아니다. 여기에 남반구의 그 녀석, 호주가 나온다.

https://www.epj.co.kr/news/articleView.html?idxno=36790

대한전선, 싱가포르서 1,100억 규모 초고압 턴키 프로젝트 수주 - 일렉트릭파워

[일렉트릭파워 이재용 기자] 대한전선이 싱가포르에서 초고압 전력망 사업을 추가로 수주하며 글로벌 경쟁력을 입증했다. 대한전선(대표 송종민)은 싱가포르 전력청(SP PowerAssets Limited)과 400kV 초

www.epj.co.kr

https://www.impacton.net/news/articleView.html?idxno=12892

싱가포르, 호주에서 해상케이블로 전기 받는다…28조원 태양광 사업 조건부 승인 | 임팩트온

세계에서 가장 긴 해저 전력 케이블을 통해 재생에너지를 공급하는 프로젝트가 싱가포르 정부로부터 조건부 승인을 받게 됐다. 호주에서 싱가포르로 재생에너지를 공급하는 200억달러(약 28조원

www.impacton.net

호주랑 싱가폴은 4300킬로 해저케이블을 통해서 1.75GW를 송전하기로 합의했다. 싱가포르가 2035녀까지 6GW의 저탄소 전력을 수입하기로 했으니 대략 목표치의 3분의 1을 호주한테 받기로 한 것이다. 이 부분이 아직 수주 나온 게 없는 걸 보니 아직 물밑에서 계획 중인 거 같다. 애초에 계획자체가 태양광 발전소부터 지어야 하니 시간이 좀 걸릴 수도 있겠다. 이뿐만 아니라 유럽에서도 이 같은 움직임이 나오고 있다.

https://www.globalconstructionreview.com/e10bn-plan-hatched-to-bring-power-to-europe-from-caspian-sea/

€10bn plan hatched to bring power to Europe from Caspian Sea - Global Construction Review

Four countries are considering a plan to lay the world’s longest undersea power line between wind farms in the Caspian Sea and southeast Europe.

www.globalconstructionreview.com

이처럼 전세계가 전력공급문제를 해결하기 위해 전력을 나누는 움직임이 나오고 있다. 물론 장기적으로 원전이 에너지원으로서 훌륭한 것은 공감한다.

예를 하나들자면 베트남 같은 나라에서는 풍력발전이 사업성이 나온다. 왜냐면 해안선길이가 길고, 겨울에는 북동 계절풍, 여름에는 남서 계절풍이 강하게 불어 풍력발전을 이어나가기 좋다. 또한 LS는 2021년부터 베트남이 풍력발전을 할 때 필요한 해저케이블을 납품하면서 인연을 쌓았고, 이번에 베트남에 사무실을 두도, LS 에코에너지는 해저케이블 공장을 짓기로 했다.

대만도 모든 면이 바다이기에 해상풍력에 진심인데 대만 해상풍력에 필요한 모든 해저케이블을 ls가 독점했다. 해상풍력 상용화 1단계 8개의 수주를 모두 따냈고, 2단계 사업도 연속해서 따내고 있다. 이번에 수주 따낸 것은 1600억 규모로 10회 연속이다. 대한전선은 싱가포르, LS전선은 대만을 최근에 따내는 등 우리나라 기업이 동남아에서 돋보이고 있다.

더 나아가 만약 원전의 시대가 오게된다해도 전력을 이동하는 수단으로서 해저케이블이 주목받지 않을까싶다.

https://www.nomicsen.co.kr/news/28884

LS전선, 대만 해상풍력 해저케이블 1600억 수주…10회 연속 계약 달성

LS전선 동해공장 전경/사진=LS전선 제공LS전선이 대만 해상풍력 시장에서 10회 연속 수주에 성공하며 해저케이블 강자로서 입지를 확고히 했다. LS전선은 1일, 대만 ‘포모사 4’ 프로젝트에 약 1,6

nomicsen.co.kr

두 번째로 데이터센터에 필요한 해저케이블 수요이다. 해저케이블에는 전력송신만 있는 게 아니라 해저통신케이블도 있다. 이 또한 ls전선이 하고 있고, LS마린솔루션은 이를 까는 역할을 한다. 아직까지 유의미하게 빅테크에게 수주받은건 해저통신케이블 수주받은 건 AWS, MS 등이 참여하는 부산과 일본 후쿠오카를 잇는 JAKO프로젝트로 2025년 하반기 착공해 2027년 완공예정이다. 이 수주를 계기로 앞으로 커지는 데이터센터와 광케이블 교체 수요를 LS나 대한전선 같은 우리나라 회사들이 먹을 수 있을 거 같다.

그런데 광통신해저케이블이 송전해저케이블보다 좀 많이 저렴하다. 이번에 jako프로젝트가 이야기 나오는 게 1000억 정도인 거 같은데 250KM HVDC를 깐다면 조 단위이다. 그렇기에 LS전선과 대한전선 둘 다 돈이 되는 HVDC 해저케이블 위주로 증설을 시작했다.

일단 대한전선은 HVDC해저케이블 수요에 대응하기 위해서 4972억을 투자해서 2공장을 짓겠다고 하고 있으며 ls전선은 미국에 1조 원을 투자해 HVDC공장을 지으려고 하고 있다. LS마린솔루션은 자기 시총의 절반 가까이를 유상증자하며 얻은 4200억 중 3000억 가까이를 포설선을 건조하는 데 사용한다고 한다. 전 세계 전력 인프라가 바뀌는 시점이 오고 있다.

다음편에는 대한전선과 ls각각 수주잔고를 보면서 분석해 보겠고, 미국 전력사이클에 대해서 알아보려고 한다. 아마 총 3~5편 정도로 구성되지 않을까 싶다.

저작자표시 비영리 변경금지 (새창열림)

해저케이블 1편) 서해안 에너지 고속도로 이거 노다지인데?(LS,대한전선)

jo식이 2025. 9. 17. 15:24

2025. 9. 17. 15:24

사실 해저케이블보다 광케이블이나 변압기쪽에 관심이 더 많았다. 그런데 변압기쪽에 관심이 더 많았다. 그런데 이 뉴스를 보고 LS마린솔루션에 관심을 가지게 되었다. LS마린솔루션을 담보로 교환사채를 발행한다는건 그래도 LS내에서 우량한 주식으로 평가받고 있다는 뜻 아닐까? 그리고 어쩌다 보니 사정이 생겨서 공부하게 되엇다 ㅎㅎ

https://n.news.naver.com/article/011/0004528304

LS전선, 4000억 규모 교환사채 발행 추진 [시그널]

이 기사는 2025년 9월 2일 17:39 자본시장 나침반 '시그널(Signal)' 에 표출됐습니다. LS그룹 내 전선·케이블 기업 LS전선이 현재 보유 중인 LS마린솔루션 주식을 활용해 4000억 원 규모 교환사채

n.news.naver.com

이재명 정부 공약 중에 에너지 고속도로라는 것이 있다. 이름만 보면 무슨 고속도로 만드나하고 웃어넘기는 사람이 많은 거 같다. 나 역시 그랬고, 처음에 무슨 소리인지 몰랐다. 그냥 생산된 전기를 끌어오는건데 그렇게 이득이 되는 일인가 싶었다.

https://www.joongang.co.kr/article/25342087

이재명표 '에너지 고속도로' 질주에…전선업계 활짝, 원전은 긴장 | 중앙일보

정부가 추진 중인 ‘서해안 에너지 고속도로’ 구상은 해저케이블·전선 업계에 호재로 떠올랐지만, 원자력 발전업계는 정책 신호가 다시 흔들릴 수 있다는 우려 속에 긴장감이 감돌고 있다. 이

www.joongang.co.kr

그런데 이거 규모가 만만치 않다. 지금 정부에서 발표한 규모만 11조 5천억이다. 이건 최소규모이고, 지금 이야기 나오는 것을 보면 이 규모는 장기적으로 보면 50조규모를 넘을 거 같다. 당연히 11조 5천억에서 대부분이 해저케이블에 필요한 예산이다. 뉴스기사를 보니 변환 설비 관련 예산이 4조 8천억이라고 본다. 아마 나머지는 케이블 관련 예산일 거 같다. 그러면 대략 6조정도가 케이블 관련 예산이라고 보면 되는데 이건 줄어들 수도 있다.

https://www.newsway.co.kr/news/view?ud=2025082515471361389

'서해안 에너지 고속도로' 가시화···LS일렉트릭의 'HVDC 토털솔루션' 주목 - 뉴스웨이

이재명 정부의 서해안 에너지 고속도로 사업을 앞두고 LS일렉트릭이 HVDC 변환용 변압기 국산화와 생산능력 확장에 박차를 가하고 있다. 대형 송전망 구축에 따라 해당 기술과 설비의 중요성이

www.newsway.co.kr

대통령님께서 하시려는 서해안 에너지 고속도로 사업에서 해상풍력을 밀고 있다. 8기가와트 송전 용량의 절반 이상인 5.5GW 이상을 서해안 해상풍력단지가 책임진다고 한다. 그런데 풍력이나 태양광같은 에너지원은 변환설비가 필요하다.

https://www.pinpointnews.co.kr/news/articleView.html?idxno=373725

李정부 에너지고속도로, 인허가 지연 등에 벌써 차질 가능성 - 핀포인트뉴스

이재명 정부의 역점 추진 프로젝트인 \'서해안 에너지 고속도로\' 사업의 차질 가능성이 제기됐다. 이 프로젝트가 흔들려 결국 이재명 정부 내 제대로 사업 궤도에 오르지 못하고 \'장밋빛\' 공약

www.pinpointnews.co.kr

그 이유는 신재생 에너지가 전기를 생산해서 고객(?)까지 전달하는 과정을 살펴보면 된다. 태양광이나 해상풍력 발전은 교류 형태로 전기를 생산한다. 왜냐면 풍력발전이 에너지 고속도로의 핵심이니 풍력을 예시로 들자면 풍력 발전 자체가 발전기 터빈이 회전하면서 전자기 유도 형상에 의해 교류 전기가 만들어지기 때문이다.

그런데 교류 형태로 전기를 보내게 되면 에너지 손실이 많이 나기 때문이다. 그 이유를 설명할건데 궁금하지 않으면 넘어가도 될 거 같다. 본인이 전기과가 아니여서 매우 얕게 공부한거니 너무 대충 공부했다고 뭐라고는 금지이다.

이제 이유를 설명해보자면 전류와 전압의 방향이 끊임없이 바뀌는 교류의 근본적인 특성 때문이다. 근본적인 원인은 무효전력 손실 때문인데 송전선로는 마치 코일(인덕턴스)과 축전기(커패시턴스)처럼 행동해서 유효한 일을 하지 않는데 지속적으로 전력망에 부담을 주는 무효 전력(Reactive Power)가 발생하는데 이는 전체 전류의 크기를 증가시켜 전선의 열 손실을 키우게 됩니다. 이 밖에도 페란티 현상이 발생해서 송전선로가 길 경우 선로의 커패시턴스 성분이 우세해지면서 전력을 받는 쪽(수전단)의 전압이 오히려 보내는 쪽(송전단)보다 비정상적으로 높아지는 현상이 나타나는데 이는 계통의 전력 안정성이 위협받고 과전압으로 설비 손상이 일어날 수 있다. 이 밖에도 교류 전류는 중심부보다 표면으로 몰려 흐르는 Skin Effect 등 다양한 이유로 에너지 손실이 발생하기 때문에 직류로 바꿔줘야한다.

그래서 이걸 직류 전기(DC)형태로 전환한다음 변압기를 통해 전압을 높인 다음 전력을 보내게 된다. 이 때 전압을 높이는 역할을 하는 것이 변압기이고, AC(교류전기)에서 DC(직류전기)로 변환시키는 것이 전력변환기이다. 전압을 높이는 이유는 전압을 높이면 전류가 낮아져 송전 과정에서 발생하는 열 손실()을 최소화할 수 있어 매우 효율적인 전력 전송이 가능해진다. 전력손실이 5~10프로 정도 적다고 한다.

이제 HVDC 송전선로를 통해서 서해안(아마도 전라도쪽)에서 생산된 전기를 수도권으로 보내게 되는데 이 때 대통령님께서는 해저케이블을 사용하겠다!!이렇게 말한 상황이다. 아무래도 송전탑같은게 주민들이 싫어하는 님비시설이여서 그런거 같다. 밑에 나와있는 한전 원주전력지사 홈페이지를 보면 155킬로미터를 잇는데 317개의 송전탑이 필요하다고 하는데 그럼 대량 500m당 한 대씩 필요하고, 신해남과 서인천까지 거리 430킬로미터인것을 감안하면 송전탑이 거의 800개정도가 필요하다. 과연 주민들이 좋아할지 의문이다.

https://www.kps.co.kr/ebook/202109/people02.html

KPS STORY

OpeningㆍKPS ISSUEㆍPEOPLEㆍSYNERGY+ㆍ독자참여

www.kps.co.kr

그 다음 육지에 도착해서 직류 전기를 다시 교류 형태로 바꿔야한다. 그 다음 우리들이 전력을 쓰는 것이다.

필자는 신재생에너지가 원전보다 나은 에너지원이라고는 절대로 생각하지 않는다. 그러나 정부 정책이 그렇다면 그에 맞출 필요가 있다. 그리고 원전이 뜬다고 해서 신재생에너지가 사라지지도 않을 것이고 밑의 뉴스 기사에 나오듯 싱가폴처럼 다른 나라에서 만들어진 전력을 가져오는 수요도 있다. 우리나라처럼 신재생에너지가 효율적이지 않은 나라도 있지만 베트남이나 싱가폴, 호주같은 나라처럼 신재생에너지로 유의미하게 전력을 생산하는 나라들은 다른 나라로 전력을 팔고 있는 중이다. 전력 난이 심해질수록 국가 간 전력을 공유(?)하는 상황은 더 커질 것이다.

https://www.epj.co.kr/news/articleView.html?idxno=36790

대한전선, 싱가포르서 1,100억 규모 초고압 턴키 프로젝트 수주 - 일렉트릭파워

www.epj.co.kr

https://www.aitimes.com/news/articleView.html?idxno=162758

호주-싱가포르 해저 케이블로 GW급 태양광 전력 송전 - AI타임스

호주의 신재생에너지 전문 선케이블(SunCable)이 해저 케이블을 통해 전력을 아시아로 공급하게 됐다.선케이블은 21일(현지시간) '호주-아시아 파워 링크' 프

www.aitimes.com

이 때문에 LS와 대한전선이 소송을 하면서 싸우고 있는 중이고, 심지어 호반을 뒷배로 가진 대한전선은 LS주식 3퍼센트를 매입했다. 호반은 정말 대단한 회사같다. 좀 양아치긴 한데 수단과 방법을 가리지 않고 아파트를 지어서 돈을 쓸어담은 후에 대우건설을 인수하고, 한진칼을 먹으려고 하고 있고, LS와 싸움을 벌이는게 테토남같다. LS입장에서 호반을 막기 위해서 백기사를 끌어들이거나 자사주를 이용하는 등 지분을 지키기 위한 수단을 강구할 수도 있다. 아니면 현금성 자산을 지분을 지키는 데 사용하게 해서 경쟁력 약화시키려는 건가?

일단 호반은 위와 같이 서해안 에너지 고속도로라는 사업을 먹기 위해서 대한전선에 막대한 투자를 하고 있고, 우리나라 정부 사업은 대한전선과 LS전선의 확실한 수익원이 될거고, 이제 해외 해저케이블을 봐야한다.

저작자표시 비영리 변경금지 (새창열림)

'주식 > 주식' 카테고리의 다른 글

용가리의 한국 뷰티 화장품 주식이야기 1편 feat 관세(에이블씨엔씨, 실리콘투, 에이피알, 파마리서치, 동국제약) (1)	2025.09.26
희토류 1편 내가 미국 희토류 주식을 보는 이유(metc,mp,crml,usar)그리고 광물자립(tmc) (4)	2025.09.19
꿀꿀이는 역시 선진이지 선진 주가 분석 2편(리스크) (16)	2025.08.17
꿀꿀이는 역시 선진이지!! 선진 주식 분석 1편 (14)	2025.08.16
about 선진국 하이일드채권 (0)	2024.04.03

꿀꿀이는 역시 선진이지 선진 주가 분석 2편(리스크)

jo식이 2025. 8. 17. 00:40

2025. 8. 17. 00:40

몇 년만에 다시 쓰는 주식 분석이네요 아직 부족하지만 그동안 조금씩 배워왔던 걸 활용해서 글로 천천히 남겨보려고 합니다.

다시 돌아온 주식 블로그 2편은 선진의 리스크입니다. 1편에서는 지금 선진이 왜 순이익이 급증하고 있는지에 대해서 설명하였고, 2편에서는 어떤 리스크를 가지고 있는지에 대해서 설명해보려고 합니다.

1편에서 말했듯이 선진의 매출과 순이익이 급증을 하고 있으며 매크로적으로 겹호황이 겹치고 있습니다. 그렇기에 낮은 밸류로 지금 거래되고 있지만 리스크가 없는것이 아닙니다. 그래서 이번편에서는 리스크에 대해서 작성을 해보려고 합니다. 두 개의 글을 보고 이 회사가 떨어질거 같은지 오를 거 같은지 판단해보면 좋을 거 같습니다.

출처: https://www.mirae-biz.com/news/articleView.html?idxno=60703

첫째로 돼지고기 재고량 증가입니다.

지금 돼지고기 가격이 공급량이 부족해서 가격이 올랐지만 가격이 오름에 따라 도축량이 늘고, 경기가 좋지 않아 고기 소비가 높지않아 돼지고기의 재고량이 증가를 하고 있습니다. 돼지 가격이 올랐지만 물론 돼지고기의 출하 몸무게가 줄어듦에 따라 유통물량이 가격하락을 일으킬만큼 증가하진 않고 있습니다.

(사)한국육류유통수출협회 데이터에 따르면 2025년 5월 돼지고기 재고량이 43573톤으로 전월대비해서 94프로지만 전년대비 112퍼센트입니다. 6월부터 데이터는 아직 업데이트가 되지않아 모르지만 돼지고기 재고량이 증가추세인건 충분히 우려스러운 부분입니다.

그러나 (사)한국육류유통수출 협회에 따르면 올해 6월까지 누계수입량은 246.7천톤으로 전년대비 약 25.5천톤(9.4%) 감소하였고, 삼겹살이 15.9천톤(15.4%) 감소, 앞다리 3.3천톤(2.9%) 감소했습니다. 그동안 돼지고기 수입량이 계속해서 증가했었지만 지금 주춤하고 있으며, 지금 가격이 오르는 원인 중 하나기도 합니다.

또한 3분기부터 정부에서 지원금을 나눠주었기 때문에 3분기 재고를 봐야지 가격이 하락국면으로 넘어갈지 판단이 가능할거 같습니다.

두번째로 사이클산업의 특징(?)이 리스크입니다.

주식바닥에서 유명한 말이 있습니다.

사이클 산업에 해당하는 주식은 per가 높을 때 사서 낮을 때 파는 것이다.

특히 반도체 산업에서 이것이 크게 적용이 됩니다. 예를 들어 마이크론같은 DRAM 기업들에 적용이 되는데 per가 낮은 지점이면 불황일 확률이 높고, 생산량을 줄이고 있는 시점일 가능성이 매우 높습니다. 돼지도 마찬가지입니다. 가격이 낮으면 출하를 늦추게 되고, 투자를 줄이게 됩니다. 그리고 수요가 늘어나면 수익이 높아지고, 그 때 출하량이 늘어나서 다시 공급과다가 일어나서 시장논리에 따라 가격이 떨어지게 됩니다.

1편에서 말했다시피 현재 돼지고기는 겹호황을 맞고 있습니다. 낮은 곡물가격과 돼지고기 수입 감소, 돼지고기 가격 상승 등 오랜만에 보는 호황입니다. 그렇기에 지금 per가 낮은 것이 당연한것이고, 지금 고점이라고 생각하면 앞으로 지금 per를 유지하기 힘들 것이고, 이 때 파는 것이 맞는 선택일 수도 있습니다.

제 개인적인 생각인데 사이클 산업에서 per가 높은 불황지점이라면 pbr이 역사상 낮은 밸류로 낮아졌을 때 매수하는 것이 맞다고 보긴합니다.

세번째로 주주환원을 안 한다는 것입니다.

주주환원을 하지 않는다면 그것이 무슨 가치가 있는지 모르겠습니다. 말 그대로 주주환원을 하지 않고 회사가 돈을 많이 벌어도 주주의 돈이 아닙니다. 그건 회사의 자산일 뿐입니다. 선진이 지금 딱 그런 상황입니다. 배당을 주가가 아무리 높아도 배당을 100원만 줍니다.

현대차처럼 주주환원을 하면서 돈을 번다면 선진은 지금의 주가가 아닐 것입니다. 그러나 주주환원을 하는 분위기가 전혀 없다는 것은 아쉬운 일입니다. 현대차까지 갈 필요도 없이 같은 육류기업인 정다운이라는 오리고기 기업이 있는데 이처럼 주주환원의 진심이라면 좋겠지만 하림 특성상 쉽지않을 것 같습니다.

'주식 > 주식' 카테고리의 다른 글

희토류 1편 내가 미국 희토류 주식을 보는 이유(metc,mp,crml,usar)그리고 광물자립(tmc) (4)	2025.09.19
해저케이블 1편) 서해안 에너지 고속도로 이거 노다지인데?(LS,대한전선) (3)	2025.09.17
꿀꿀이는 역시 선진이지!! 선진 주식 분석 1편 (14)	2025.08.16
about 선진국 하이일드채권 (0)	2024.04.03
엄청 자세한 오픈도어 분석글 , 6개의 단점과 7개의 장점 + α (7)	2022.03.12

꿀꿀이는 역시 선진이지!! 선진 주식 분석 1편

jo식이 2025. 8. 16. 18:08

2025. 8. 16. 18:08

몇 년 만에 다시 쓰는 주식 분석이네요 아직 부족하지만 그동안 조금씩 배워왔던 걸 활용해서 글로 천천히 남겨보려고 합니다.

다시 돌아온 주식 블로그 1편은 선진입니다. 1편에서는 지금 선진이 왜 순이익이 급증하고 있는지에 대해서 설명할 예정이고, 2편에서는 어떤 리스크를 가지고 있는지에 대해서 설명해보려고 합니다.

선진은 알다시피 돼지고기를 파는 회사입니다. 선진의 사업 부문은 크게 다섯 가지로 사료와 식육, 양돈, 육가공, 축산기자재와 같은 기타 사업으로 분류가 가능합니다. 특히 사료 부분이 꿀꿀이 선진의 캐시카우로 꿀꿀이가 돈이 안될 때 든든한 돈줄역할을 해왔습니다. 1분기 실적을 보면 알겠지만 매출 기준으로 41퍼센트 가까이가 사료사업 매출이고, 나머지 육류 매출 비중이 50프로가 넘어가지만 사료부문의 영업이익이 전체 영업이익의 75퍼센트를 차지하는 것을 알 수 있습니다.

2분기 기준 선진의 매출은 4630으로 전년 4147억으로 10프로이상 증가하였고, 순이익은 81억에서 435.81억으로 5배 이상 증가하였습니다. 아직 2분기 사업보고서가 나오지 않아서 세부적인 정보는 나와야지 알 것 같긴 합니다. 그래서 일단 1분기 사업보고서와 2분기하고 3분기의 원자재와 육류 가격 추이를 가지고 써보려고 합니다.

첫 번째 매출과 순이익 급증 원인은 원자재가격의 감소입니다.

선진의 효자사업부문인 배합사료 사업부문은 옥수수, 소맥, 대두박 등 수입 곡물이기 때문에 수입 곡물의 가격이 사료사업에 큰 영향을 끼칠 수밖에 없습니다. 그러나 옥수수, 소맥, 대두 가격 모두 지금 풍년이기에 가격이 역사적인 저점이라고 부를만한 가격까지 거의 도달하게 되었습니다. 거의 반토막난 상황입니다. 그렇기에 사료부문에서 영업이익이 폭발적으로 증가하고 있습니다. 예시로 미국 옥수수 선물만 가져오긴 했는데 다른 곡물도 비슷한 가격 그래프를 보여주고 있습니다

밑의 표들을 보면 알겠지만 실제로 수입하는 원자재의 가격이 줄었고, 2024년과 비교해서 사료부문의 영업이익이 크게 늘었습니다.

2025년 1분기(14기)와 2024년 4분기(13기), 2024년 3분기(12기) 원자재 가격 비교

둘째로 실적 상승요인은 돼지고기 가격상승입니다.

8월 6일 기준 돼지고기 도매가가 전년대비 27퍼센트가 올랐고, 3분기에 원래 돼지고기 가격이 보통 떨어지는데도 불구하고 이번 3분기는 계속 오르고 있습니다. 실제로 회계처리를 할 때 3분기에 가격이 떨어질 것을 예측해서 회계처리를 하는데 실제로 3분기에 돼지가격이 계속 오르고 있고, 소비쿠폰이 3분기에 사용된 것을 고려하면 육류 부분 수익이 크게 늘어날 가능성이 있습니다.

실제로 돼지고기 가격이 유의미하게 상승한 덕분에 2024년 적자였던 육류 부문이 흑자로 돌아섰고, 선진 영업이익에 크게 기여를 하고 있고, 3분기에 더 기여를 할 것으로 보여집니다.

http://www.pigpeople.net/mobile/article.html?no=17549

[돼지와사람] [전광판] '25년 33주차(8.10-12) 평균 도매가격 6,861원...전주대비 2.8%, 전년동기대비 27.0

[전광판을 통해 한돈산업 관련 월별 일별 주요 정보와 단신을 한눈에 볼 수 있습니다. -돼지와사람] ◆이달의 주요 행사 및 일정 8.13일 무계바이오 액상비료 수출 기념 선적식(10:30~12:00, 무계바이

www.pigpeople.net

세 번째로 돼지농가 감소입니다.

저도 젊은이긴한데 요즘 젊은이들이 축사사업을 물려받는 걸 꺼리고 있습니다. 소고기처럼 손익이 안 맞아서 축사를 폐지하는 경우도 있겠지만 돼지고기처럼 가격이 올라도 축사를 운영하는 사람들이 고령화되면서 운영하지 못하게 되는 경우가 많아지고 있습니다. 한돈의 수요는 계속해서 증가하고 있는데, 공급이 줄어드니 장기적 가격상승으로 이어질 가능성이 있습니다. 물론 돼지고기 사육량이 얼마나 늘어나는지는 계속 체크해야 되는 부분이긴 합니다. 생산성이 증가되면서 돼지농장 감소로 인해 모돈숫자가 감소하였으나 총 사육 마릿수는 유지되고 있긴 하나 장기적으로 공급감소가 날 것이라고 생각합니다.

또한 최근 폭염으로 인해 꿀꿀이들이 폐사하는 정도가 중앙재난안전 상황실애 따르면 7월 27일 기준으로 폭염에 의한 돼지 폐사 신고두수가 잠정 5만 1,372마리(5.20~7.27)라고 밝혔습니다. 이는 전년 동기 1만 2,563마리보다 4.1배나 많은 양입니다. 이는 돼지고기값 상승에 영향을 주고 있습니다.

http://www.pigpeople.net/news/article.html?no=16425

[돼지와사람] 7년간 없어진 돼지농장 800호, 어느 지역이 많이?

통계청이 최근 발표한 '2024년 4분기(12월 1일 기준) 가축동향조사' 결과에 따르면 전년동기대비 돼지 총 사육두수뿐만 아니라 모돈숫자, 돼지농장수 모두 눈에 띄게 감소한 것으로 나타났습니다(

www.pigpeople.net

http://www.pigpeople.net/news/article.html?no=17527

[돼지와사람] [속보] 폭염 돼지 폐사 신고두수 6만두 넘었다

폭염에 의한 돼지 폐사두수가 멈추지 않고 있습니다. 결국 6만두를 넘어섰습니다. 역대 최고 기록입니다. 1일 중앙재난안전 상황실에 따르면 지난 30일 누적 기준(5.20~7.30.)으로 농업정책보험금융

www.pigpeople.net

다만 수입량이 역대 최대를 찍으면서 소비쿠폰 전까지 돼지고기 재고량이 늘어나고 있어 리스크가 있는데 이는 리스크에 대해서 설명하는 2편에서 설명하기로 하고, 소비쿠폰으로 인해 재고량 감소가 어느 정도 일어날 것이라 보고 있습니다. 추가적으로 돼지고기 가격이 오르지 않고 이 가격을 유지만 해도 충분히 매력적이라고 생각합니다.

네 번째로 환율입니다.

돼지고기와 비료 사업이 원자재를 수입을 하다 보니 환율이 수익에 크게 영향을 끼치게 됩니다. 실제로 사업보고서에서도 환리스크를 대표리스크로 다루고 있고, 환율변동에 따른 손익을 보여주고 있습니다. 그러나 트럼프가 약달러를 원하고 있기 때문에 강달러가 되면 계속해서 위협을 가할 것이고, 약달러가 지속되도록 할 것으로 보고 있기 때문입니다.

만약 환율이 오르더라도 크게 올라서 수익에 크게 영향을 미칠정도까지 오르지 않을 것으로 보고 있습니다. 그렇기 때문에 오히려 환율이 안정화될 것이라고 예측한다면 투자에 긍정적인 요소가 될 것이라고 생각합니다.

다섯 번째로 역사상 밸류입니다.

시장에서 예상하기로는 3 4분기 순이익이 1000억에서 1000억 중반정도를 예상하고 있습니다. 1000억이라고 잡으면 시총 2800억 회사가 순이익으로 2000억을 버는 상황이 만들어지게 됩니다. 미중 무역합의로 인해 미국 곡물이 중국으로 수출된다면 미국 내 곡물가격이 오를 수도 있다고 생각하긴 하지만 아직까지는 곡물 쪽에서 모멘텀이 아직 나오지 않고 있기 때문에 원자재 가격만 안정되고, 돼지고기 가격이 지금 가격을 유지해 준다면 충분히 순이익 2000억 가능할 것이라고 봅니다.

이로 인해 pbr이 증가하고 있고, 선진의 역사상 pbr밴드가 0.3에서 1.2 정도 왔다갔다한 것을 생각한다면 지금 pbr 0.56이 괜찮은 수치라고 생각합니다. 그리고 만약 하반기에 예상대로 순이익 1000억이 찍히게 된다면 per는 2가 안되고, pbr은 0.5가 됩니다.

2020년 순이익 851억, 2021년 317억, 2022년 229억, 2023년 104억, 2024년 66억이었던 것과 비교하면 이번연도는 거의 2천억 원의 순이익을 올리고, pbr도 2020년 2021년보다 낮은 것으로 예상되기에 과거보다 더 높은 주가로 평가받아야 한다고 생각합니다.

추가

2025년 6월 기준으로 부채가 7606억원이고, 자본이 5372억이므로 부채비율은 140퍼센트로 나쁘지도 않고 좋지도 않은 상황이

저작자표시 비영리 변경금지 (새창열림)

'주식 > 주식' 카테고리의 다른 글

해저케이블 1편) 서해안 에너지 고속도로 이거 노다지인데?(LS,대한전선) (3)	2025.09.17
꿀꿀이는 역시 선진이지 선진 주가 분석 2편(리스크) (16)	2025.08.17
about 선진국 하이일드채권 (0)	2024.04.03
엄청 자세한 오픈도어 분석글 , 6개의 단점과 7개의 장점 + α (7)	2022.03.12
인텔(intel) 주식 분석, 아직 몰락을 하기엔 너무 이르다 (2편) (2)	2022.02.21

PREV 이전 1 2 3 4 5 6 7 ···12 NEXT 다음

기법	설명	예시	주의할 점
소문자화 (Lowercasing)	모든 알파벳을 소문자로 통일합니다.	Apple → apple	고유명사(Apple vs apple)의 의미가 손실될 수 있습니다. 그리고 문맥에 따라 대소문자 정보가 중요할 수 있습니다.
숫자/기호 제거	의미에 영향이 적은 숫자나 특수 기호를 제거합니다.	score: 98! → score	COVID-19처럼 숫자/기호가 핵심 정보일 경우 제거하면 안 됩니다. 그리고 일부 기호는 감정을 의미하기도 합니다.
구두점 제거	마침표(.), 쉼표(,) 등 문장 부호를 제거하여 단순화합니다.	Hello, world! → Hello world	문장의 구조나 감성 분석 시에는 오히려 정보 손실을 유발하여 어플리케이션에서는 오히려 이해하기 어려워질 수 있습니다.
표준어/슬랭 치환	줄임말, 인터넷 용어를 표준어로 바꿉니다. (사전 기반)	r u b4? → are you before?	사전에 정의되지 않은 단어는 변환되지 않습니다.
반복 문자/이모티콘 제거	의미 없는 반복 문자나 이모티콘을 처리합니다.	ㅋㅋㅋㅋㅋ😂 → ㅋ	감성 분석이 목표일 경우, 감정을 나타내는 중요한 정보가 사라질 수 있습니다.
축약어 확장	don't와 같은 축약형을 원래 형태로 풀어줍니다.	Can't → Cannot	문장의 의미를 더 명확하게 만들어 줍니다.

전체 글

BPE 시뮬레이션으로 이해하기

1단계: 초기화

2단계: 첫 번째 병합

3단계: 두 번째 병합

4. 세 번째 병합

결론

## 토큰화 단계: 학습된 규칙을 적용하는 과정

## 요약: 학습 vs. 토큰화

## 압축적 표현의 원리: 'the' vs. 'floccinaucinihilipilification'

1. 학습(Training) 단계

2. 토큰화(Tokenization) 단계

## 1. '토큰 시퀀스 길이'의 압축

## 2. '표현 가능성'의 압축 (⭐ 가장 중요한 의미 ⭐)

'코딩공부 > 자연어처리' 카테고리의 다른 글

텍스트 전처리: 토큰화(Tokenization) 최종 요약 📝

1. 토큰화의 기본 단위

2. 토큰화의 주요 방법

① 규칙 기반 토큰화 (Rule-based)

② 서브워드 토큰화 (Subword Tokenization) - 데이터 기반

3. 한국어 토큰화 접근법

4. 토큰화 이후의 후속 처리

'코딩공부 > 자연어처리' 카테고리의 다른 글

영어 vs 한국어 문장 나누기(토큰화) 핵심 차이점

1. 영어: 띄어쓰기 중심의 분리 (Spacing is Key)

2. 한국어: 형태소 중심의 분리 (Morpheme is Key)

최종 요약

토큰화(Tokenization) 완벽 정복

1. 토큰(Token)과 토큰화(Tokenization)란 무엇인가?

2. 토큰의 단위: 무엇을 기준으로 쪼개는가?

3. [핵심] 토큰에 대한 중요한 관점 (주의사항)

최종 요약

규칙 기반 토큰화(Rule-based Tokenization) 완벽 정복

1. 규칙 기반 토큰화란?

2. 장점과 단점

3. [시험 핵심] OOV (Out-of-Vocabulary) 문제

최종 요약

BPE (Byte Pair Encoding) 완벽 정복

1. 왜 서브워드(Subword) 토큰화가 필요한가? (제안 동기)

2. BPE의 핵심 아이디어: 데이터 기반 압축

3. BPE 알고리즘의 작동 방식

4. BPE의 장점과 단점

WordPiece 토큰화 완벽 정복 (BPE와 비교)

1. 핵심 아이디어: 무엇이 BPE와 다른가?

2. WordPiece 알고리즘의 작동 방식

3. BPE와의 최종 비교 및 특징 요약

한국어 토큰화 완벽 정복

1. 왜 한국어 토큰화는 어려운가?

2. 접근법 (1): 형태소 분석기 기반 (언어학적 접근)

3. 접근법 (2): Subword 기반 (데이터 중심 접근) - SentencePiece

최종 요약 (시험 핵심)

NLTK (영어) & KoNLPy (한국어) 토큰화 완벽 정복

1. NLTK를 이용한 영어 토큰화 및 품사 태깅

2. KoNLPy를 이용한 한국어 토큰화 및 품사 태깅

텍스트 후속 처리 완벽 정복

1. 불용어(Stopwords) 제거

2. 어간 추출 (Stemming)

3. 표제어 추출 (Lemmatization)

4. [시험 핵심] Stemming vs. Lemmatization 비교

5. 한국어에서의 유의점

1. 후속 처리 (Post-processing) 최종 요약

후속 처리 기법 비교 (시험 핵심)

⚠️ 현대 NLP에서의 중요도

2. 정규 표현식 (Regular Expression) 완벽 정복

주요 기능

핵심 문법 (이것만은 꼭 외우세요!)

Python re 모듈 주요 함수

정규 표현식을 이용한 토큰화 예시

'코딩공부 > 자연어처리' 카테고리의 다른 글

텍스트 전처리 최종 요약본

1. 텍스트 전처리의 필요성: 왜 해야 하는가?

2. 텍스트 전처리의 전체 과정

전통적인 NLP 모델이 전처리에 의존하는 이유

최신 NLP 모델에서 전처리가 덜 중요한 이유

3. 텍스트 정규화(Normalization)의 주요 기법

4. 실무 적용 시 핵심 고려사항

'코딩공부 > 자연어처리' 카테고리의 다른 글

'주식 > 주식' 카테고리의 다른 글

'주식 > 주식' 카테고리의 다른 글

'주식 > 주식' 카테고리의 다른 글