-XGBoost-NLP-Analysis

專案核心檔案連結

為了方便快速評閱,以下為本專案之核心代碼與數據分析結果:

🐍 核心程式碼 (Python Scripts)

📊 數據與分析結果 (Data & Results)

使用XGBoost演算法下去做企業營收成長的預測模型,利用機器學習技術,將企業法說會的文本利用jieba進行中文斷詞,將非結構化的法說會文本轉化為可統計的詞頻矩陣,構建語意特徵轉化為量化指標,即可預測企業未來的營收成長率。

核心動機:挖掘文字裡的領先指標

在目前的量化分析中,多數模型過度依賴財報數據(落後指標)。本專案旨在驗證:企業在法說會中釋出的展望語意,是否能作為預測未來的領先指標。

我開發了一套 Python 自動化工具,將質化的法說會 PDF 轉化為量化的「成長動能特徵」,藉此捕捉管理層對未來營運的信心程度。


實作流程與技術挑戰

在開發過程中,我經歷了兩次核心的技術疊代,這不僅優化了模型,也讓我對數據清洗與機器學習邏輯有了更深的理解:

1. 數據提取與清洗 (NLP Pre-processing)

2. 模型訓練與樣本優化 (XGBoost Modeling)


三大數據發現與商業價值

透過 XGBoost 模型的特徵重要性分析(Feature Importance),我得到了以下實戰洞察:

  1. 量化強度 (58.8%):指標 [出現次數_今年] 佔比最高。證實管理層對特定領域的強調頻率與業績成正相關。
  2. 趨勢動能 (41.2%):指標 [動能變化率 (Momentum)] 佔比顯著。證明「今年比去年進步多少」是捕捉業績轉折點的關鍵信號。
  3. 預測能力驗證:儘管目前樣本規模尚小,但模型已能有效區分不同指標的重要性,驗證了這套「語意量化邏輯」在量化投資決策中具備極高的開發潛力。

未來展望


技術棧 (Tech Stack): Python, XGBoost, Pandas, Matplotlib, NLP Data Cleaning