-XGBoost-NLP-Analysis

專案核心檔案連結

為了方便快速評閱，以下為本專案之核心代碼與數據分析結果：

使用XGBoost演算法下去做企業營收成長的預測模型，利用機器學習技術，將企業法說會的文本利用jieba進行中文斷詞，將非結構化的法說會文本轉化為可統計的詞頻矩陣，構建語意特徵轉化為量化指標，即可預測企業未來的營收成長率。

在目前的量化分析中，多數模型過度依賴財報數據（落後指標）。本專案旨在驗證：企業在法說會中釋出的展望語意，是否能作為預測未來的領先指標。

我開發了一套 Python 自動化工具，將質化的法說會 PDF 轉化為量化的「成長動能特徵」，藉此捕捉管理層對未來營運的信心程度。

在開發過程中，我經歷了兩次核心的技術疊代，這不僅優化了模型，也讓我對數據清洗與機器學習邏輯有了更深的理解：

遇到的挑戰：初期提取出的詞頻極其雜亂，包含大量無意義的術語（Noise），導致模型特徵模糊，無法抓到重點。
解決方案：重新優化詞庫篩選邏輯，聚焦於具備產業驅動力的關鍵字（如：AI、CoWoS、伺服器），確保輸入數據具備業務含金量與預測價值。

遇到的挑戰：最初僅使用單一公司的數據，導致模型因缺乏「對照組」而產生過度擬合（Overfitting），特徵權重出現極端偏誤。
解決方案：擴充異質樣本至台積電、台達電、光寶科等多家指標性企業。在整合 32 筆具備不同成長位階的樣本後，模型成功學會辨識特徵與營收成長（Target_Growth）之間的關聯。

透過 XGBoost 模型的特徵重要性分析（Feature Importance），我得到了以下實戰洞察：

技術棧 (Tech Stack): Python, XGBoost, Pandas, Matplotlib, NLP Data Cleaning