資料(數據)處理與分析
資料(數據)處理與分析
是人工智慧項目中的 基礎階段,旨在 將原始數據
轉化為 高品質 且 適合分析 的格式,進一步從中提取有價值的資訊。
此階段包括 數據蒐集、清洗、轉換與分析,
目標是確保 數據的 品質、一致性 與 可用性。
(1)數據蒐集(Data Collection):
A. 數據結構類型分類
數據蒐集的來源廣泛,根據數據類型與應用需求,可分為以下幾類:
結構化數據(Structured Data):
具有 清晰 且 固定結構 的數據,
通常以 行列 形式 儲存,
便於 直接 進行 查詢 與 分析。
常見於 關聯式資料庫(如MySQL、PostgreSQL)
和 規範化的電子表格。
半結構化數據(Semi-structured Data):
數據具有一定結構標籤,但格式靈活,無需嚴格遵循固定架構。
通常以 文件 形式儲存,適用於描述複雜的 層次化數據,
如XML、JSON、CSV 等。
非結構化數據(Unstructured Data):
無固定結構的數據,需經過處理和解析後才能進行分析。
通常以 檔案 形式儲存,適合 多媒體 或 自由文本類型 數據,
包括 圖片、影像、音訊、文字內容,
如電子郵件、文章等。
B. 常見數據蒐集方法
問卷與調查:
透過 線上 或 線下 方式,直接從 目標受眾中 蒐集第一手數據。
此方法常用於市場研究、用戶回饋(反饋)蒐集 或 行為洞察,
能夠精準捕捉目標群體的意見與需求。
自有產品數據:
來自企業所 開發 或 運營 的產品或設備數據,通常與用戶的互動
相關。
例如自有的網站、App 應用,或 實體裝置 如智慧手錶、汽車等。
外部公開數據蒐集:
透過API 調用方式獲取公開可訪問的數據資源(如政府資
料開放平臺API 等),或利用網路爬蟲(Web Scraping)
自動擷取網站公開數據(如新聞、價格資訊、商品評論等)。
外部付費數據購買:
與第三方數據提供商合作,購買專業數據集以補充內部數
據,例如市場調查數據或人口統計數據。
網路爬蟲(Web Scraping):
抓取網站公開數據,例如商品價格、使用者評論或新聞文章等。