L112資料處理與分析概念
L11201 資料基本概念與來源
大數據、資料型態與結構, 如:數值型資料、文字資料、 圖像資料等
Prompt
大數據、資料型態與結構,如數值型資料、文字資料、圖像資料等,
相關基本概念,及來源等進行說明。
大數據是指體積龐大、複雜的數據集,
特徵包括數量(Volume)、速度(Velocity)和多樣性(Variety),
對AI訓練至關重要。
數據類型包括
數值型數據 (如股票價格)
文字數據 (如社交媒體帖子)
圖像數據 (如醫療影像)
結構分別為
結構化(如數據庫表格)、半結構化(如XML、JSON文件)/
非結構化及非結構化(如純文字)。
非結構化(如純文字)或
半結構化(如XML、JSON文件)
AI特別依賴這些數據來訓練機器學習模型,提升模型的準確性和泛化能力。
社交媒體數據
通常是非結構化,但可通過標記(如標籤)轉化為半結構化數據,
適用於AI的文本分類任務
數據來源
包括
金融交易(數值型)
數值型數據: 可分為連續型(如溫度)和離散型(如人數)。
例如:金融機構(如股票市場數據)、科學研究(如實驗結果)、
物 聯網設備(如感測器數據)。
書籍與線上文章(文字型)
圖書館與檔案(如書籍、學術論文)、線上平台(如網站、博客、社交媒體)、
客戶反饋(如評論、調查)。
相機與衛星影像(圖像型)
相機與監控系統(如安全攝像頭、交通攝像頭)、衛星(如地球觀測影像)、
醫療成像設備(如X光、MRI、CT掃描)。