新小说

手机浏览器扫描二维码访问

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
影魂之诗

影魂之诗

影魂之诗情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的网游动漫小说,影魂之诗-微笑若寒-小说旗免费提供影魂之诗最新清爽干净的文字章节在线阅读和TXT下载。...

青帝传说

青帝传说

自他记事起,他就只知道他唯一的目标就是吃饱肚子!他在臭水沟里捡过吃的,也和野狗抢过食物,在寒冷的冬天蜷缩在破庙里瑟瑟发抖,在漆黑的夜里独自一人包扎着伤口,就如条野狗独自舔着伤口一样!因为他只是一个小乞丐而已,没人可怜,亦无人心疼……直到那年,一个声音响起:舞象而破,爽灵归位!......

男巫

男巫

自从被雷劈到异世大陆,何宁就深刻明白了一个道理,没有最倒霉,只有更倒霉。 一朝穿越霸气侧漏,纯粹是白日做梦。 若想不继续倒霉下去,只能奋起自救。 第一步,就从继承先辈事业,搞封建迷信开始……...

请叫我洞虚观主!

请叫我洞虚观主!

请叫我洞虚观主!情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的都市言情小说,请叫我洞虚观主!-桑下三宿-小说旗免费提供请叫我洞虚观主!最新清爽干净的文字章节在线阅读和TXT下载。...

全民深海游戏

全民深海游戏

苏夜一觉醒来发现全民穿越深海时代。在海洋里建造属于自己的基地。探索神秘恐怖的未知海域。在死亡中寻求超凡。故事原本应该是这样的,直到系统出现一次小小的错误,将他传送到一片被污染的海域,在这里他渐渐了解了深海的秘密。炎魔的铁骑踏平一切阻拦他们的敌人,海妖的歌声奏响横跨千万年的序曲,深海的猎人祈求摆脱恐惧的梦魇,机械的骑......

红尘之殇番外

红尘之殇番外

(长篇都市,凌辱,绿帽)美国,纽约。这是一间很有情调的临街式咖啡厅。寂静幽雅的空间,昏暗柔和的灯光,营造出一种温情蜜意的美感。对于热恋中的情侣来说,是一个绝佳的约会场所。林世宇神色淡然的捧着精致的白色瓷杯,袅袅热气从深褐色的咖啡表面缓缓升腾。透过淡淡的白色雾气,餐桌对面的女孩儿看起来有种忽近忽远的朦胧不定。浅蓝色披肩发,俏脸娇美精致,白皙如瓷玉般的肌肤,映衬着粉色的唇显出透光一般的水嫩。无暇少女,清纯灵动。...