“贱贱,江湖救急!”李媛一个视频聊天请求发了过去。
“小李子,找朕又有何事啊?”高渐离点了个拒绝,然后问道。“我在外面喝酒撸串吹牛逼,没法视频”。高渐离又补充了一句。
“今天经理看我在那用python处理数据,命令行敲得嘎嘎响,眼里满是惊讶。”
“这不是好事么?看看,成功装逼。”
“如果光这样确实是好事,让我查个最大值,求个和,或者排个序,都不是事儿。”
“嗯”
“问题是,他跑到我身边,一脸崇拜的说:哎呦,高材生就是不一样!媛媛,没想到你这么厉害!”
“他叫你媛媛???”
“贱贱,你的关注点别偏了行不行?问题是他接下来说的。‘媛媛,你能不能用个啥机器学习的来帮我预测下房价?就是根据卖家情况,给他们一个推荐的挂牌价。你也知道的,价格越容易成交,我们也越容易挣到钱啊!’”
“啊哈哈哈哈哈,他真把你当专家了啊!!!”
“你再笑!”李媛丢过去一个流血的刀的表情。
“那他让你啥时候给他结果啊?”
“他给了我一个月时间。不过有毛用啊!我又不是机器学习专家。”
“那你还答应他?”
“。。。。。。我这不是不好意思拒绝别人么。。。。。。”
“(⊙o⊙)…”,高渐离发出一个吐血身亡的表情。“还好给你一个月时间,否则啊,你就过来投奔我吧。。。。我租的房子地板上还能睡一个人。。。。”
“你是说,一个月时间能搞定?”
“本来嘛,是搞不定的。但是你遇到了我这样的名师。虽然你的天资差了点儿,但好歹长得还不错,能弥补下”
“贱人,这前后有啥逻辑关系么?又想死了不是?”李媛扔出一个板砖。
“好了,我已经到家了,咱视频说。”高渐离一个视频请求发了过去。
对方拒绝你的视频请求。
“哈哈,你刚拒绝我一次,这下我也拒绝下你,扯平了。现在重新发视频请求过来吧。”
“囧。。。。”
视频连上,李媛头发湿湿的坐在桌边,高渐离刚送到嘴边的烤串停了下来,咽了一口口水。心里暗暗想,靠,真漂亮。
“贱人,你没吃完还带回来吃,这么晚你也不怕变成猪。。。。”这么一喊,高渐离立马恢复正常,一边嚼着羊肉串一边说:今天为师教你第二课:
数据分析预处理之向量化
“向量化是神马鬼?”李媛瞪着水灵灵的大眼睛问。
“简言之,就是把原来的一个个字符串描述或者各种大而空的范围变成一个个数字。举个例子,对人的描述,如果你用excel,就是姓名是啥啊,性别是男还是女啊,年龄多大啊。假设你只用了这三个来描述人,那么这三个特性能够直接输入到机器学习算法库里面么?”高渐离停顿了一下。
“当然不能输入进去了。因为所有的机器学习算法都是对数字起作用的。所以你得设法用数字来表述以上的特征。例如,性别分为男和女,那么excel的这一列,你可以用1表示男,0表示女。姓名这一列感觉没啥更多信息在里面,那么你可以直接丢掉。然后年龄这个。。。”
“我知道我知道,”李媛开始抢答了,“0-200,直接表示就行了。”李媛的脸上仿佛写着,看,我多聪明,快夸我。
高渐离嘿嘿一笑,说道:“不对,年龄这个,最好的处理方式是分段,因为这样能够更好的表示人的状态。例如0-5,童年;6-19,少年;20-28,青年;30-59,中年;大于60,老年。这样每个年龄都属于一种状态,共5个状态。从而将每个年龄变成0-4,五个值。”
“为啥我不能直接用0-200?”李媛很不解的问。
“因为据研究,某个特征取值范围越大,模型越不容易收敛。”
“收敛?”
“其实就是,如果某个特征取值范围越大,我们越不容易通过这个特征找到规律。可能需要我们找更多的数据才行。”
“那我该怎么做向量化呢?这步咋感觉没啥规律啊?”
“是的,这步又叫feature engineer,你特征提的好坏直接决定你最后能不能很好的找到一个算法。所以往往需要结合一些领域知识。”
“那我是不是特征提的越多越好啊?”
“不是,这方面我后面会单独跟你讲,特征跟训练数据多少的关系,以及对最终模型的影响。这方面挺复杂的。今天你先在你现有的数据上做向量化,找找感觉。”高渐离卖了一个关子。