写在2023的最后一天
今天是2023年的最后一天,也可以称得上是我过去十年里最重要,足以改变我人生轨迹的一年。因此回顾一下过去,展望一下未来。
22年的一整年,我都处于非常糟糕的状态。焦虑,茫然,还有对未来的恐惧,这些情绪时常笼罩着我。22年的2月18日,我完成了第一个硕士的答辩,尽管出了一些小状况,但是算是顺利毕业。
毕业后的那个暑假,我开始四处找事情做。毕业之前,我在朋友的剧本杀店里兼职当DM,主要带一些恐怖和推理的本子。这个兼职让我认识了不少新来的留学生和华裔,不过很大程度上这只是一个排解压力的工作。
毕业之后,我进了一家西班牙华人圈比较有名的一个外卖平台当运营实习生。这份工作的薪水可以说是相当微薄,并且日常工作并没有什么特别有价值的东西。但是好在在里面认识了两个同事朋友,这算得上是这份工作最大的收获。
和我同住多年的就读于UCM社会学的室友也于2月和我一起毕业,他选择了回国就业。彼时由于疫情复发,机票价格又回升到非常离谱的价格,因此我再三考虑,还是决定留下。三月,我和另外两个室友搬出了共住数年的大公寓,移步至附近一个特别狭小的房子。
在一硕毕业时,我已经从各方面了解我当时这个专业的就业情况,由于信息学和图情专业在国内就业情况非常不尽如人意,我决定向数据分析师发展。那个暑假里,我在UCM的暑期班里完成Python数据分析课,这算是走上数据之路的第一个脚步。
当时我的一个室友也是刚刚从一硕毕业,他的专业是计算机科学,并且决定再申请一个Data Science的二硕。在他的影响下,我没事也会看一下DS相关的背景知识。
22年4月的时候,我和认识很久,但彼时不是很熟的朋友芳芳一起结伴去爬了马德里周边的雪山。同月,我们完成了朝圣之路。这是我多年来第一次融入西班牙文化的徒步。我在青年旅馆里听着其他朝圣者高声唱歌,在床板上留下了纪念:一路顺风。
这场旅途中,我和芳芳相互都有好感,因此朝圣结束后我们很快就确定了关系,这对我的影响非常大。回来以后,我开始考虑继续留下来的可能。正好室友在申请二硕,于是我也开始申请第二个硕士。
我最开始的选择专业是金融和商业分析方向,数据挖掘和数据科学并不是我的首选。不过随着慢慢了解,尤其是金融行业对于各方面背景的限制,我最终还是放弃了金融系的offer,选择了大数据与数据科学硕士。
在申请上了硕士之后,距离开学还有近半年,我于是跟着室友一起,陆陆续续刷了一些网课。这之中,我刷完了宋浩老师的高数/概率论/线性代数,Coursera的机器学习/深度学习,IBM的数据工程。虽然学的比较浅薄,但是也算是补了基础知识。
在这过程中,我从外卖平台离职,全职入职了一家电商公司做数据分析和市场营销,还和芳芳一起去了巴塞罗那,加那利群岛。工作几个月以后,我于9月开始就读第二个硕士。这个硕士里,我有几门课的分数都不错,比如数据库可视化,机器学习,深度学习都拿到了sobresaliente.
过去的数年本硕生涯里,我都和当地同学交流不多,仅限于打招呼和一些课堂上的沟通。不过这次硕士,我换了个心态,开始努力和他们沟通,并且常常在whatsapp群里分享一些编程知识,这让我受益匪浅。我认识很多朋友,比如Santiago Montiel, Maria Camberos, Alfredo Sepulveda, Ignacio Michavila等等。
2022年的10月,我在网上搜到一个美国印第安纳大学的大学生机器学习竞赛。抱着试一试的心态,我报名参加了。这个竞赛要求使用机器学习模型对文本进行检测,判断其中是否有违禁信息的存在。这个比赛在2023年的2月正式开始,我的三个队友都来自美国,除了一个女生以外,其他两个都有机器学习背景。
此前我没有任何的竞赛经历,对于怎么做也是完全一窍不通,好在我的队友非常给力,一个印度裔的女生承担了主要的Coding部分,另一个男生承担了建模的部分,而我写了一些处理文本的函数。在他们的贡献下,我们的最终提交得到了First prize(一件纪念衬衫和价值120美元的Amazon代金券)。
这对我产生了非常大的激励,4月份,我和关系比较好的几个同学以及室友,组了一支队伍参加宜家在西班牙举办的DataFest Spain 2023。我作为队长,给队伍取名为Team Turing。
比赛的场地在宜家本地的办公楼,这是我第一次近距离接触到国际大企业,他们的工作环境非常让我向往。比赛三天里,我们可以像员工一样,在任何地方写代码,咖啡,水果和零食都可以随意拿。
这次比赛又是很幸运,我们在第一天参加比赛的时候,主办方问我们是否愿意再加一个找不到队伍的成员。后来,这位就读于马德里理工大学数学与计算机双学位的同学Francisco Javier扛起了队伍的大梁,他的编程功底和逻辑思维能力非常强,在一晚上就能迭代了几十个模型。
这次的课题是时序分析,我和我的同学尝试了Arima模型,我的室友尝试了RNN网络,而Javier则始终在尝试XGBoost。他手工构建了十几个特征,最终在排行榜上名列前茅。
比赛持续了三天,主办方在第三天揭晓各个奖项的得主。当主持人说到:Best Prediciton Team的时候,我忽然有种奇怪的预感。当他发出T这个音的时候,我已经站起来了。最终,Team Turing拿到了最佳预测团队的奖项,这也是我们认为最有价值的奖项。
现场的氛围非常好,大家都是全西班牙各地的STEM大学生。在三天的比赛里,各种参赛者建立非常好的关系,不同组之间也会分享各自的分析见解。从台下走到台上的路上,我见到的所有人都在笑着对我们说Enhorabuena。他们之中的很多人,后来都陆陆续续成为了Linkedin上的点赞之交。
由于这场比赛在Kaggle平台提交代码,比赛之后,我开始接触Kaggle。这是一个有名的数据科学社区,里面会定期举行竞赛。很多行业大牛都在这里拿到了Grandmaster,这是Kaggle中最高的头衔。
我在里面提交的第一篇Notebook就获得了几个点赞和评论。尽管其中不少都是求互赞的评论,但我视作是对我的认可,之后就开始坚持在上面传代码。后来回过头看,才发现当时写的代码实在是非常糟糕,不规范且毫无章法。
Kaggle社区每两周都会举行一个Playground比赛,主要是一些机器学习任务,包括时序分析,分类,回归任务。我从6月开始就没有拉下一场比赛,基本都能拿到前10%的成绩。Kaggle社区有很多非常友好的成员,其中很多人工作已久,代码更加规范,思路更加清晰,并且热衷于分享自己的想法。此外,他们对新人非常友好,时常会给予鼓励。
这之中,我最印象深刻的是两个人:一个是Oscar Augilar,他是Grand View University的分析学助教,目前在Notebook排名38/320,091。另一个是Ravi Ramakrishan,他在阿联酋迪拜国际银行担任数据科学经理,目前Notebook排名7/320,091,Discussion排名2/377,099。
Oscar的代码可读性非常强,并且由于他的分析学背景,对于数据的分析非常合理且全面。Ravi则更喜欢把代码封装成函数,每次都看的我非常费劲。不过他非常乐于回答问题,每天都能在每个评论区碰到他。我从他们身上学到了非常多的东西。后来我于2023年12月拿到了Notebook的Master头衔,他们两个也都向我表达了祝贺。
6月份,我完成了硕士答辩,由于各种家事,我开始准备回国的事宜。在这过程中,我又去参加了几次活动,一次是马德里Innovation Lab举办的人工智能夏令营,一次是开发Yolo V5/V8的Ultralystic公司在马德里举办的分享会,以及还有一次深圳政府举办的创新创业大赛。这几次活动我都认识了许多新的朋友。
回国前,我也和芳芳度过了最后一段充实的时光。我们去听了演唱会,去爬了山(尽管差点在山上回不来),还去游了泳。9月29 号,我告别了过去9年认识的朋友,坐上了回国的飞机。
回国以后,出于对就业的焦虑,我没有花很多时间投简历。国庆刚结束,我就很快入职了一家工业软件公司,担当算法开发工程师。实际工作中,很多东西都是临时需要用,才开始接触。比如Langchain和Autogen,在工作前我都没有系统接触过。当然这也是好事,重新接触这些代码,让我对项目代码产生了更深的理解,原先编程中不理解的点,都在实际应用中得到了解答。
2023年的12月27日,我写下了第一篇博客,打算记录自己的学习,工作和生活。回顾过去两年,当时的我非常迷茫,而二硕的选择彻彻底底改变了我的人生轨迹。
2023年的12月31日,是这忙忙碌碌一年的最后一天,我依旧迷茫。但是迷茫并不是坏事,迷茫而不自知才是。我想这是我过去一年的最大收获。
2023/12/31 于苏州