曾经,智人发明复杂的语言系统,以获取多样的描述
今日,人们运用抽象的数字数据,以认知复杂的世界
在这样的一个纪元,数字和数据已然成为人类共同的语言。可以说,是数学和统计学的发展开启了人们对抽象和非直观世界及空间的深入探索:数字与数据,是一场现代的认知革命。同样,每个夏天,都有活跃在杜克大学从事着数学(DOmath)及数据(Data+)研究的同学们。不妨,让我们来看看,他们是如何使用这新的认知工具,来认识、开拓、并改善着这个世界的。
胡心淳 Atsushi
Trinity Class of 2021
数学专业
好的!这个暑假我参与的是杜克一年一度的DOmath。这是一个为期八周的数学系的研究项目。相比起同样很著名的DATA+来说,DOmath更加偏向纯数学理论一些。因为我是数学专业,所以我想要尽可能早地趁这个机会,来看看我是否真的适合走理论数学的学术科研路线。因此我申请到了今年DOmath,并且被分配到了一个十分烧脑的项目:设计量子计算机的电路(Designing circuits for quantum computer)。
分配到这个项目的时候感觉非常巧,因为高中的时候就和同学做过一个跟quantum product state有关的数学项目,但是那时并没有把所有的东西全部都搞懂,读paper的时候也是一头雾水。因此我现在能够重新回到这个知识领域,其实是很幸运的。一方面是可以温习并更加清晰地理解以前接触过线性代数的内容,另一方面也能够学到更多有关这方面在量子计算的运用,同时这个项目也涉及到数学分析,抽象代数,群论等领域的综合应用,给了我很多学习的机会。
其实所有的information transmission的过程中,信息都会受到内部和外部因素的干扰,为了保护信息,所有的circuit都是涉及到加密和解密的两个步骤。我们设计这个circuit也是一样,需要考虑原本的一个bit应该加密到多少的bit,尽可能多地保证不被noise过多的干扰,也还要保证transmission的效率。
至于物理上的量子纠缠,那只是我们人类一个观察到的结果,但是,结果并不是一定会被观察到的,因为这个世界本来就是一个概率存在的世界。比如说2个bit的information,经过transformation后,我们只观察到其中一个的状态,却可以直接确定第二个的状态,这个现象其实是可以通过数学理论推导所得到的,也就是大家常说的纠缠,entangled state。另一个例子,就是一个传统上推导出来的数学理论,却在量子领域里面并不成立,这就更一步证明了这个世界是一个probability主宰的世界,并不deterministic。
这是一个数学,物理和哲学的交叉口。正好我对哲学也始终抱有十分浓厚的兴趣。无论是概率还是决定论,都会让我不由得去思考,我们的生命到底是什么样的,人是否有自由意志,我们的一举一动是被什么激发的,又会造成什么样的影响。
问教授和supervisor。而且教授其实很有趣,在quantum computing的领域里面,有个很权威的教科书,也是我们这次要阅读的一本书。其中,提到了一个‘CSS’的code。这个code的名字来源于三个同时独立发现这个code的researcher的名字,其中第一个就是‘C’指的就是我们的教授Calderbank,而他现在就每周亲自给我们上课!以及另一次,我们的supervisor让我们想一个transformation,问我们如何设计一个circuit来达到这样的效果。我们:不知道。Supervisor 一句话都没说,在黑板上画出来了一个非常复杂的circuit。
我们问supervisor: How did they come up with it?
Supervisor: “They didn’t. I came up with it.”
其实,杜克有很多非常好的项目。DukeEngage,Data+,DOmath,都是很好的机会和人生体验。不过,因为项目的风格和本质有所不同,因此我觉得学弟学妹们更应该要仔细审视自己的内心,去申请自己真的喜欢的项目,并且在申请的时候了解每个具体的项目到底是关于什么领域的,而不应该为了做项目而做项目。因为再好的项目,不符合自我风格的,难免会变成一种煎熬。有幸参与DOmath这个项目,我很开心能够如此快速的学习,这也是我自高中以来,第一次学东西这么认真这么高效。
Pratt class of 2021
ECE and CS Double Major
我这次做的项目是Deep Learning for Single Cell Analysis。我们都知道,人各个细胞中的DNA序列都是一样的(除去变异、错误复制和生殖细胞),但是不同的细胞会有不同的形态和性状,这就是因为细胞会通过在不同的基因上以不一样的频率表达,从而分化成不同的细胞。那么我们要做的,就是在得知一个细胞在各个基因上表达的频率后,通过深度学习的方法,来定位这个细胞到底是怎样的一个细胞。
大一的时候我在Cynthia教授的实验室做关于肺癌的深度学习诊断研究,因此第一次接触到了深度学习并的确深度地喜欢上了它。因此,当我在Data+的Project Lists里面看到Deep Learning二字的时候,心里就已经有数了。此外,在我熟悉的Deep Learning领域之外,这个这个项目还能拓宽我的知识面,比如说一些无监督式学习,都是我之前鲜有接触过的,以及在生物学和统计学的方面的一些能够和Deep Learning挂钩的知识,都可以在这个项目中探索到。
每天的日常是怎样的呢?
Data+整体的工作模式其实是很放松的,因为不少的project其实对于学生的要求没有那么高,因此更多的是在学习和自由探索这两个方面。教授对于学生不会有过高的要求和期望,因此心理压力就小很多了,这样才能够做到没有目的性地做研究。工作之余,生活上其实也很滋润,很自由!我们每天工作的时间其实自己可以调整,没有过于硬性的到校和离岗的时间点。不做研究的时候,我可以做一做自己的research,学习喜欢的Computer Science。现在我在学习html,并且尝试做一个酷炫的属于自己的网站。此外还可以做很多杂事,比如说去听演唱会!学车考驾照,之后在北卡周边自驾,hiking。哦对了还有sky diving和parachuting,好像价钱还不太贵!
其实夏天是很自由的,光学校的项目就有DukeEngage,Data+和DOmath。如果想比较chill且并不太清楚自己毕业后想做什么的话,强烈推荐DukeEngage,一是因为免费,二是因为可以去很多自己不可能会想到要去的地方,三,也是最重要的,是在那里真的是可以做很多很有意义的帮助世界的事情。如果毕业后更多考虑找工作的话,可以更多考虑实习。当然如果以后要做更深入的研究或者读graduate school的话,可以做一些更深入的研究,比如说DoMath、Data+或者直接和教授联系的research。
刘杰 Vincent
TrinityClass of 2021
计算机科学与统计学专业
我做的项目叫做Co-curricular Technology Pathway e-advisor,是今年杜克OIT(Officeof Information Technology)提出的想法,目的在于为学生创建一个能够指导自己选择课外活动的机制。杜克的资源十分的多,加之人的精力有限,有很多项目都只有少数人知道。为了促进信息的流动和鼓励学生参与各式各样的课外活动,我们团队打算制作一个推荐系统,通过学生的专业和过去参加的活动,将校内的资源和机会推荐给他们。当然,这是一个漫长的课题,需要大量的数据,这十周的研究将是一个开端。
在收集数据的过程中,我们给三十多个组织分别发了邮件,请求他们提供学生的基本信息,例如netID,专业,参加的活动的名称,等等。有些组织了解我们项目之后,立即把所有数据发给我们,并表示期待最终的产品。而另一些组织则相反,谨慎地和我们来往了好几封邮件,甚至要求见面,以确保提供学生数据不会给他们带来涉及隐私问题的麻烦。
团队包括两个即将大二和两个即将大三的学生,三个计算机专业,一个经济专业。在课题的不同阶段,我们的分工也不同。最开始时,大家齐心协力地头脑风暴。收集数据时,每个人都负责联系一些学校组织。现在处于数据分析阶段,我们正在用R语言来编写一套推荐系统。
某天晚上坐Uber和司机谈话,他得知我来自中国后,紧接着问我有没有人民币,让我捏了一小把汗。还好他马上说明他只是个货币收集爱好者,已经收集了两个画框的不同的货币。我下车时递给他一张一元人民币,他小心地接过,看起来很开心。
Data+这个项目涵盖的学科很多,所以一般来说你会找到你感兴趣的方面。近些年来,与数据有关的技能变得越来越重要。多学一点东西,总是好的。
谢丰雨 Harry
Pratt Class of 2021
电子电脑工程和统计学专业
可以开始了吗?
稍微等下,我在煮蛋。好了!
我参加的是暑期的Data+ program。其实很著名呀,这个项目!这个项目总共时间10周,我当时参加这个是因为第一学期的一门课的教授Marchi鼎力推荐了这个项目,因此我就申请了。
Data+有很多的项目,我这个项目是我的首选,叫做Improving Data Center Performance。因为Duke的data center任务繁重,以至于有的时候,由于导致计算任务的不平均分配,会使得原本可以达到更高的性能的data center却会有部分资源的浪费,因此,我们基于每一段时间data center所产生的一个关于这一段时间资源占用的报告portfolio,来进行data analysis,更合理地分配data center的资源,从而达到更好的性能。
一方面是因为高中的时候我做的有很多关于电脑硬件的研究,所以Data Center这个和硬件直接挂钩的项目确实对我很有吸引力。不过还有一个原因,那就是我们这个项目的教授Benjamin Lee是一个非常尽职尽责的教授,和学生们处得非常融洽,而且我还上过他的课,因此我就选择了他的这个项目。
不大,挺chill的。团队里面的队友也都很靠谱,没有不干事儿的组员出现,对于我们来说就是万幸了。早上8点多来到Gross Hall,有的时候会有从各个公司来的professional data analyst会来作讲座,还可以搭讪(network);然而下午4点多大概就可以回家了,因此项目的压力斌不是特别大,反而给予了我们很多的可以自由安排的时间和更多的发挥想象力的可能性。
Data+确实是一个学习data analysis非常好的program,与现实的数据接轨,以及能够与现实中的人面对面交流。此外,这个项目应该是杜克大学暑期项目里给的Stipend最多的,10周$5000。合理地使用好5000刀其实也是暑假自己独立生活的一次历练和挑战,怎么样adulting相信也是同学们在美国四年中重点想要思考的问题。不过,因为确实暑假有很多的事情可以去做,当然也应该依据自己的兴趣爱好找到最适合自己的Program。
空白
本期CSA的研究项目推送就到这里啦,请各位Blue Devil和广大群众期待我们后续的暑期精彩内容!
输入
图片| 胡心淳,陶超凡,刘杰,谢丰雨
采访| Bob Ding
编辑| Bob Ding, Yutao Gong