U of T新闻
  • 关注U of T新闻

开创性:美国大学的数据科学研究所帮助研究人员找到他们最大问题的答案

与多所大学的CHIME射电望远镜合作的研究人员.C. 正在与犹他大学数据科学研究所的专家合作解决计算和处理问题(照片由Chime合作提供)

当时AG真人的天文学家 布莱恩Gaensler 仰望夜空,他看到的不仅仅是星星,他看到的是数据. 大数据.

布莱恩Gaensler 
(照片由邓拉普研究所提供)

如此之大, 事实上, 他目前追踪令人困惑的“快速射电暴”(frb)的研究需要每秒捕获的数据比加拿大所有的互联网流量还要多。frb从宇宙各处轰击地球.

“这可能是目前天文学中最令人兴奋的事情, 这完全是个谜,”Gaensler说, T大学邓拉普天文研究所主任 & 天体物理学和加拿大射电天文学研究主席. “随机, 也许一分钟一次, 这是一种令人难以置信的无线电波的闪光——就像一毫秒的静态脉冲——从天空的任意方向发出.

“我们现在知道它们来自非常遥远的距离, 高达数十亿光年, 所以它们一定非常强大才能在这么远的地方被看到.”

在发现frb方面,U of T是世界领先的 多大学CHIME无线电望远镜 在不列颠哥伦比亚省奥卡那根地区和一台T大学的超级计算机. 然而,尽管有令人印象深刻的技术,许多艰巨的挑战仍然存在.

“这是一个巨大的计算和处理问题,阻碍了我们的发展,”他说. “我们每天每秒钟都在记录比整个加拿大互联网还要多的信息. 因为没有足够大或足够快的硬盘来保存这些数据, 最后我们把大部分都扔掉了. 我们显然想更好地处理这些数据, 所以这需要更好的设备,更好的算法和更好的思考数据的方式.”

U (T)的生成 数据科学研究所 (DSI), Gaensler和他的同事现在有一个新的地方可以寻求帮助. 研究所, 哪一家明天要举行发布会, 旨在帮助大学丰富的学术专家在各个学科与统计学家的团队, 计算机科学家, 数据工程师和其他数字专家创造强大的研究结果,可以解决广泛的问题,从揭示星际之谜到寻找拯救生命的基因疗法.

“未来的道路是召集新的天文学家团队, 计算机科学家, 人工智能专家和统计学家,他们可以提出新的优化方法来回答我们目前不知道如何解决的具体科学问题,说“詹兹勒.

数据科学研究所只是近24个研究所之一 机构战略举措 (ISI)由德克萨斯大学推出,以解决复杂, 跨越各个专业领域的现实世界挑战. 每一项倡议都汇集了灵活, 多学科研究团队, 来自业界的学生和合作伙伴, 政府和社会各界要承担“重大挑战”.”

“我们将传统学科领域与计算和数据科学的交叉领域的个人聚集在一起,” 丽莎Strug, 他是数据科学研究所的主任,也是文学院统计科学系和计算机科学系的教授 & 他是儿童医院研究所的资深科学家.

她指出,德克萨斯大学在医学等领域拥有世界领先的专家, 健康, 社会科学, 天体物理学和艺术, 以及“世界上一些与数据科学相关领域(如统计学)的顶级部门, 数学, 计算机科学与工程.”

数据科学技术可以应用于从气候变化到交通运输等几乎无穷无尽的学术问题, 规划艺术史. 在文学, Strug说, 许多前几个世纪的作品现在正被数字化, 允许基于数据的分析, 说, 句子结构.

“数据科学的新领域每天都在涌现,”Strug说, 谁负责对复杂疾病(如囊性纤维化)进行数据密集的基因组学研究?囊性纤维化已经为研发治疗这种衰弱性肺病的新药带来了希望. “我们有如此多的计算学科实力,我们可以利用它来定义和推进这些新领域.

“我们希望确保教师能够接触到尖端的工具和方法,使他们能够推动其领域的前沿. 他们可能会回答一些以前不会问的问题, 没有那些数据和工具.”

DSI的一个关键功能是创建和资助来自不同学科的教授和学生的合作研究团队(crt),他们可以在稳定的支持下一起工作在重要的项目上.

Gaensler, 谁的团队中已经有统计学家了, 他说,他希望通过crt极大地扩展他的工作范围.

他表示:“我们刚刚完成了唾手可得的目标。. “还有许多更深层次的问题,我们甚至还没有开始.”

劳拉·罗塞拉
劳拉·罗塞拉(Caitlin Free摄影)

同样的, 劳拉·罗塞拉, 达拉拉娜公共卫生学院副教授, 他说,合作团队将是这所大学的主要资产.

“我们将为这些多学科的实习生和博士后提供资金,这样我们就可以开始培养一批能够在这些学科之间进行转换的人才,”她说. “要解决问题,你需要这种连接技能.”

罗塞拉在安大略省如何应对2021年初的COVID-19方面发挥了关键作用. 通过分析匿名手机数据和健康信息, 她和她的跨学科团队能够看到人们移动和聚集的地方, 然后提前预测两周后可能出现的疾病聚集. 她的工作帮助支持了该省瞄准所谓“热点”的成功战略.”

“我们已经能够与不同的数据源合作,以产生可用于
高级别大流行病防备和规划, 以以前不可能的方式,”罗塞拉说, 谁控制安大略的COVID-19 造型一致表. “我们还从新的角度对健康的社会决定因素的数据进行了研究,从而揭示了真正解决COVID - 19发病率差距所需的政策措施.”

罗塞拉的人口风险工具还包括糖尿病风险工具, 哪些卫生系统可以用来估计未来的疾病负担并指导未来的规划. 这包括关于建筑环境的输入. 例如, 如果人们可以步行到一个新的公交站, 罗塞拉说, 增加锻炼可能会对糖尿病或其他疾病产生影响. 她说,甚至卫星成像数据也可能被纳入预测组合.

除了推动特定领域的研究之外, 数据科学研究所也在寻求促进公平.

这包括解决数据研究发现的社会不平等问题——包括社会经济因素如何决定谁更有可能感染COVID-19——以及研究本身进行的方式. 

例如, 斯特鲁格说,大多数基因组学研究都集中在欧洲血统的参与者身上, 尽管不同种族之间,各种疾病的遗传风险因素可能不同.

“我们必须确保开发和实施这些模型, 设计工具和研究——并将不同的数据来源汇集起来——以确保我们对疾病风险的理解适用于所有人,”Strug说.

许多算法, 或者他们用来预测的数据, 包含可能扭曲结果的无意识偏见——这就是为什么斯特鲁格说,透明度对于支持公平和确保研究能够正确地复制至关重要.

Gaensler说,确保研究人员的多样性也很重要.

“我所在的部门看起来与我在地铁上看到的面孔非常不同,”他说. “这不是对加拿大社会的随机抽样——这是非常男性化的, 白老, 这是我们需要解决的问题.”

斯特鲁格希望数据科学研究所最终能成为整个大学乃至大学以外研究人员的核心.

“大学从来没有一个入口来引导人们, 所以我们做那扇大门很重要,”她说.

“我们将尽一切努力跟上数据科学中发生的各种奇妙的事情,并能够引导人们去正确的地方, 同时提供一个包容性的, 欢迎和鼓舞学术家.”

这篇文章是 系列的一部分 该项目旨在从传染病到社会正义等各个领域取得改变生活的进展,以及推动该项目的研究团体.

 

 

 

 

新闻