January 2, 2024
Globem Code Description Translate
本文主要翻译自 GLOBEM 项目中地 README.md 文件,GLOBEM 实现了当前行为建模这个领域内,样本最大、采用 longitudinal 、数据类型也较为全面的数据集。同时提供了一个代码平台用于各种不同任务、算法的评估和验证。
我读到 GLOBEM 项目的源码时,非常佩服作者对于不同模块的顶层设计、不同功能的抽象,从而实现了这样一个既清晰又有很强扩展性的代码项目。所以我翻译了这份 README 文件,一是为行为数据分析领域的研究人员介绍一个方便易用的平台与数据集,二是给想要将不同机器学习算法应用到自己领域的广大研究者一个样例,可以模仿类似的设计构建相应的代码项目。
简介 平台在 MacOS 11.6 (intel) 和 CentOS 7 上使用 Python 3.7 进行了测试。只需一行命令即可尝试该平台,假设机器上已经安装了 Anaconda/miniconda。请在教程的其余部分中找到设置和示例的详细说明。
/bin/bash run.sh 环境设置 环境 GLOBEM 是一个基于 Python 的平台,利用了多个开源库进行开发,保证了其灵活性。ml_xu_interpretable、ml_xu_personalized 和 ml_chikersal 需要 Java JDK(>= 11)。以下是使用 Anaconda 或 miniconda 进行环境设置的示例:
conda create -n globem python=3.7 conda activate globem pip install -r requirements.txt 数据集准备 示例原始数据位于 data_raw 文件夹中。每个数据集包含 ParticipantsInfoData、FeatureData 和 SurveyData。有关原始数据格式的更多详细信息,请参阅 data_raw/README.md。
我们准备了一个简单的脚本来处理这些原始数据,并将文件列表保存到 data 文件夹中。由于不同的主题可能具有不同数量的数据,处理的主要目的是将数据切片成标准的 <feature matrix, label> 。每个数据集都包含一个 <feature matrix, label> 对的列表,这些对保存在一个 DatasetDict 对象中。
Read more