GenSVM/gensvm__cv__util_8c_source.html

 #include "gensvm_cv_util.h"

 void gensvm_make_cv_split(long N, long folds, long *cv_idx)
 {
     long i, j, idx;

     for (i=0; i<N; i++)
         cv_idx[i] = 0;

     long big_folds = N%folds;
     long small_fold_size = N/folds;

     j = 0;
     for (i=0; i<small_fold_size*folds; i++)
         while (1) {
             idx = rand()%N;
             if (cv_idx[idx] == 0) {
                 cv_idx[idx] = j;
                 j++;
                 j%=folds;
                 break;
             }
         }
     j = 0;
     i = 0;
     while (i < big_folds) {
         if (cv_idx[j] == 0) {
             cv_idx[j] = i++;
         }
         j++;
     }
 }

 void gensvm_get_tt_split(struct GenData *full_data,
         struct GenData *train_data, struct GenData *test_data,
         long *cv_idx, long fold_idx)
 {
     if (full_data->Z == NULL)
         gensvm_get_tt_split_sparse(full_data, train_data, test_data,
                 cv_idx, fold_idx);
     else
         gensvm_get_tt_split_dense(full_data, train_data, test_data,
                 cv_idx, fold_idx);
 }

 void gensvm_get_tt_split_dense(struct GenData *full_data,
         struct GenData *train_data, struct GenData *test_data,
         long *cv_idx, long fold_idx)
 {
     long i, j, k, l, test_n, train_n;

     long n = full_data->n;
     long m = full_data->m;
     long K = full_data->K;

     double value;

     test_n = 0;
     for (i=0; i<n; i++)
         if (cv_idx[i] == fold_idx)
             test_n++;
     train_n = n - test_n;

     test_data->n = test_n;
     train_data->n = train_n;

     train_data->K = K;
     test_data->K = K;

     train_data->m = m;
     test_data->m = m;

     train_data->y = Calloc(long, train_n);
     test_data->y = Calloc(long, test_n);

     train_data->RAW = Calloc(double, train_n*(m+1));
     test_data->RAW = Calloc(double, test_n*(m+1));

     k = 0;
     l = 0;
     for (i=0; i<n; i++) {
         if (cv_idx[i] == fold_idx) {
             test_data->y[k] = full_data->y[i];
             for (j=0; j<m+1; j++) {
                 value = matrix_get(full_data->RAW, m+1, i, j);
                 matrix_set(test_data->RAW, m+1, k, j, value);
             }
             k++;
         } else {
             train_data->y[l] = full_data->y[i];
             for (j=0; j<m+1; j++) {
                 value = matrix_get(full_data->RAW, m+1, i, j);
                 matrix_set(train_data->RAW, m+1, l, j, value);
             }
             l++;
         }
     }

     train_data->Z = train_data->RAW;
     test_data->Z = test_data->RAW;
 }


 void gensvm_get_tt_split_sparse(struct GenData *full_data,
         struct GenData *train_data, struct GenData *test_data,
         long *cv_idx, long fold_idx)
 {
     long i, j, test_n, train_n, train_nnz, test_nnz, row_nnz, jj,
          jj_start, jj_end,
          tr_nnz_idx = 0,
          tr_row_idx = 0,
          te_nnz_idx = 0,
          te_row_idx = 0;

     double value;

     // determine number of instances in test and train
     test_n = 0;
     for (i=0; i<full_data->n; i++)
         if (cv_idx[i] == fold_idx)
             test_n++;
     train_n = full_data->n - test_n;

     // set n, m, K variables
     train_data->n = train_n;
     train_data->m = full_data->m;
     train_data->K = full_data->K;
     test_data->n = test_n;
     test_data->m = full_data->m;
     test_data->K = full_data->K;

     // allocate outcome
     train_data->y = Calloc(long, train_n);
     test_data->y = Calloc(long, test_n);

     // compute train nnz and test nnz
     train_nnz = 0;
     test_nnz = 0;
     for (i=0; i<full_data->n; i++) {
         row_nnz = full_data->spZ->ia[i+1] - full_data->spZ->ia[i];
         if (cv_idx[i] == fold_idx) {
             test_nnz += row_nnz;
         } else {
             train_nnz += row_nnz;
         }
     }

     // allocate the train GenSparse
     train_data->spZ = gensvm_init_sparse();
     test_data->spZ = gensvm_init_sparse();

     // set GenSparse variables for train
     train_data->spZ->nnz = train_nnz;
     train_data->spZ->n_row = train_n;
     train_data->spZ->n_col = full_data->m+1;
     train_data->spZ->values = Calloc(double, train_nnz);
     train_data->spZ->ia = Calloc(long, train_n+1);
     train_data->spZ->ja = Calloc(long, train_nnz);

     // set GenSparse variables for test
     test_data->spZ->nnz = test_nnz;
     test_data->spZ->n_row = test_n;
     test_data->spZ->n_col = full_data->m+1;
     test_data->spZ->values = Calloc(double, test_nnz);
     test_data->spZ->ia = Calloc(long, test_n+1);
     test_data->spZ->ja = Calloc(long, test_nnz);

     tr_nnz_idx = 0;
     tr_row_idx = 0;
     te_nnz_idx = 0;
     te_row_idx = 0;

     test_data->spZ->ia[0] = 0;
     train_data->spZ->ia[0] = 0;
     for (i=0; i<full_data->n; i++) {
         jj_start = full_data->spZ->ia[i];
         jj_end = full_data->spZ->ia[i+1];

         for (jj=jj_start; jj<jj_end; jj++) {
             j = full_data->spZ->ja[jj];
             value = full_data->spZ->values[jj];

             if (cv_idx[i] == fold_idx) {
                 test_data->spZ->values[te_nnz_idx] = value;
                 test_data->spZ->ja[te_nnz_idx] = j;
                 te_nnz_idx++;
             } else {
                 train_data->spZ->values[tr_nnz_idx] = value;
                 train_data->spZ->ja[tr_nnz_idx] = j;
                 tr_nnz_idx++;
             }
         }

         if (cv_idx[i] == fold_idx) {
             test_data->y[te_row_idx] = full_data->y[i];
             test_data->spZ->ia[te_row_idx+1] = te_nnz_idx;
             te_row_idx++;
         } else {
             train_data->y[tr_row_idx] = full_data->y[i];
             train_data->spZ->ia[tr_row_idx+1] = tr_nnz_idx;
             tr_row_idx++;
         }
     }
 }
Calloc
#define Calloc(type, size)
Definition: gensvm_memory.h:40

GenSparse::ja
long * ja
column indices, should be of length nnz
Definition: gensvm_sparse.h:67

GenSparse::n_col
long n_col
number of columns of the original matrix
Definition: gensvm_sparse.h:60

GenData::K
long K
number of classes
Definition: gensvm_base.h:58

matrix_get
#define matrix_get(M, cols, i, j)
Definition: gensvm_globals.h:111

gensvm_get_tt_split
void gensvm_get_tt_split(struct GenData *full_data, struct GenData *train_data, struct GenData *test_data, long *cv_idx, long fold_idx)
Wrapper around sparse/dense versions of this function.
Definition: gensvm_cv_util.c:107

gensvm_get_tt_split_sparse
void gensvm_get_tt_split_sparse(struct GenData *full_data, struct GenData *train_data, struct GenData *test_data, long *cv_idx, long fold_idx)
Create train and test dataset for a CV split with sparse data.
Definition: gensvm_cv_util.c:223

GenData::Z
double * Z
Definition: gensvm_base.h:68

GenSparse::nnz
long nnz
number of nonzero elements
Definition: gensvm_sparse.h:56

GenData::y
long * y
array of class labels, 1..K
Definition: gensvm_base.h:66

GenData
A structure to represent the data.
Definition: gensvm_base.h:57

GenSparse::values
double * values
actual nonzero values, should be of length nnz
Definition: gensvm_sparse.h:63

gensvm_get_tt_split_dense
void gensvm_get_tt_split_dense(struct GenData *full_data, struct GenData *train_data, struct GenData *test_data, long *cv_idx, long fold_idx)
Create train and test datasets for a CV split with dense data.
Definition: gensvm_cv_util.c:142

GenData::m
long m
number of predictors (width of RAW)
Definition: gensvm_base.h:62

matrix_set
#define matrix_set(M, cols, i, j, val)
Definition: gensvm_globals.h:106

GenData::n
long n
number of instances
Definition: gensvm_base.h:60

gensvm_init_sparse
struct GenSparse * gensvm_init_sparse(void)
Initialize a GenSparse structure.
Definition: gensvm_sparse.c:38

GenSparse::ia
long * ia
cumulative row lengths, should be of length n_row+1
Definition: gensvm_sparse.h:65

GenData::RAW
double * RAW
augmented raw data matrix
Definition: gensvm_base.h:73

GenData::spZ
struct GenSparse * spZ
sparse representation of the augmented data matrix
Definition: gensvm_base.h:71

gensvm_cv_util.h
Header file for gensvm_cv_util.c.

gensvm_make_cv_split
void gensvm_make_cv_split(long N, long folds, long *cv_idx)
Create a cross validation split vector.
Definition: gensvm_cv_util.c:54

GenSparse::n_row
long n_row
number of rows of the original matrix
Definition: gensvm_sparse.h:58