#include <PolicyIteration.hh>

Inheritance diagram for PolicyIteration:

Classes
struct	state_info
Public Types
typedef const std::vector < float > *	state_t
Public Member Functions
virtual int	getBestAction (const std::vector< float > &s)
virtual void	planOnNewModel ()
	PolicyIteration (int numactions, float gamma, int MAX_LOOPS, float MAX_TIME, int modelType, const std::vector< float > &featmax, const std::vector< float > &featmin, const std::vector< int > &statesPerDim, Random rng=Random())
	PolicyIteration (const PolicyIteration &)
virtual void	savePolicy (const char *filename)
virtual void	setModel (MDPModel *model)
virtual bool	updateModelWithExperience (const std::vector< float > &last, int act, const std::vector< float > &curr, float reward, bool term)
virtual	~PolicyIteration ()
Public Attributes
bool	ACTDEBUG
MDPModel *	model
bool	MODELDEBUG
bool	PLANNERDEBUG
bool	POLICYDEBUG
Protected Member Functions
void	calculateReachableStates ()
state_t	canonicalize (const std::vector< float > &s)
void	createPolicy ()
void	deleteInfo (state_info *info)
std::vector< float >	discretizeState (const std::vector< float > &s)
float	getActionValue (state_t s, state_info *info, int act)
double	getSeconds ()
void	initNewState (state_t s)
void	initStateInfo (state_info *info)
void	policyEvaluation ()
bool	policyImprovement ()
void	printStates ()
void	removeUnreachableStates ()
void	updateStateActionFromModel (const std::vector< float > &state, int j)
void	updateStatesFromModel ()
Private Attributes
std::vector< float >	featmax
std::vector< float >	featmin
const float	gamma
const int	MAX_LOOPS
int	MAX_STEPS
const float	MAX_TIME
const int	modelType
int	nactions
int	nstates
const int	numactions
double	planTime
int	prevact
std::vector< float >	prevstate
std::map< state_t, state_info >	statedata
std::set< std::vector< float > >	statespace
const std::vector< int > &	statesPerDim
bool	timingType

Detailed Description

Definition at line 12 of file PolicyIteration.hh.

Member Typedef Documentation

typedef const std::vector<float>* PolicyIteration::state_t

The implementation maps all sensations to a set of canonical pointers, which serve as the internal representation of environment state.

Definition at line 18 of file PolicyIteration.hh.

Constructor & Destructor Documentation

PolicyIteration::PolicyIteration	(	int	numactions,
		float	gamma,
		int	MAX_LOOPS,
		float	MAX_TIME,
		int	modelType,
		const std::vector< float > &	featmax,
		const std::vector< float > &	featmin,
		const std::vector< int > &	statesPerDim,
		Random	rng = `Random()`
	)

Standard constructor

Parameters:

numactions,numactions	in the domain
gamma	discount factor
maxloops
max	time
rng	random

Definition at line 8 of file PolicyIteration.cc.

PolicyIteration::PolicyIteration ( const PolicyIteration & )

Unimplemented copy constructor: internal state cannot be simply copied.

PolicyIteration::~PolicyIteration ( ) [virtual]

Definition at line 44 of file PolicyIteration.cc.

Member Function Documentation

void PolicyIteration::calculateReachableStates ( ) [protected]

Sets # of steps to visited states to 0, unvisited to 100000

Definition at line 333 of file PolicyIteration.cc.

PolicyIteration::state_t PolicyIteration::canonicalize ( const std::vector< float > & s ) [protected]

Produces a canonical representation of the given sensation.

Parameters:

s	The current sensation from the environment.

Returns:: A pointer to an equivalent state in statespace.

Definition at line 248 of file PolicyIteration.cc.

void PolicyIteration::createPolicy ( ) [protected]

Do Policy Iteration

Definition at line 420 of file PolicyIteration.cc.

void PolicyIteration::deleteInfo ( state_info * info ) [protected]

Definition at line 404 of file PolicyIteration.cc.

std::vector< float > PolicyIteration::discretizeState ( const std::vector< float > & s ) [protected]

Definition at line 780 of file PolicyIteration.cc.

float PolicyIteration::getActionValue	(	state_t	s,
		state_info *	info,
		int	act
	)		`[protected]`

Definition at line 528 of file PolicyIteration.cc.

int PolicyIteration::getBestAction ( const std::vector< float > & state ) [virtual]

Choose the next action

Implements Planner.

Definition at line 196 of file PolicyIteration.cc.

double PolicyIteration::getSeconds ( ) [protected]

Definition at line 411 of file PolicyIteration.cc.

void PolicyIteration::initNewState ( state_t s ) [protected]

Definition at line 70 of file PolicyIteration.cc.

void PolicyIteration::initStateInfo ( state_info * info ) [protected]

Definition at line 279 of file PolicyIteration.cc.

void PolicyIteration::planOnNewModel ( ) [virtual]

Implements Planner.

Definition at line 227 of file PolicyIteration.cc.

void PolicyIteration::policyEvaluation ( ) [protected]

Definition at line 652 of file PolicyIteration.cc.

bool PolicyIteration::policyImprovement ( ) [protected]

Definition at line 461 of file PolicyIteration.cc.

void PolicyIteration::printStates ( ) [protected]

Print state info for debugging.

Definition at line 303 of file PolicyIteration.cc.

void PolicyIteration::removeUnreachableStates ( ) [protected]

Deletes states that we no longer believe to be reachable.

Definition at line 361 of file PolicyIteration.cc.

void PolicyIteration::savePolicy ( const char * filename ) [virtual]

Reimplemented from Planner.

Definition at line 742 of file PolicyIteration.cc.

void PolicyIteration::setModel ( MDPModel * model ) [virtual]

Implements Planner.

Definition at line 58 of file PolicyIteration.cc.

bool PolicyIteration::updateModelWithExperience	(	const std::vector< float > &	laststate,
		int	lastact,
		const std::vector< float > &	currstate,
		float	reward,
		bool	term
	)		`[virtual]`